樸素貝葉斯(Naive Bayesian algorithm)是有監(jiān)督學(xué)習(xí)的一種分類算法,它基于“貝葉斯定理”實(shí)現(xiàn),該原理的提出人是英國(guó)著名數(shù)學(xué)家托馬斯·貝葉斯。貝葉斯定理是基于概率論和統(tǒng)計(jì)學(xué)的相關(guān)知識(shí)實(shí)現(xiàn)的,因此在正式學(xué)習(xí)“樸素貝葉斯算法”前,我們有必要先認(rèn)識(shí)“貝葉斯定理”。
貝葉斯定理貝葉斯定理的發(fā)明者 托馬斯·貝葉斯 提出了一個(gè)很有意思的假設(shè):“如果一個(gè)袋子中共有 10 個(gè)球,分別是黑球和白球,但是我們不知道它們之間的比例是怎么樣的,現(xiàn)在,僅通過(guò)摸出的球的顏色,是否能判斷出袋子里面黑白球的比例?”上述問(wèn)題可能與我們高中時(shí)期所接受的的概率有所沖突,因?yàn)槟闼佑|的概率問(wèn)題可能是這樣的:“一個(gè)袋子里面有 10 個(gè)球,其中 4 個(gè)黑球,6 個(gè)白球,如果你隨機(jī)抓取一個(gè)球,那么是黑球的概率是多少?”毫無(wú)疑問(wèn),答案是 0.4。這個(gè)問(wèn)題非常簡(jiǎn)單,因?yàn)槲覀兪孪戎懒舜永锩婧谇蚝桶浊虻谋壤?,所以很容易算出摸一個(gè)球的概率,但是在某些復(fù)雜情況下,我們無(wú)法得知“比例”,此時(shí)就引出了貝葉斯提出的問(wèn)題。 在統(tǒng)計(jì)學(xué)中有兩個(gè)較大的分支:一個(gè)是“頻率”,另一個(gè)便是“貝葉斯”,它們都有各自龐大的知識(shí)體系,而“貝葉斯”主要利用了“相關(guān)性”一詞。下面以通俗易懂的方式描述一下“貝葉斯定理”:通常,事件 A 在事件 B 發(fā)生的條件下與事件 B 在事件 A 發(fā)生的條件下,它們兩者的概率并不相同,但是它們兩者之間存在一定的相關(guān)性,并具有以下公式(稱之為“貝葉斯公式”): 符號(hào)意義首先我們要了解上述公式中符號(hào)的意義:
有上述描述可知,貝葉斯公式可以預(yù)測(cè)事件發(fā)生的概率,兩個(gè)本來(lái)相互獨(dú)立的事件,發(fā)生了某種“相關(guān)性”,此時(shí)就可以通過(guò)“貝葉斯公式”實(shí)現(xiàn)預(yù)測(cè)。 條件概率條件概率是“貝葉斯公式”的關(guān)鍵所在,那么如何理解條件概率呢?其實(shí)我們可以從“相關(guān)性”這一詞語(yǔ)出發(fā)。舉一個(gè)簡(jiǎn)單的例子,比如小明和小紅是同班同學(xué),他們各自準(zhǔn)時(shí)回家的概率是 P(小明回家) = 1/2 和 P(小紅回家) =1/2,但是假如小明和小紅是好朋友,每天都會(huì)一起回家,那么 P(小紅回家|小明回家) = 1 (理想狀態(tài)下)。上述示例就是條件概率的應(yīng)用,小紅和小明之間產(chǎn)生了某種關(guān)聯(lián)性,本來(lái)倆個(gè)相互獨(dú)立的事件,變得不再獨(dú)立。但是還有一種情況,比如小亮每天準(zhǔn)時(shí)到家 P(小亮回家) =1/2,但是小亮喜歡獨(dú)來(lái)獨(dú)往,如果問(wèn) P(小亮回家|小紅回家) 的概率是多少呢?你會(huì)發(fā)現(xiàn)這兩者之間不存在“相關(guān)性”,小紅是否到家,不會(huì)影響小亮的概率結(jié)果,因此小亮準(zhǔn)時(shí)到家的概率仍然是 1/2。 貝葉斯公式的核心是“條件概率”,譬如 P(B|A),就表示當(dāng) A 發(fā)生時(shí),B 發(fā)生的概率,如果P(B|A)的值越大,說(shuō)明一旦發(fā)生了 A,B 就越可能發(fā)生。兩者可能存在較高的相關(guān)性。 先驗(yàn)概率在貝葉斯看來(lái),世界并非靜止不動(dòng)的,而是動(dòng)態(tài)和相對(duì)的,他希望利用已知經(jīng)驗(yàn)來(lái)進(jìn)行判斷,那么如何用經(jīng)驗(yàn)進(jìn)行判斷呢?這里就必須要提到“先驗(yàn)”和“后驗(yàn)”這兩個(gè)詞語(yǔ)。我們先講解“先驗(yàn)”,其實(shí)“先驗(yàn)”就相當(dāng)于“未卜先知”,在事情即將發(fā)生之前,做一個(gè)概率預(yù)判。比如從遠(yuǎn)處駛來(lái)了一輛車,是轎車的概率是 45%,是貨車的概率是 35%,是大客車的概率是 20%,在你沒有看清之前基本靠猜,此時(shí),我們把這個(gè)概率就叫做“先驗(yàn)概率”。后驗(yàn)概率在理解了“先驗(yàn)概率”的基礎(chǔ)上,我們來(lái)研究一下什么是“后驗(yàn)概率?”我們知道每一個(gè)事物都有自己的特征,比如前面所說(shuō)的轎車、貨車、客車,它們都有著各自不同的特征,距離過(guò)遠(yuǎn)的時(shí)候,我們無(wú)法用肉眼分辨,而當(dāng)距離達(dá)到一定范圍內(nèi)就可以根據(jù)各自的特征再次做出概率預(yù)判,這就是后驗(yàn)概率。比如轎車的速度相比于另外兩者更快可以記做 P(轎車|速度快) = 55%,而客車體型可能更大,可以記做 P(客車|體型大) = 35%。 如果用條件概率來(lái)表述 P(體型大|客車)=35%,這種通過(guò)“車輛類別”推算出“類別特征”發(fā)生的的概率的方法叫作“似然度”。這里的似然就是“可能性”的意思。 樸素+貝葉斯了解完上述概念,你可能對(duì)貝葉斯定理有了一個(gè)基本的認(rèn)識(shí),實(shí)際上貝葉斯定理就是求解后驗(yàn)概率的過(guò)程,而核心方法是通過(guò)似然度預(yù)測(cè)后驗(yàn)概率,通過(guò)不斷提高似然度,自然也就達(dá)到了提高后驗(yàn)概率的目的。我們知道“樸素貝葉斯算法”由兩個(gè)詞語(yǔ)組成。樸素(native)是用來(lái)修飾“貝葉斯”這個(gè)名詞的。按照中文的理解“樸素”意味著簡(jiǎn)單不奢華。樸素的英文是“native”,意味著“單純天真”。 樸素貝葉斯是一種簡(jiǎn)單的貝葉斯算法,因?yàn)樨惾~斯定理涉及到了概率學(xué)、統(tǒng)計(jì)學(xué),其應(yīng)用相對(duì)復(fù)雜,因此我們只能以簡(jiǎn)單的方式使用它,比如天真的認(rèn)為,所有事物之間的特征都是相互獨(dú)立的,彼此互不影響。關(guān)于樸素貝爺斯算法在下一節(jié)會(huì)詳細(xì)介紹。 |
|