一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

 條山石頭 2021-03-22

導(dǎo)讀:在機(jī)器學(xué)習(xí)的一些主要任務(wù)中,貝葉斯模型是一種經(jīng)典的簡(jiǎn)單學(xué)習(xí)模型。本文介紹貝葉斯模型及貝葉斯定理。

作者:盧譽(yù)聲

來(lái)源:華章科技

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

分類(lèi)問(wèn)題是一種經(jīng)典的機(jī)器學(xué)習(xí)問(wèn)題,而貝葉斯只是一種常見(jiàn)模型。比如最樸素的分類(lèi)模型和最容易理解的模型其實(shí)是決策樹(shù)模型,這種模型比較接近我們的決策思維。

主要思路是根據(jù)與我們解決問(wèn)題相關(guān)的多個(gè)因素逐一確定下一步的方案,整個(gè)決策過(guò)程就像一棵自頂向下的樹(shù)一樣,故名決策樹(shù)。如圖2-1所示,這是一個(gè)人根據(jù)天氣、溫度、風(fēng)況和氣壓幾個(gè)因素決定是否去釣魚(yú)的決策樹(shù)。

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

▲圖2-1 決策樹(shù)示例

圖中矩形的節(jié)點(diǎn)是決策節(jié)點(diǎn),節(jié)點(diǎn)之間連線上的是屬性值,而圓形節(jié)點(diǎn)是結(jié)果節(jié)點(diǎn)。

構(gòu)建完這個(gè)樹(shù)模型之后我們就可以預(yù)測(cè)這個(gè)人是否會(huì)出門(mén)釣魚(yú)了。預(yù)測(cè)時(shí),首先我們把數(shù)據(jù)輸入到根節(jié)點(diǎn)。其次,根據(jù)數(shù)據(jù)屬性值來(lái)選擇某個(gè)特定的分支,每選擇一個(gè)子節(jié)點(diǎn)再根據(jù)該節(jié)點(diǎn)分支的屬性值選擇該節(jié)點(diǎn)的特定分支,直到遞歸遍歷到葉子節(jié)點(diǎn)為止,就可以得到預(yù)測(cè)結(jié)果了。

這個(gè)模型比較符合我們解決問(wèn)題的邏輯思維,易于理解,因此常常會(huì)用在專(zhuān)家系統(tǒng)中。另外,這個(gè)模型需要存儲(chǔ)的參數(shù)相對(duì)較少,預(yù)測(cè)耗時(shí)短,這也是它的優(yōu)點(diǎn)。

但是決策樹(shù)其實(shí)遠(yuǎn)不止這么簡(jiǎn)單,常用的決策樹(shù)算法有ID3算法、C4.5算法、CART算法和隨機(jī)森林等,由于本章重點(diǎn)不是決策樹(shù),因此這里就不過(guò)多闡述了,有興趣的讀者可以自行查閱相關(guān)資料。

現(xiàn)在讓我們進(jìn)入正題:貝葉斯模型。貝葉斯思想的最初提出者如下圖所示——18世紀(jì)英國(guó)數(shù)學(xué)家托馬斯·貝葉斯(Thomas Bayes)。

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

貝葉斯模型的核心思想是貝葉斯定理,這源于他生前為解決一個(gè)“逆概”問(wèn)題而寫(xiě)的一篇文章,而這篇文章是在他死后才由他的一位朋友發(fā)表出來(lái)的。

在貝葉斯寫(xiě)這篇文章之前,人們已經(jīng)能夠計(jì)算“正向概率”,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一次,摸出黑球的概率是多少”。

逆向概率問(wèn)題是相反的一類(lèi)問(wèn)題,比如“如果事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球,觀察這些取出來(lái)的球的顏色之后,我們?nèi)绾瓮茰y(cè)此袋子里面的黑白球的比例?”

貝葉斯定理的思想出現(xiàn)在18世紀(jì),但真正大規(guī)模使用發(fā)生在計(jì)算機(jī)出現(xiàn)之后。因?yàn)檫@個(gè)定理需要大規(guī)模的數(shù)據(jù)計(jì)算推理才能體現(xiàn)效果,它在很多計(jì)算機(jī)應(yīng)用領(lǐng)域中都大有作為,如自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、推薦系統(tǒng)、圖像識(shí)別、博弈論,等等。

那么,我們可以使用貝葉斯模型來(lái)解決什么現(xiàn)實(shí)問(wèn)題呢?以下是一個(gè)經(jīng)典的彩球抽獎(jiǎng)問(wèn)題。

這是一個(gè)猜謎拿獎(jiǎng)游戲,已知有A、B兩個(gè)桶,A中有紅球3個(gè),白球1個(gè);B中有紅球2個(gè),白球2個(gè)?,F(xiàn)在我們隨機(jī)選擇一個(gè)桶,每次取出一個(gè)球并放回,判斷反復(fù)4次后該桶是A還是B。

這其實(shí)是一個(gè)以小見(jiàn)大的問(wèn)題。就像我們看現(xiàn)實(shí)世界,總是只能看到這個(gè)現(xiàn)實(shí)世界中的一部分表現(xiàn)形式(摸到了幾個(gè)球或是什么顏色),但是不知道這個(gè)表現(xiàn)形式后面的本質(zhì)(到底是哪一個(gè)桶)。當(dāng)面對(duì)這類(lèi)問(wèn)題的時(shí)候貝葉斯模型就非常有用了。

貝葉斯模型是所有使用貝葉斯定理思想的模型的統(tǒng)稱(chēng),本文主要講解最簡(jiǎn)單的樸素貝葉斯分類(lèi)器。不過(guò)考慮到可能有讀者不太熟悉或者忘記了概率論,我們先來(lái)回顧一下基本概率論知識(shí),這樣才能理解貝葉斯定理。

第1個(gè)概念是先驗(yàn)概率。首先我們將A事件發(fā)生的概率寫(xiě)作P(A),稱(chēng)之為A的先驗(yàn)概率。所謂先驗(yàn)概率,就是根據(jù)以往的經(jīng)驗(yàn)得到的概率。那么P(B)就是B的先驗(yàn)概率了。如果用文氏圖表示,圖2-3中A圈就表示A事件的樣本集合,B圈就是B事件的樣本集合。

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

▲圖2-3 樣本文氏圖(1)

第2個(gè)概念是條件概率。所謂條件概率就是在另一個(gè)事件發(fā)生的條件下,某事件發(fā)生的概率,比如P(A|B)表示在B事件發(fā)生的條件下,A發(fā)生的概率;而P(B|A)就是在A事件發(fā)生條件下,B事件發(fā)生的概率。然后還有一個(gè)概念是聯(lián)合概率,比如P(A∩B)表示A和B事件同時(shí)發(fā)生的概率。

我們來(lái)看圖2-4,其中A和B交叉的部分就是A和B的聯(lián)合概率,那么條件概率呢?就是交叉部分在A和B圈子里各占的比例,如果在A里,就是A事件發(fā)生情況下B事件發(fā)生的概率,如果在B里則反之。

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

▲圖2-4 樣本文氏圖(2)

在了解基本的概率論知識(shí)后再來(lái)學(xué)習(xí)貝葉斯公式。貝葉斯公式很簡(jiǎn)單,就是B發(fā)生條件下,A事件發(fā)生的概率,可以通過(guò)A事件發(fā)生的條件下,B事件發(fā)生的條件概率或A的先驗(yàn)概率和B的先驗(yàn)概率計(jì)算出來(lái):

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

那么這個(gè)公式到底有什么用呢?

舉個(gè)例子,假如我們想要檢查郵箱中是否存在垃圾郵件,最簡(jiǎn)單的方法是根據(jù)郵件中是否存在某些關(guān)鍵詞來(lái)做判斷。但實(shí)際情況是,并不是所有涉及某個(gè)關(guān)鍵詞的郵件都是垃圾郵件。所以我們就可以做出一個(gè)假設(shè):垃圾郵件中關(guān)鍵詞的出現(xiàn)頻率是有規(guī)律的。

根據(jù)這個(gè)假設(shè),我們可以收集一批垃圾郵件和一批正常郵件,統(tǒng)計(jì)一下所有郵件中包含關(guān)鍵詞的頻率,垃圾郵件的出現(xiàn)頻率以及關(guān)鍵詞在垃圾郵件中的出現(xiàn)頻率。

其中P(A)是垃圾郵件的出現(xiàn)頻率,P(B)是關(guān)鍵詞的出現(xiàn)頻率,P(B|A)就是垃圾郵件中的關(guān)鍵詞出現(xiàn)頻率。那么由貝葉斯公式我們就可以推算出P(A|B),也就是存在特定關(guān)鍵詞時(shí)某封郵件是垃圾郵件的概率了。

我們知道,我們平時(shí)只能觀測(cè)到現(xiàn)實(shí)中某些現(xiàn)象的表現(xiàn)形式,正如我們只能知道垃圾郵件中關(guān)鍵詞的出現(xiàn)頻率。但是,我們總是希望能夠通過(guò)現(xiàn)象去推斷出事物的本質(zhì),而貝葉斯模型正是這種模型,讓我們可以通過(guò)某些容易計(jì)算的概率去了解某些事物內(nèi)在性質(zhì)的概率。而通過(guò)收集大量的數(shù)據(jù),則可以讓貝葉斯這種概率類(lèi)的模型更加準(zhǔn)確。

不過(guò)這里還有個(gè)問(wèn)題,在實(shí)際情況中會(huì)有很多的屬性(也就是特征),比如判斷一封郵件是不是垃圾郵件,肯定不只有一個(gè)關(guān)鍵詞,因此我們要考慮所有可能關(guān)鍵詞出現(xiàn)的概率。

這個(gè)問(wèn)題怎么處理呢?這個(gè)時(shí)候我們就要對(duì)公式進(jìn)行變換,需要計(jì)算在B1~Bn多個(gè)事件同時(shí)發(fā)生的概率下A事件發(fā)生的概率(也就是根據(jù)多個(gè)關(guān)鍵詞的出現(xiàn)概率估算某封郵件是垃圾郵件的概率)。

這里的難點(diǎn)在于樣本量比較小,在這種情況下如果直接估算B1到Bn的聯(lián)合概率會(huì)導(dǎo)致存在比較大的誤差。所以,貝葉斯公式給出了一個(gè)假設(shè):假設(shè)各個(gè)事件之間是相互獨(dú)立的,也就是不同的屬性會(huì)獨(dú)立地對(duì)最后的分類(lèi)結(jié)果產(chǎn)生影響。

所以這里我們就可以將聯(lián)合概率變成多個(gè)事件概率的乘積,那個(gè)大大的類(lèi)似于π的符號(hào)就是累乘符號(hào),就像之前提到的累加符號(hào)一樣,是一種數(shù)學(xué)符號(hào)的簡(jiǎn)寫(xiě):

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

這個(gè)推廣后的公式就是樸素貝葉斯分類(lèi)器的核心。思考一下,假如我們有大量的郵件,里面同時(shí)包含垃圾郵件和正常郵件,我們只要分別估算不同的敏感詞的概率,最后就能計(jì)算得到某封郵件是垃圾郵件的概率,而利用樸素貝葉斯解決其他的問(wèn)題也是同一個(gè)套路。

雖然看起來(lái)都是數(shù)學(xué),但是用起來(lái)還是非常簡(jiǎn)單的。我們可以用樸素貝葉斯分類(lèi)器處理前面所提到的抽獎(jiǎng)問(wèn)題。我們可以通過(guò)計(jì)算知道:

  1. P(A):摸到紅球的概率是5/8。
  2. P(B):選擇A桶的概率是1/2。
  3. P(A|B):在A桶中摸到紅球的概率3/4。

假設(shè)摸到一個(gè)紅球,選擇到A桶的概率為:

一文看懂貝葉斯定理及應(yīng)用(值得收藏)

所以如果我們摸到2個(gè)紅球,2個(gè)綠球,只需要帶入到上面那個(gè)推廣后的公式里就可以得到結(jié)果了。我們提前訓(xùn)練得到的知識(shí)就是摸到紅球的概率、摸到綠球的概率、在A中摸到紅球或者綠球的概率以及在B中摸到紅球或者綠球的概率。

關(guān)于作者:盧譽(yù)聲,Autodesk數(shù)據(jù)平臺(tái)和計(jì)算平臺(tái)資深工程師,負(fù)責(zé)平臺(tái)架構(gòu)研發(fā)工作。工作內(nèi)容涵蓋大規(guī)模分布式系統(tǒng)的服務(wù)器后端、前端以及SDK的設(shè)計(jì)與研發(fā),在數(shù)據(jù)處理、實(shí)時(shí)計(jì)算、分布式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)、性能調(diào)優(yōu)、高可用性和自動(dòng)化等方面積累了豐富的經(jīng)驗(yàn)。擅長(zhǎng)C/C++、JavaScript開(kāi)發(fā),此外對(duì)Scala、Java以及移動(dòng)平臺(tái)等也有一定研究。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多

    av在线免费播放一区二区| 亚洲天堂国产精品久久精品| 狠狠做深爱婷婷久久综合| 美女被啪的视频在线观看| 国产精品成人又粗又长又爽| 久久精品国产在热久久| 人妻偷人精品一区二区三区不卡| 日本加勒比中文在线观看| 日韩精品一级一区二区| 国产真人无遮挡免费视频一区| 日本淫片一区二区三区| 婷婷激情五月天丁香社区| 日本午夜福利视频免费观看| 国产精品丝袜一二三区| 中文字幕一区二区三区大片| 狠色婷婷久久一区二区三区| 国产又色又爽又黄的精品视频| 婷婷开心五月亚洲综合| 国产av大片一区二区三区| 国产三级视频不卡在线观看| 国产一区日韩二区欧美| 91亚洲精品综合久久| 扒开腿狂躁女人爽出白浆av | 欧美日韩精品久久第一页| 区一区二区三中文字幕| 日本午夜免费观看视频| 视频在线观看色一区二区| 亚洲欧美日产综合在线网| 亚洲欧洲在线一区二区三区| 国产精欧美一区二区三区久久| 果冻传媒在线观看免费高清| 久久经典一区二区三区| 国产精品午夜福利免费阅读| 黄色片国产一区二区三区| 精品人妻一区二区三区在线看 | 亚洲最大福利在线观看| 国语对白刺激高潮在线视频| 欧美中文字幕一区在线| 97人妻人人揉人人躁人人| 老司机这里只有精品视频| 日本成人中文字幕一区|