一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

什么是貝葉斯定理?

 我的大骨頭 2016-02-02


「問答」第5期

最近很久沒分享過干糧了,來聊聊貝葉斯定理吧。


隨著搜索、社交網(wǎng)絡(luò)、電子商務(wù)和移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)總量和增長速度已經(jīng)到了常人(注:我這樣的人)無法想象的地步。如何去處理這些數(shù)據(jù)已經(jīng)形成了一門專有科學(xué)——數(shù)據(jù)科學(xué)( http://en./wiki/Data_science )。數(shù)據(jù)科學(xué)包括計算機(jī)科學(xué)(編程技術(shù)、機(jī)器學(xué)習(xí))、商業(yè)應(yīng)用(專業(yè)領(lǐng)域研究)和數(shù)理知識(數(shù)學(xué)·統(tǒng)計學(xué))。其中數(shù)學(xué)相關(guān)的知識是大數(shù)據(jù)應(yīng)用和發(fā)展的原動力。

舉個例子,比如貝葉斯定理。

搞數(shù)理統(tǒng)計如果不知道貝葉斯定理,那么你的人生肯定是不完整的。貝葉斯定理是貝葉斯推斷的應(yīng)用,是英國數(shù)學(xué)家托馬斯·貝葉斯在1763年首次提出的。與其他統(tǒng)計學(xué)不同,貝葉斯定理是建立在主觀判斷的基礎(chǔ)上,它需要有大量的樣本數(shù)據(jù),并在數(shù)據(jù)的基礎(chǔ)上進(jìn)行計算,數(shù)據(jù)量越大,計算結(jié)果越能反映現(xiàn)實(shí)世界。

在計算機(jī)誕生之前,這個前提條件是很難滿足的,所以貝葉斯定理在歷史上很長一段時間內(nèi)都沒有得到很好的應(yīng)用。然后,互聯(lián)網(wǎng)時代來臨了……

現(xiàn)在貝葉斯定理廣泛應(yīng)用于中文分詞、垃圾郵件處理、機(jī)器學(xué)習(xí)、圖像識別、拼寫檢查和一些常用的分類算法上??梢哉f,我們現(xiàn)在最常用的互聯(lián)網(wǎng)服務(wù)上,貝葉斯定理無處不在。貝老爺子沒能挺到今天看到他提出的理論在互聯(lián)網(wǎng)時代大放異彩,也算是憾事。其實(shí)做基礎(chǔ)研究和藝術(shù)創(chuàng)作的人都非常不容易,每天徜徉在知識的小黑屋里冥思苦想,時時刻刻準(zhǔn)備改變世界,結(jié)果很多學(xué)術(shù)成果和藝術(shù)成就都是自己掛了之后才流芳百世的,這種事隨便想想也會讓人感到悲傷。

當(dāng)然,這些偉大的創(chuàng)造者和先知先覺的神人大都是以認(rèn)知世界和發(fā)現(xiàn)規(guī)律為己任,他們注定是要去拯救和影響一代又一代的后人,所以早已超凡脫俗長袖飄飄,肯定不會有我等這些俗人俗想。

關(guān)于貝葉斯定理,劉未鵬和阮一峰的博客上都做過詳細(xì)的介紹,大家可以去深入學(xué)習(xí)。我這里做個最簡介紹,希望能夠幫助大家入門。

貝葉斯定理主要是用來描述兩個條件概率之間的關(guān)系,先介紹下條件概率:

P(A) :表示事件 A 發(fā)生的概率
P(B) :表示事件 B 發(fā)生的概率
P(A∩B):表示事件 A 和事件 B 同時發(fā)生的概率,也叫聯(lián)合概率

而條件概率的意思就是:事件B發(fā)生的情況下,事件A發(fā)生的概率,用 P(A|B) 來表示。同理,P(B|A) 就是事件 A 發(fā)生的情況下,事件 B 發(fā)生的概率。

用文氏圖可以很容易的推導(dǎo)出貝葉斯公式,如圖所示:

當(dāng)事件 B 發(fā)生的情況下,事件 A 發(fā)生的概率就是 P(A∩B) 除以 P(B),也就是:
P(A|B) = P(A∩B) / P(B)
即:P(A∩B) = P(A|B) * P(B)
同理可得:P(A∩B) = P(B|A) * P(A)

換算一下就得到了貝葉斯公式:

P(A|B) * P(B) = P(B|A) * P(A)
也就是:
P(A|B) = P(B|A) * P(A) / P(B)

用人話說出來就是:事件 A 發(fā)生的情況下事件 B 發(fā)生的概率等于事件B發(fā)生的情況下事件 A 發(fā)生的概率乘以事件 B 發(fā)生的概率,然后再除以事件 A 發(fā)生的概率。

我承認(rèn)這句話更像是繞口令而不是人話,反正你們懂的,如果不懂竟然能看到這里,好吧你贏了。

下面我們舉個例子看看這個公式怎么用。有A、B兩個一模一樣的箱子,每個箱子里都放了很多黑球和白球。A 箱子里有6個黑球,4個白球;B 箱子里有1個黑球,9個白球?,F(xiàn)在隨機(jī)選擇一個箱子拿出一個球,發(fā)現(xiàn)是黑球,請問這個球來自A 箱子的概率是多少?

解題思路是這樣的:

我們把從 A 箱子拿出球的事件設(shè)置為 A 事件,拿出的球是黑球設(shè)置為 B 事件。由于兩個箱子是一模一樣的,那么從 A 箱子拿出球的概率是二分之一,即:

P(A) = 0.5

拿出是黑球的概率也很容易算出來,把所有的黑球加起來除以球的總數(shù),即:

P(B) = (6+1)/20 = 0.35

從 A 箱中拿出黑球的概率就更容易了,用 A 箱中的黑球數(shù)除以 A 箱中球的總數(shù),即:

P(B|A) = 6 / (4 + 6) = 0.6

那么根據(jù)公式,這個黑球來自 A 箱的概率就是:

P(A|B) = 0.6 * 0.5 / 0.35 ≈ 0.857

生活中我們也會常常被類似的概率問題困擾,比如醫(yī)患關(guān)系中常見的誤診問題,這些都是可以通過貝葉斯公式進(jìn)行概率演算的,網(wǎng)絡(luò)上有很多相關(guān)案例,有興趣的可以去閱讀學(xué)習(xí)(搜索「貝葉斯實(shí)例」即可)。

以前推薦過的書《黑客與畫家》的第八章「防止垃圾郵件的一種方法」,就采用了貝葉斯原理實(shí)現(xiàn)垃圾郵件過濾器,其中有詳細(xì)的描述和實(shí)現(xiàn)思路,有這本書的童靴可以去讀讀。

還有一個學(xué)習(xí)材料,是 PyCon 上的一個視頻講座,配有相關(guān)的 Python 代碼庫,相關(guān)網(wǎng)址:
https://sites.google.com/site/simplebayes/home/pycon-2013

另外,如果你想從事大數(shù)據(jù)領(lǐng)域相關(guān)的工作,R 語言也是值得關(guān)注的一門語言,關(guān)于這門語言,我還沒入門。

互聯(lián)網(wǎng)老大 Mac Talk 文章。


點(diǎn)擊原文,閱讀丶問答第4期——「如何辨別計數(shù)資料和計量資料?」


采用數(shù)學(xué)分形圖形處理的小貓咪

生物
統(tǒng)計

為你找值得看的內(nèi)容,連接一切

歡迎分享,關(guān)注生活。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲国产欧美精品久久 | 国产精品香蕉在线的人| 狠狠干狠狠操在线播放| 国产精品久久熟女吞精| 日韩欧美综合在线播放| 人妻人妻人人妻人人澡| 女生更色还是男生更色| 九九热在线免费在线观看| 黄色片一区二区三区高清| 亚洲黄香蕉视频免费看| 亚洲熟妇av一区二区三区色堂| 精品推荐国产麻豆剧传媒| 亚洲国产精品肉丝袜久久| 日韩欧美三级视频在线| 欧美成人免费夜夜黄啪啪| 欧美丝袜诱惑一区二区| 男女激情视频在线免费观看| 在线观看那种视频你懂的| 日韩女优精品一区二区三区| 日本不卡在线视频你懂的| 日韩在线视频精品中文字幕| 99久久人妻精品免费一区| 国产av精品高清一区二区三区| 91欧美日韩中在线视频| 久久精品国产亚洲av麻豆尤物| 丁香七月啪啪激情综合| 精品女同在线一区二区| 国产欧美一区二区三区精品视| 日本成人中文字幕一区| 国产在线一区二区免费| 国产传媒一区二区三区| 亚洲国产欧美久久精品| 亚洲中文字幕视频在线观看| 国产精品欧美在线观看| 久热青青草视频在线观看| 日韩成人高清免费在线| 福利专区 久久精品午夜| 日韩在线免费看中文字幕| 国产偷拍精品在线视频| 国产一级内片内射免费看 | 国产精品伦一区二区三区四季|