「問答」第5期
隨著搜索、社交網(wǎng)絡(luò)、電子商務(wù)和移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)總量和增長速度已經(jīng)到了常人(注:我這樣的人)無法想象的地步。如何去處理這些數(shù)據(jù)已經(jīng)形成了一門專有科學(xué)——數(shù)據(jù)科學(xué)( http://en./wiki/Data_science )。數(shù)據(jù)科學(xué)包括計算機(jī)科學(xué)(編程技術(shù)、機(jī)器學(xué)習(xí))、商業(yè)應(yīng)用(專業(yè)領(lǐng)域研究)和數(shù)理知識(數(shù)學(xué)·統(tǒng)計學(xué))。其中數(shù)學(xué)相關(guān)的知識是大數(shù)據(jù)應(yīng)用和發(fā)展的原動力。 舉個例子,比如貝葉斯定理。 搞數(shù)理統(tǒng)計如果不知道貝葉斯定理,那么你的人生肯定是不完整的。貝葉斯定理是貝葉斯推斷的應(yīng)用,是英國數(shù)學(xué)家托馬斯·貝葉斯在1763年首次提出的。與其他統(tǒng)計學(xué)不同,貝葉斯定理是建立在主觀判斷的基礎(chǔ)上,它需要有大量的樣本數(shù)據(jù),并在數(shù)據(jù)的基礎(chǔ)上進(jìn)行計算,數(shù)據(jù)量越大,計算結(jié)果越能反映現(xiàn)實(shí)世界。 在計算機(jī)誕生之前,這個前提條件是很難滿足的,所以貝葉斯定理在歷史上很長一段時間內(nèi)都沒有得到很好的應(yīng)用。然后,互聯(lián)網(wǎng)時代來臨了…… 現(xiàn)在貝葉斯定理廣泛應(yīng)用于中文分詞、垃圾郵件處理、機(jī)器學(xué)習(xí)、圖像識別、拼寫檢查和一些常用的分類算法上??梢哉f,我們現(xiàn)在最常用的互聯(lián)網(wǎng)服務(wù)上,貝葉斯定理無處不在。貝老爺子沒能挺到今天看到他提出的理論在互聯(lián)網(wǎng)時代大放異彩,也算是憾事。其實(shí)做基礎(chǔ)研究和藝術(shù)創(chuàng)作的人都非常不容易,每天徜徉在知識的小黑屋里冥思苦想,時時刻刻準(zhǔn)備改變世界,結(jié)果很多學(xué)術(shù)成果和藝術(shù)成就都是自己掛了之后才流芳百世的,這種事隨便想想也會讓人感到悲傷。 當(dāng)然,這些偉大的創(chuàng)造者和先知先覺的神人大都是以認(rèn)知世界和發(fā)現(xiàn)規(guī)律為己任,他們注定是要去拯救和影響一代又一代的后人,所以早已超凡脫俗長袖飄飄,肯定不會有我等這些俗人俗想。 關(guān)于貝葉斯定理,劉未鵬和阮一峰的博客上都做過詳細(xì)的介紹,大家可以去深入學(xué)習(xí)。我這里做個最簡介紹,希望能夠幫助大家入門。 貝葉斯定理主要是用來描述兩個條件概率之間的關(guān)系,先介紹下條件概率: P(A) :表示事件 A 發(fā)生的概率 而條件概率的意思就是:事件B發(fā)生的情況下,事件A發(fā)生的概率,用 P(A|B) 來表示。同理,P(B|A) 就是事件 A 發(fā)生的情況下,事件 B 發(fā)生的概率。 用文氏圖可以很容易的推導(dǎo)出貝葉斯公式,如圖所示: 當(dāng)事件 B 發(fā)生的情況下,事件 A 發(fā)生的概率就是 P(A∩B) 除以 P(B),也就是: 換算一下就得到了貝葉斯公式: P(A|B) * P(B) = P(B|A) * P(A) 用人話說出來就是:事件 A 發(fā)生的情況下事件 B 發(fā)生的概率等于事件B發(fā)生的情況下事件 A 發(fā)生的概率乘以事件 B 發(fā)生的概率,然后再除以事件 A 發(fā)生的概率。 我承認(rèn)這句話更像是繞口令而不是人話,反正你們懂的,如果不懂竟然能看到這里,好吧你贏了。 下面我們舉個例子看看這個公式怎么用。有A、B兩個一模一樣的箱子,每個箱子里都放了很多黑球和白球。A 箱子里有6個黑球,4個白球;B 箱子里有1個黑球,9個白球?,F(xiàn)在隨機(jī)選擇一個箱子拿出一個球,發(fā)現(xiàn)是黑球,請問這個球來自A 箱子的概率是多少? 解題思路是這樣的: 我們把從 A 箱子拿出球的事件設(shè)置為 A 事件,拿出的球是黑球設(shè)置為 B 事件。由于兩個箱子是一模一樣的,那么從 A 箱子拿出球的概率是二分之一,即: P(A) = 0.5 拿出是黑球的概率也很容易算出來,把所有的黑球加起來除以球的總數(shù),即: P(B) = (6+1)/20 = 0.35 從 A 箱中拿出黑球的概率就更容易了,用 A 箱中的黑球數(shù)除以 A 箱中球的總數(shù),即: P(B|A) = 6 / (4 + 6) = 0.6 那么根據(jù)公式,這個黑球來自 A 箱的概率就是: P(A|B) = 0.6 * 0.5 / 0.35 ≈ 0.857 生活中我們也會常常被類似的概率問題困擾,比如醫(yī)患關(guān)系中常見的誤診問題,這些都是可以通過貝葉斯公式進(jìn)行概率演算的,網(wǎng)絡(luò)上有很多相關(guān)案例,有興趣的可以去閱讀學(xué)習(xí)(搜索「貝葉斯實(shí)例」即可)。 以前推薦過的書《黑客與畫家》的第八章「防止垃圾郵件的一種方法」,就采用了貝葉斯原理實(shí)現(xiàn)垃圾郵件過濾器,其中有詳細(xì)的描述和實(shí)現(xiàn)思路,有這本書的童靴可以去讀讀。 還有一個學(xué)習(xí)材料,是 PyCon 上的一個視頻講座,配有相關(guān)的 Python 代碼庫,相關(guān)網(wǎng)址: 另外,如果你想從事大數(shù)據(jù)領(lǐng)域相關(guān)的工作,R 語言也是值得關(guān)注的一門語言,關(guān)于這門語言,我還沒入門。 互聯(lián)網(wǎng)老大 Mac Talk 文章。 點(diǎn)擊原文,閱讀丶問答第4期——「如何辨別計數(shù)資料和計量資料?」
|
|