如果你在數(shù)據(jù)科學(xué)領(lǐng)域還只是個(gè)新手,那么建議你先看看《五本書帶你入門數(shù)據(jù)科學(xué)》,入門之后,再看《R語(yǔ)言案例實(shí)戰(zhàn)》系列。 開篇 我們的知識(shí)總是有限的,人類不可能觀察到所有的事情,計(jì)算機(jī)也無法表示整個(gè)宇宙。因此,我們只能根據(jù)一定程度的相信或者一些不確定的知識(shí),去描述不同變量之間的關(guān)系。 概率圖模型可以模擬人類的認(rèn)知思維,處理關(guān)于世界的不完整的知識(shí),它由概率論和圖論組成。概率是表示和處理不確定性的嚴(yán)密的數(shù)學(xué)方法,圖論則是模擬人類的邏輯推導(dǎo)思維,概率圖模型把兩者完美地結(jié)合在了一起。 貝葉斯定理 貝葉斯公式是概率圖模型的基礎(chǔ),它是這樣子描述的。 其中: P(X) 代表 X 事件發(fā)生的概率,也稱為先驗(yàn)概率; P(X|Y) 代表事件 Y 發(fā)生后,X 事件發(fā)生的概率,也稱為后驗(yàn)概率; P(Y|X) 代表在 X 事件發(fā)生的前提下,Y 事件發(fā)生的概率,也稱為似然率; 貝葉斯公式直接從公式上理解,是有一定的難度的,下面我們通過一個(gè)例子,來理解一下貝葉斯公式。 由產(chǎn)品質(zhì)量判斷機(jī)器是否正常 假設(shè)有一個(gè)制作燈泡的機(jī)器,在機(jī)器生產(chǎn)出一個(gè)燈泡之后,由燈泡是合格還是不合格,來判斷機(jī)器是正常工作還是出現(xiàn)異常。 根據(jù)問題的描述,我們可以確定機(jī)器狀態(tài)的隨機(jī)變量 M (Machine),有兩個(gè)狀態(tài) {working, broken}。一開始,我們相信機(jī)器是好的,是可以正常工作的,所以可以假設(shè)先驗(yàn)分布如下: P(M=working)=0.99 P(M=broken)=0.01 也就是說,我們對(duì)于機(jī)器正常工作的信念度很高,在一開始,機(jī)器會(huì) 99% 的正常和 1% 的有問題。 第二個(gè)隨機(jī)變量是 Q (Quality),代表機(jī)器生產(chǎn)的燈泡的質(zhì)量。燈泡可能是好的,也可能是壞的,所以 Q 包含兩個(gè)狀態(tài) {good,bad}。 設(shè)定了這兩個(gè)變量之后,我們的問題 P(M|Q),也就是在知道生產(chǎn)的燈泡質(zhì)量的前提下,機(jī)器的工作狀態(tài)。 根據(jù)貝葉斯公式: P(M|Q)=P(M)*P(Q|M)/P(Q) 也就是,當(dāng)生產(chǎn)出一個(gè)質(zhì)量為 good 的燈泡的時(shí)候,機(jī)器正常工作和有問題的概率,具體如下: P(M=working|Q=good) =P(M=working)*P(Q=good|M=working)/P(Q=good) P(M=broken|Q=good) =P(M=broken)*P(Q=good|M=broken)/P(Q=good) 以及當(dāng)生產(chǎn)出一個(gè)質(zhì)量為 bad 的燈泡的時(shí)候,機(jī)器正常工作和有問題的概率,具體如下: P(M=working|Q=bad) =P(M=working)*P(Q=bad|M=working)/P(Q=bad) P(M=broken|Q=bad) =P(M=broken)*P(Q=bad|M=broken)/P(Q=bad) 根據(jù)這臺(tái)機(jī)器歷史的生產(chǎn)記錄,可以知道: 正常工作的前提下,99%的概率產(chǎn)出合格的產(chǎn)品,也就是: P(Q=good|M=working)=0.99 正常工作的前提下,1%的概率產(chǎn)出不合格的產(chǎn)品,也就是: P(Q=bad|M=working)=0.01 異常工作的前提下,60%的概率產(chǎn)出合格的產(chǎn)品,也就是: P(Q=good|M=broken)=0.6 異常工作的前提下,40%的概率產(chǎn)出不合格的產(chǎn)品,也就是: P(Q=bad|M=broken)=0.4 到這里,只剩下分母的 P(Q=good) 和 P(Q=bad) 未知了,根據(jù)全概率公式,它們等于: P(Q=good) =P(Q=good|M=working)P(M=working)+P(Q=good|M=broken)P(M=broken) P(Q=bad) =P(Q=bad|M=working)P(M=working) + P(Q=bad|M=broken)P(M=broken) 所以,貝葉斯公式中所有的概率,都已經(jīng)知道了。把這些數(shù)據(jù)加入公式進(jìn)行計(jì)算,即可得到對(duì)應(yīng)的結(jié)果。 當(dāng)生產(chǎn)出一個(gè)質(zhì)量為good的燈泡時(shí),機(jī)器working和broken的概率,如下所示: P(M=working|Q=good)=0.993915 P(M=broken|Q=good)=0.0060845 可以看到,機(jī)器正常的概率,從開始的0.99增加到0.993,異常的概率也從0.01減少到0.006。 當(dāng)生產(chǎn)出一個(gè)質(zhì)量為bad的燈泡時(shí),機(jī)器working和broken的概率,如下所示: P(M=working|Q=bad)=0.712230 P(M=broken|Q=bad)=0.2877698 可以看到,機(jī)器正常的概率,從開始的0.99下降到了0.71了,異常的概率也從開始的0.1,增加到0.28。 這個(gè),就是貝葉斯定理的應(yīng)用了。通過上面的案例,我們來加深一下,對(duì)貝葉斯公式的理解: 所謂的先驗(yàn)概率,就是我們?cè)跊]有任何的事件發(fā)生,根據(jù)我們對(duì)某個(gè)事件的經(jīng)驗(yàn),預(yù)估出來的,這個(gè)事件會(huì)發(fā)生的概率。例如機(jī)器是否能夠正常工作的概率。 所謂的后驗(yàn)概率,就是我們?cè)谥酪呀?jīng)發(fā)生的事件之后,根據(jù)這個(gè)事件的結(jié)果,去調(diào)整先驗(yàn)概率的大小,已達(dá)到累計(jì)經(jīng)驗(yàn)的目的。例如生產(chǎn)了一個(gè)質(zhì)量為good的燈泡后,我們對(duì)機(jī)器能夠正常工作的信心增加了。 最后是似然率,也就是事件發(fā)生的概率大小,這個(gè)可以由日常的生產(chǎn)工作經(jīng)驗(yàn)中進(jìn)行統(tǒng)計(jì)總結(jié)。 貝葉斯定理的R語(yǔ)言實(shí)現(xiàn) 根據(jù)貝葉斯定理的定義,我們很容易就寫出了它的實(shí)現(xiàn)代碼,如下所示: 通過程序,我們假設(shè)生產(chǎn)出來的燈泡的質(zhì)量為 bad, good, good, good,那么,對(duì)機(jī)器能夠正常工作的估算先是下降,然后再慢慢地提升。 |
|