這是《機器學(xué)習(xí)中的數(shù)學(xué)基礎(chǔ)》系列的第18篇,也是概率與統(tǒng)計的第2篇。 在我們的日常生活中,有些事件的原因不好觀察或者推測,我們往往會通過結(jié)果來倒推原因。常見的應(yīng)用比如根據(jù)收到的郵件內(nèi)容來判斷該郵件是否為垃圾郵件;根據(jù)收到的圖像數(shù)據(jù)來判斷手寫的數(shù)字等等。而在這種過程中,貝葉斯定理就會發(fā)揮它的作用。
首先要說的是,貝葉斯定理就是由貝葉斯本人提出的。貝葉斯是個牧師,也是個數(shù)學(xué)家。他為統(tǒng)計學(xué)和概率論領(lǐng)域做出了巨大的貢獻。 貝葉斯本人(來源:網(wǎng)絡(luò))
接下來,我們看什么叫做全概率公式。現(xiàn)在假設(shè)有一個事件B,它在很多個互斥事件A1、A2...An之后才發(fā)生。那么p(B)=p(A1)p(B丨A1)+p(A2)p(B丨A2)+...+p(An)p(B丨An)。我們就把這個式子叫做全概率公式。它有什么用呢?如果事件B的概率不好計算,我們可以把它切分成在不同互斥事件下分別發(fā)生的概率之和。
那么我們的貝葉斯定理就可以表示為: 我們就把要求的p(A1丨B)叫做后驗概率,而p(A1)叫做先驗概率。我們經(jīng)常做的就是通過先驗概率來求解后驗概率。
我們還是舉個例子來說明下貝葉斯定理的應(yīng)用。 假設(shè)X星球上有100萬人,其中僅有10個超能力者。我們現(xiàn)在有一個超能力檢測儀,它可以檢測出一個人是否具有超能力。但是,它并不是很準確,有1%的錯誤率。也就是說,它有1%的可能把正常人檢測為超能力者,也有1%的可能把超能力者檢測為正常人。 現(xiàn)在我們想知道,如果這個儀器檢測出一個人是超能力者,那么他確實就是超能力人的概率是多大呢? 我們把儀器檢測出超能力者的概率記為p(B),把一個人是超能力者的概率記為p(A1),那么我們要求的就是p(A1丨B)。根據(jù)貝葉斯公式,我們可以得出: 我們一個一個來看。p(A1)就是先驗概率,代表一個人是超能力者的概率,我們有p(A1)=10/1000000=1/100000。 p(B丨A1)表示如果你是超能力者,那么把你檢測為超能力者的概率。根據(jù)題目,我們有p(B丨A1)=1-1%=99%=0.99。 那么p(A2)是啥?注意到p(A1)和p(A2)互斥,也就是說p(A2)代表一個人不是超能力者的概率,它等于1-p(A1)=1-1/100000=99999/100000。 p(B丨A2)就表示如果一個人是正常人,那么把他檢測為超能力者的概率,我們有p(B丨A2)=1%=0.01。 把上述結(jié)果代入到公式中,我們就可以得到: 可以看到,最后的結(jié)果僅為0.1%。即使我們的檢測儀器的精度達到了99%,但因為先驗概率極低,因此最后得到的后驗概率也是很低的。 |
|