貝葉斯定理的意義 (數(shù)據(jù)分析是門大學問) 這個問題,我經(jīng)常在課堂上問學生,大多數(shù)人的第一反應是愕然——不是說了99%嗎?還能是多少?在重點大學的課堂上尚且如此想,更不用說一般人是多么容易犯迷糊了。其實,這道題的正解應該是:那得看你檢測的是什么。如果不知道檢測對象事實上的分布情況,就只能兩手一攤,老老實實地承認“條件不足,無法作答?!?/span> 這種說法聽起來很怪,不過別著急,比較以下這兩個例子,你就會大概明白這里的門道。 例1:一位經(jīng)驗豐富的老警察,辨識小偷的正確率達到99%,當他覺得一個人是小偷的時候,這人真是小偷的概率是多少? 例2:美國電影“黑衣人”里的特工常年與外星人打交道,辨識外星人的正確率也是99%,請問,當他說你是外星人的時候,你真是外星人的概率是多少? 我相信,沒人會覺得這兩個例子的機率相同,因為小偷比較常見,而外星人則過于離奇。這個直覺是對的——即使檢驗者同等精確,由于他們所驗證的事情本身在先驗概率上的不同,導致其令人信服的程度也是不一樣的。更妙的是,這種直覺,完全可以通過計算來印證。 回到最開始的那個例子。用一臺正確率為99%的機器來檢測疾病,檢測結果的可靠性一定不是99%。因為病有不同種類,有些如乙肝病毒攜帶一樣常見,有些如亨廷頓氏舞蹈癥一樣罕見。假設前者在人群中的分布是十分之一,這就意味著,用這臺機器查一萬個人(根據(jù)先驗概率,其中有九千陰性和一千陽性),陰性的會以1%的比率被誤判為陽性(誤報90人),陽性的同樣會以1%的比率被誤判為陰性(漏網(wǎng)10人),所以這一萬份檢測報告中,會有90+(1000-10)=1080個陽性,而真陽性的那1000人中又只990個被檢測出來。所以,當機器檢測出陽性結果時,真正攜帶乙肝病毒的可能性,就是990(真陽性)/1080(被檢測出陽性),約等于91.67%。 這個結果略小于99%,似乎還不算差太多。這是因為乙肝病毒攜帶者的數(shù)量本來就不少。但是,如果檢測的對象是像亨廷頓氏舞蹈癥這樣的罕見癥,情況就很不一樣了。假設發(fā)病率是萬分之一(這已經(jīng)是大大高估了),按照剛才這套算法,你會驚奇地發(fā)現(xiàn),正確率99%的機器,檢測結果的準確性居然只有0.9804%,還不到百分之一! 以上是我自己從常識出發(fā)的一種很笨拙的計算方法。其實18世紀的英國數(shù)學家葉貝斯,早就整理出了一個簡潔優(yōu)雅的公式:P(A/B)=P(B/A)P(A)/P(B)。用剛才這個例子來說,P(A/B)就是指,當機器檢測出陽性時,事實上果然就是陽性的概率。而這個數(shù)值,等于機器的準確性P(B/A),乘以該疾病在人群中事實上的分布比例P(A),再除以所有對象被這臺機器檢測出陽性(漏網(wǎng)和誤報相抵)的可能性P(B)。 當然,這只是對于貝葉斯公式最粗略的描述,有興趣的讀者可以進一步自學。而我所關心的,其實是這個公式在現(xiàn)實生活中的意義。那就是,由于任何檢測與判斷都有誤差,所以不管它看起來有多可靠,在小概率事件上看走眼的可能性,都會意想不到的高。說得再明確點,非常之事,需有非常之據(jù),事情本身越少見,做判斷時就越是要謹慎。 而在辯論中,這就意味著一個常被忽視的事實,即論戰(zhàn)雙方的論證義務,在程度上往往是不對等的。正如要保證檢測結果的可靠性達到91.67%,查乙肝的機器只需要99%的準確率,查亨廷頓氏舞蹈癥的機器則在要小數(shù)點后面再加上一連串的9(具體數(shù)值也可以用這個公式計算出來);同樣,主張一個在真實世界中存在概率較低的觀點,要達到同等的論證效力,其論證義務也要比主張更符合常識的觀點重得多。這就是為什么即便是鐵證如山的惡性罪案,也得經(jīng)過冗長繁復的質證程序,而且饒是如此,冤獄也時有發(fā)生。而所有危言聳聽的陰謀論,疑神疑鬼的亂猜忌,無一例外地都會對此視而不見,把自己的論證義務降到與一般論題相同,所以才顯得格外難纏。下次遇見這種奇談怪論的時候,想想貝葉斯定理所揭示的辯論原則,一定能省不少口舌。 |
|