本文授權轉載自原點閱讀(ID:duhaoshu) 微信公眾號 如今,“概率”一詞在我們的生活中隨處可見,被人們使用得越來越廣泛和頻繁。 因為這是一個越來越多變的世界: 一切都在變化,一切都難以確定。我們的世界可以說是由變量構成的,其中包括很多決定性變量。 比如新聞說: “北京時間2016年11月3日20時43分,長征五號在海南文昌成功發(fā)射”,這里的時間、地點都是確定的決定性變量。 然而,我們的生活中也有許多難以確定的隨機變量,比如明天霧霾的程度,或某公司的股票值,等等,都是不確定的隨機變量。隨機變量不是用固定的數值表達,而是用某個數值出現的概率來描述。正因為處處都有隨機變量,所以處處都聽見“概率”一詞。 你打開電視聽天氣預報,看看今天會不會下雨,氣象預報員告訴你說: 今天早上8點鐘的“降水概率”是90%;你滿懷期望地買了50張彩票,朋友卻告訴你,不要白花這50塊錢,因為你中獎的概率只有一億分之一;你手臂上長了一個“肉瘤”,醫(yī)生初步檢查后安慰你,這塊東西是惡性瘤的概率只萬分之三而已…… 生活中“概率”這個詞太常見了,以至于人們不細想也大概知道是個什么意思,比如說,最后一個例子中,0.03%的惡性概率的意思不就是說,“10000個這樣的肉瘤中,只有3個才會是惡性的”嗎?因此,在經典意義上,概率就可以被粗糙地定義為事件發(fā)生的頻率,即發(fā)生次數與總次數的比值。更準確地說,是總次數趨于無限時,這個比值趨近的極限。 雖然“概率”的定義不難懂,好像人人都會用,但你可能不知道,概率計算的結果經常違背我們的直覺,概率論中有許多難以解釋、似是而非的悖論。 我們的思維過程中也有盲點,需要通過計算和思考來澄清。概率論是一個經常出現與直覺相悖的奇怪結論的領域,連數學家也是稍有不慎便會錯得一塌糊涂。 我們就舉例說明經典概率中的一個悖論,叫作“基本比率謬誤(base rate fallacy)”。 從一個生活中的例子開始。王宏去醫(yī)院做化驗,檢查他患上某種疾病的可能性。其結果居然為陽性,他趕忙在網上查詢。 網上的資料說,檢查總是有誤差的,這種檢查有“1%的假陽性率和1%的假陰性率”。這句話的意思是說,在得病的人中做檢查,有1%的人是假陰性,99%的人是真陽性。而在未得病的人中做檢查,有1%的人是假陽性,99%的人是真陰性。于是,王宏估計他自己得了這種疾病的可能性為99%。王宏想,既然只有1%的假陽性率,99%都是真陽性,那我在人群中已被感染這種病的概率便應該是99%。 可是,醫(yī)生卻告訴他,他在普通人群中被感染的概率只有9%左右。這是怎么回事呢?王宏的思路誤區(qū)在哪里? 醫(yī)生說: “99%?哪有那么大的感染概率啊。99%是測試的準確性,不是你得病的概率。你忘了一件事: 被感染這種疾病的正常比例是不大的,1000個人中只有一個人患病。” 這位醫(yī)生經常將概率方法用于醫(yī)學上。他的計算方法基本上是這樣的: 因為測試的誤報率是1%,1000個人將有10個被報為“假陽性”,而根據這種病在人口中的比例(1/1000=0.1%),真陽性只有1個,所以,大約11個測試為陽性的人中只有一個是真陽性的,因此,王宏被感染的概率大約是1/11,即9%。 王宏思來想去仍感到糊涂,但這件事激發(fā)了王宏去重溫他之前學過的概率論。經過反復閱讀,再思考琢磨醫(yī)生的算法之后,他明白了自己犯了那種叫作“基本比率謬誤”的錯誤,即忘記使用“這種病在人口中的基本比例(1/1000)”這個事實。 談到基本比率謬誤,我們最好是先從概率論中著名的貝葉斯定理說起。托馬斯·貝葉斯(Thomas Bayes ,1701—1761)是英國統(tǒng)計學家。 托馬斯·貝葉斯 貝葉斯定理是他對概率論和統(tǒng)計學做出的最大貢獻,是當今人工智能中常用的機器學習的基礎框架,它的思想之深刻遠超一般人所能認知。 粗略地說,貝葉斯定理涉及兩個隨機變量A和B的相互影響,如果用一句話來概括,這個定理說的是: 利用B帶來的新信息,應如何修改B不存在時A的“先驗概率”P(A),從而得到B存在時的“條件概率”P(A|B),或稱后驗概率,如果寫成公式: 這里先驗、后驗的定義是一種約定俗成,是相對的。比如說也可以將A、B反過來敘述,即如何從B的先驗概率P(B),得到B的“條件概率”P(B|A),見圖中虛線所指。 不要害怕公式,通過例子,我們就能慢慢理解它。例如,對前面王宏看病的例子,隨機變量A表示“王宏得某種病”;隨機變量B表示“王宏的檢查結果”。先驗概率P(A)指的是王宏在沒有檢查結果時得這種病的概率(即這種病在公眾中的基本概率0.1%);而條件概率(或后驗概率)P(A|B)指的是王宏“檢查結果為陽性”的條件下得這種病的概率(9%)。如何從基本概率修正到后驗概率的?我們待會兒再解釋。 貝葉斯定理是18世紀的產物,200來年用得好好的,卻不想在20世紀70年代遇到了挑戰(zhàn),該挑戰(zhàn)來自于丹尼爾·卡尼曼(Daniel Kahneman,1934—)和特維爾斯基(Tversky)提出的“基本比率謬誤”。前者是以色列裔美國心理學家,2002年諾貝爾經濟學獎得主?;颈嚷手囌`并不是否定貝葉斯定理,而是探討一個使人困惑的問題: 為什么人的直覺經常與貝葉斯公式的計算結果相違背?如同剛才的例子所示,人們在使用直覺的時候經常會忽略基礎概率。 卡尼曼等人在他們的文章《思考,快與慢》中舉了一個出租車的例子,來啟發(fā)人們思考這個影響人們“決策”的原因。 我們不想在這里深談基本比率謬誤對“決策理論”的意義,只是借用此例來加深對貝葉斯公式的理解。 假如某城市有兩種顏色的出租車: 藍色和綠色(市場占有比例為15∶85)。一輛出租車夜間肇事后逃逸,但還好當時有一位目擊證人,這位目擊者認定肇事的出租車是藍色的。但是,他“目擊的可信度”如何呢? 公安人員在相同環(huán)境下對該目擊者進行“藍綠”測試得到: 80%的情況下識別正確,20%的情況不正確。也許有讀者立刻就得出了結論: 肇事車是藍色的概率應該是80%吧。如果你做此回答,便是犯了與上面例子中王宏同樣的錯誤,忽略了先驗概率,沒有考慮在這個城市中“藍綠”車的基本比例。 那么,肇事車是藍色的(條件)概率到底應該是多少呢?貝葉斯公式能給出正確的答案。首先我們必須考慮藍綠出租車的基本比例(15∶85)。 也就是說,在沒有目擊證人的情況下,肇事車是藍色的概率只有15%,這是“A=藍車肇事”的先驗概率P(A)= 15%?,F在,有了一位目擊者,便改變了事件A出現的概率。目擊者看到車是“藍”色的。不過,他的目擊能力也要打折扣,只有80%的準確率,即也是一個隨機事件(記為B)。 我們的問題是求出在有該目擊證人“看到藍車”的條件下肇事車“真正是藍色”的概率,即條件概率P(A|B)。后者應該大于先驗概率15%,因為目擊者看到“藍車”。如何修正先驗概率?需要計算P(B|A)和P(B)。 因為A=藍車肇事、B=目擊藍色,所以P(B|A)是在“藍車肇事”的條件下“目擊藍色”的概率,即P(B|A) =80%。最后還要算先驗概率P(B),它的計算麻煩一點。P(B)指的是目擊證人看到一輛車為藍色的概率,等于兩種情況的概率相加: 一種是車為藍,辨認也正確;另一種是車為綠,錯看成藍。所以: 從貝葉斯公式: 可以算出在有目擊證人情況下肇事車輛是藍色的概率為41%,同時也可求得肇事車輛是綠車的概率為59%。被修正后的“肇事車輛為藍色”的條件概率41%大于先驗概率15%很多,但是仍然小于肇事車為綠色的概率0.59。 回到對王宏測試某種病的例子,我們也不難得出正確的答案: |
|