讀書筆記 | 統(tǒng)計學的秘密，不熟不告訴你

星星i3d2ongfs8 2016-12-12

展開全文

主頁菌語

在大數(shù)據(jù)時代，海量信息為認知世界帶來深刻變革的同時，也出現(xiàn)了針對傳統(tǒng)統(tǒng)計學的爭論。有人宣布，大數(shù)據(jù)意味著我們能處理“總體”，也就不需要抽樣，統(tǒng)計學的那套方法已經(jīng)過時；更多的人反駁，認為統(tǒng)計學仍然是數(shù)據(jù)分析的核心；還有人說，從樣本定義到思維技術(shù)，傳統(tǒng)統(tǒng)計學都要與時俱進，甚至來一場“革命性的變革”。

說到“革命”，其實在20世紀初，統(tǒng)計學也是一場科學革命的主角之一，它從根本上改變了人們對“數(shù)據(jù)”的看法，乃至描述和認識世界的方式。今天，面對一堆“雜亂無章”的數(shù)據(jù)，怎樣提出合適的問題，從而認識它們、分析它們、挖掘有意義的信息，仍是一種最基本的研究方法——看似習以為常，卻是由來有自。

戴維 · 薩爾斯伯格的《女士品茶》這本書，將平日里我們接觸的統(tǒng)計學方法追根溯源、抽絲剝繭，娓娓寫出舉重若輕的歷史故事乃至“八卦消息”。我們中心的小伙伴則作了悉心總結(jié)，供您消遣回味。

潘雨晴

中國社會科學院公共政策研究中心研究助理

我們經(jīng)常可以接觸到類似“天氣預報說明天下雨的概率是90%”、“民意調(diào)查的結(jié)果顯示60%的民眾支持某某提案”的訊息。當我們談論某個地區(qū)的實際人口特征時，我們使用的通常是人口普查測得的數(shù)據(jù)。我們也愿意支持政府的禁煙政策，因為有統(tǒng)計研究表明吸煙會致癌。統(tǒng)計學發(fā)展至今，已經(jīng)徹底改變了我們認知世界的方式，并且滲透到了生活的方方面面。

統(tǒng)計革命如何發(fā)生，它又帶來了哪些改變？戴維 · 薩爾斯伯格的《女士品茶》一書便以此為核心，描繪了那些參與這場革命的人物以及他們的創(chuàng)造性觀點。雖然書中所述遠不能囊括統(tǒng)計學的全部內(nèi)容，但它作為一本統(tǒng)計學入門書，仍具有啟發(fā)意義。

一

統(tǒng)計方法的發(fā)展

（一）實驗設計

在英國劍橋的某個午后，一位女士宣稱，將茶加進奶里和將奶加進茶里的做法會使茶的味道喝起來不同。為了檢驗這個命題是否成立，在座的羅納德·艾爾默·費希爾（Ronald Aylmer Fisher）興致勃勃地開始了實驗，讓這位女士品嘗不同方法調(diào)制的奶茶并記錄她的判斷。問題在于，即使這位女士不能區(qū)分兩者的差異，每次她也有50%的機會猜對；即使她能夠做出區(qū)分，由于一些干擾因素的存在，例如奶茶沒有充分混合或者沖泡溫度不同，她仍然有猜錯的可能。而我們很難將兩者的影響從最終的判斷結(jié)果中分離出來。依據(jù)那位女士判斷的對錯與否，費希爾算出了各種不同結(jié)果出現(xiàn)的概率，以確定那位女士是否真的能作出區(qū)分。具體的方法被記錄在他所著的《實驗設計》（The Design of Experiments）一書的第二章。

《實驗設計》是統(tǒng)計革命中的一個重要部分，事實上這里面包含了一個問題，那就是如何把不同的因素對結(jié)果的影響分離開來。在20世紀初，費希爾就曾經(jīng)研究洛桑農(nóng)業(yè)試驗站（Rothamsted Agricultural Experimental Station）過去90年的實驗記錄，指出在這些實驗數(shù)據(jù)中，天氣和人造肥料對農(nóng)作物產(chǎn)量的影響是難以分離的。在對實驗設計進行思考后，他的結(jié)論是：實驗設計的第一步是建立一組數(shù)學公式來描述觀測數(shù)據(jù)與估計結(jié)果之間的關(guān)系。而且實驗必須能夠讓科學家們測定出氣候的差異和不同肥料的使用對產(chǎn)量的影響，其中關(guān)鍵的一點就是要加入控制組（controls）進行對照。

在研究一組不同的人工肥料組合對不同品種馬鈴薯的影響時，費希爾改變了以往將某種人工肥料用于整個農(nóng)場的做法，而是把土地劃成小塊，每塊地又會進一步分出作物的不同行，對每一行施加不同的肥料。這樣做的好處是能夠盡量將土壤、排水或者天氣等因素對產(chǎn)量差異的影響程度降到最低。另外，考慮到不會有絕對相同的土壤條件，隨機化的肥料選擇能夠在某種意義上抵消不同土壤造成的結(jié)果差異。

（二）分布與參數(shù)

英國科學家弗朗西斯·高爾頓（Francis Galton）曾收集身高、體重等數(shù)據(jù)，希望找到利用父母的數(shù)據(jù)來推斷子女數(shù)據(jù)特征的辦法。通過對結(jié)果的觀測，他注意到了均值回歸的現(xiàn)象——如果父母非常高/矮，其子女往往要更矮/高一些。他發(fā)現(xiàn)物種特征在代際之間是大致相同的，并為這種關(guān)聯(lián)提供了數(shù)學的測度，即“相關(guān)系數(shù)”（coefficient of correlation）。

他的學生K·皮爾遜（Karl Pearson）則做出了進一步的發(fā)展。K·皮爾遜認為，由于不可預見且難以察覺的干擾存在，所有的實驗都很難得到單個確切的數(shù)值，但我們可以用所有的這些數(shù)據(jù)來對真值進行近似的估計。換句話說，我們通過實驗獲得的只是一組散布的數(shù)據(jù)，或者說是一個數(shù)據(jù)分布中的樣本，而統(tǒng)計模型可以幫助我們描述這些數(shù)據(jù)的概率分布。

事實上，1820年皮埃爾·西蒙·拉普拉斯（Pierre Simon Laplace）就認為實驗誤差具有某種分布特征。而K·皮爾遜通過對生物學數(shù)據(jù)的觀測發(fā)現(xiàn)，不只是實驗誤差，測量值本身也同樣可以用分布函數(shù)來描述，這被他稱為“偏斜分布”（skew distribution），它可以由均值、標準差、對稱度和峰度這四個參數(shù)確定。參數(shù)本身雖然無法直接觀測，但是可以根據(jù)觀測值的分布方式推算出來。

此前，科學家們認為自己研究的對象都是真實的，但K·皮爾遜顛覆了這個認知，提出，我們觀測到的只是真實的一種隨機映像，而真實只能通過分布函數(shù)來反映。他的假定是，在理想情況下，科學家們會獲得全部的測量值，并確定其分布參數(shù)，而在現(xiàn)實中，我們可以收集一個足夠大且具有代表性的數(shù)據(jù)子集，這樣就可以準確地測算出真實的參數(shù)。

但是科學家們往往很少有機會獲得如此大量的樣本，威廉·西利·戈塞特（William Sealy Gosset）就提出這樣一個問題：在小樣本的情況下，我們要如何處理這些必然會存在的隨機誤差呢？他發(fā)現(xiàn)，我們并不需要知道K·皮爾遜提出的四個參數(shù)的確切數(shù)值，因為均值和標準差的估計值的比率也服從一定的概率分布，也就是我們現(xiàn)在熟悉的t分布（Student's t-distribution）。

事實上，K·皮爾遜并沒有意識到，我們根本不可能確定這四個參數(shù)的真實數(shù)值。按照費希爾的觀點，數(shù)據(jù)的真實分布只是一個抽象的公式，我們的觀測值只能用來估計這個真實分布的參數(shù)。由于測量值是從所有可能出現(xiàn)的測量值中隨機選取的，因而根據(jù)隨機選取的數(shù)據(jù)得出的參數(shù)估計值本身也具有隨機性，服從一定的概率分布。估計的誤差是必然存在的，但是我們可以通過一些分析的手段，把誤差的程度降到最低，或者讓我們有更大的概率接近真實的分布。在此基礎(chǔ)之上，費希爾提出了判斷估計值的三個標準：一致性、無偏性、有效性，并提出了“極大似然估計”（maximum likelihood, ML）的方法。

在現(xiàn)實的科學實驗觀測中，人們還發(fā)現(xiàn)了一些新的分布模型。例如切斯特·布利斯（Chester Bliss）注意到，無論殺蟲劑的濃度有多高，總會有一兩只昆蟲還活著，而無論他怎樣稀釋殺蟲劑，也總有幾只昆蟲會死掉。因此，他通過“概率單位模型”（probit model）描述了殺蟲劑劑量與使用該劑量時一只蟲子會死掉的概率之間的關(guān)系。布利斯的模型暗含的類似思想是，我們根本沒有辦法準確測算出某一個體對藥物劑量的反應，只能估計抽象的概率。此外，耶日·內(nèi)曼（Jerzy Neyman）還發(fā)現(xiàn)了用于模擬土壤里昆蟲幼蟲分布情形的“傳染分布”（contagious distribution）。

以上這些統(tǒng)計模型處理的都是可以獲得的觀測數(shù)據(jù)，然而我們要怎樣用統(tǒng)計模型來分析那些極端事件呢？倫納德·亨利·凱萊布·蒂皮特（Leonard Henry Caleb Tippett）找到了答案。他發(fā)現(xiàn)了一個能把樣本數(shù)據(jù)的分布與極值（extreme values）的分布聯(lián)系起來的公式，這就是“蒂皮特的三條極值漸近線”（Tippett's three asymptotes of the extreme）。舉個例子，當我們知道了極值分布與正常值分布之間的關(guān)系，就可以通過每年洪峰的高度記錄來預測百年不遇的洪災發(fā)生時最有可能的洪峰高度。

（三）假設檢驗

對比用觀測數(shù)據(jù)繪制出的圖形和用特定數(shù)學公式生成的圖形，我們能夠根據(jù)兩者看起來相似而證明數(shù)學公式正確描述了觀測數(shù)據(jù)嗎？事實上，這種用肉眼檢驗的方式難免會出錯，而我們可以通過統(tǒng)計分析進行更加可信的判斷。

K·皮爾遜的成就之一就是提出了“擬合優(yōu)度檢驗”（goodness of fit test）的方法，它使科學家能夠判斷一組觀測值是否符合某一特定的數(shù)學分布函數(shù)。通過比較觀測值與預測值，皮爾遜構(gòu)造出一種能對擬合優(yōu)度進行檢驗的統(tǒng)計量，即“χ2擬合優(yōu)度檢驗”（chi-square goodness of fit test）。χ2擬合優(yōu)度檢驗只有一個參數(shù)，即“自由度”（degree of freedom）。當然，除了χ2檢驗之外，現(xiàn)在常用的還有t檢驗、F檢驗。

皮爾遜的擬合優(yōu)度檢驗是“假設檢驗”（hypothesis testing）的先驅(qū)，而現(xiàn)在運用的檢驗方法大部分都是費希爾構(gòu)造出來的。總的來講，假設檢驗是在“待檢驗的假設為真”的假設前提下，計算觀測到的結(jié)果發(fā)生的概率。當觀測結(jié)果發(fā)生的概率很低時，我們可以拒絕接受這個假設。費希爾把這個概率稱為“P值”（P-value）。內(nèi)曼和埃貢·皮爾遜（Eqon Pearson）在此基礎(chǔ)之上發(fā)展出了更加簡單的檢驗范式，他們把被檢驗的假設稱為“零假設”（null hypothesis），把其他可能的假設稱為“備擇假設”（alternative hypothesis）。在他們的公式中設定了一個固定的值，比如0.05，如果顯著性檢驗的P值小于或等于0.05，就拒絕零假設。內(nèi)曼還提出了區(qū)間估計（interval estimate）的方法和置信區(qū)間（confidence interval）的概念，用以構(gòu)造在某一顯著性水平（P值）下參數(shù)真值的估計區(qū)間。例如，如果一直計算95%（P值為0.05）的置信區(qū)間，長期來看，參數(shù)的真值將有95%的頻率落在測算的區(qū)間內(nèi)。

以上這些方法都是建立在參數(shù)估計的基礎(chǔ)上的。但是弗蘭克·威爾科克森（Frank Wilcoxon）發(fā)現(xiàn)，實驗過程中常常會由于各種原因出現(xiàn)異常值，而這些異常值顯著地影響了檢驗統(tǒng)計量。剔除異常值顯然行不通：如何判斷數(shù)據(jù)是不是異常值？需要剔除多少個異常值？異常值被剔除之后是否適用標準的檢驗統(tǒng)計？于是他提出，可以將觀測數(shù)據(jù)與純粹隨機分布的數(shù)據(jù)進行比較，這屬于一種非參數(shù)檢驗（nonparametric test）。由此，統(tǒng)計學又邁出了革命性的一步，科學家們不需要對參數(shù)進行估計也可以進行檢驗。在此之后，又出現(xiàn)了很多非參數(shù)檢驗的方法。1971年，雅羅斯拉夫·哈耶克（Jaroslav Hájek）提出了非參數(shù)檢驗的一般性理論。

非參數(shù)方法是否更好呢？埃得溫·詹姆斯·喬治·皮特曼（Edwin James George Pitman）通過測算發(fā)現(xiàn)，當數(shù)據(jù)具有一個已知的參數(shù)分布時，非參數(shù)檢驗與參數(shù)檢驗的表現(xiàn)幾乎是一致的。而觀測值只需稍稍偏離參數(shù)模型，非參數(shù)檢驗就會擁有更好的表現(xiàn)。不過R·R·巴哈杜爾（R. R. Bahadur）和L·J·薩維奇（L. J. Savage）也指出，雖然在異常值極少且完全“錯誤”的情況下，非參數(shù)方法可以降低它們在統(tǒng)計分析中的影響，但是如果這些異常值是某種系統(tǒng)性影響的結(jié)果，那么采用非參數(shù)方法可能只會使問題更糟。

二

統(tǒng)計思想如何改變了科學與生活

在統(tǒng)計革命之前，決定論的哲學觀點主導了19世紀的科學領(lǐng)域，科學家們堅信只需要一組完整的公式和一組精度足夠高的測量數(shù)據(jù)，就能夠描述現(xiàn)實世界的一切，并且預測未來即將發(fā)生的事件。例如，人們通過公式成功預測出了天體的運動軌道，發(fā)現(xiàn)了海王星。還有人試圖將這種尋找科學規(guī)律的研究方式引入社會學、政治學等領(lǐng)域。

此時科學處理的對象，要么是已有的測量，要么是生成這些測量值的事件。他們認為自己觀測到的就是真實，而科學要尋找的是產(chǎn)生觀測值的規(guī)律。當然，由于測量誤差的存在，觀測到的數(shù)值并不完全準確，例如，天文測量存在的微小誤差可能是因為大氣狀況和測量的人為因素造成的。但科學家們相信，隨著測量精度的提高，誤差最終會消失。但是人們漸漸發(fā)現(xiàn)，更加精確的測量反倒使模型預測值和實際觀測值之間的差異變得越來越大，決定論觀點開始崩潰。事實上，無論測量多么精確，觀測值終究是有誤差的。一旦我們接受了這個觀點，科學研究中的單個測量值就不再具有明顯的意義。伴隨著統(tǒng)計革命，科學研究的重點變成了測量值的分布狀態(tài)。例如，我們對重力常數(shù)的測量值永遠都不一樣，但我們可以研究重力常數(shù)測量值的分布，并對真值進行近似估計。

回到前文提過的洛桑農(nóng)業(yè)試驗站，費希爾試圖將隨機事件彼此聯(lián)系在一起。因此，他通過數(shù)學模型建立了小麥收成與年份之間的一般關(guān)系，將小麥產(chǎn)量的時間變動趨勢分成幾個部分，并對參數(shù)進行估計。這些被分解的趨勢包括：土地退化導致的產(chǎn)量穩(wěn)定下降；氣候在不同年份的差異導致的收成變動；還有其他一些長期的緩慢的變化?，F(xiàn)在我們對時間序列數(shù)據(jù)的統(tǒng)計分析就是在他的思想和方法的基礎(chǔ)上建立起來的。

由于差異的存在，還需要考慮的問題是，觀測數(shù)據(jù)只是整體數(shù)值分布中的一個樣本，那我們怎樣保證觀測數(shù)據(jù)產(chǎn)生的估計值可以準確描述整體特征呢？

現(xiàn)在我們普遍接受了這樣一種觀念：具有充分代表性的小樣本可以用來估計總體的特征，關(guān)鍵在于如何實現(xiàn)。一種可能的辦法是構(gòu)造“判斷樣本”（judgment sample），例如尼爾森收視率排行榜（the Nielsenratings）就是根據(jù)社會經(jīng)濟狀況和生活地區(qū)的差異，選擇不同的家庭作為樣本，并進行估計。但是只有當我們充分了解整體的特征，比如不同社會經(jīng)濟狀況和生活地區(qū)的人在整體中的結(jié)構(gòu)構(gòu)成，才可以準確地判斷究竟要從不同群體中挑選多少樣本來組建判斷樣本。尼爾森媒體研究所就曾經(jīng)被批評，稱其抽取的樣本中西班牙裔家庭太少，低估了西班牙語電視觀眾的人數(shù)。

普拉桑塔·錢德拉·馬哈拉諾比斯（Prasanta Chandra Mahalanobis）的解決辦法是采用隨機抽樣（random sample）。我們可以用統(tǒng)計學理論確保，從長期來看，隨機數(shù)據(jù)產(chǎn)生的估計值比其它數(shù)據(jù)更接近真值。大蕭條時期，美國政府想得到有關(guān)失業(yè)率的準確數(shù)據(jù)，在當時的普查中證實了隨機小樣本調(diào)查的結(jié)論比之前的判斷樣本要精確得多。于是隨機抽樣成為美國勞工統(tǒng)計局和普查局的主要調(diào)查方式。隨后，這些方法又被引入了民意測驗中。并且，我們還可以運用隨機抽樣的概率分布計算參數(shù)的置信區(qū)間，現(xiàn)在有些調(diào)查除了提供某個問題的支持人數(shù)占比之外，還會給出這一比值的上下誤差，該做法就是基于上述原理。

現(xiàn)實中的實驗設計還存在另一個重要的問題，那就是我們的實驗對象并不是完全隨機的。例如在癌癥研究中，即使治療方案的分配是隨機的，接受治療的病人依然可能選擇改變治療方法，而強行要求病人堅持原方案顯然是不道德的。對此，雷沙爾·皮托（Rechard Peto）提出了意向性治療的方法，建議在分析過程中以病人最初隨機分配到的治療方案為準，即無論病人之后是否調(diào)整了治療方案，無論病人是否實際接受了這種治療，這個病人仍被視為采用了最初的治療方案。這樣得出的分析結(jié)果雖然不精確，但是是無偏的。不過，這種方法只能用來找不同治療方案之間的差別，如果顯示沒有顯著差別，也并不代表兩種方案的療效相同。

在公共政策領(lǐng)域也存在著相似的問題。20世紀60年代，美國巴爾地摩市政府想知道公共住宅是否影響低收入人群的社會態(tài)度和生活水平。然而，政府分配公共住宅的通常做法是先到先得，而那些最先申請的人往往是最積極、最有進取心的一類人，無論有沒有公共住宅，他們都可能比其他人做得更好，這顯然會影響到我們的結(jié)論。威廉·科克倫（William Cochran）的解決辦法是，觀察那些住公共住宅以及那些沒有住的家庭的特征，如年齡、受教育程度、宗教信仰、家庭的穩(wěn)定狀況等，并建立一個數(shù)學模型，將這些因素包含在內(nèi)。通過參數(shù)估計，我們可以判斷這些因素對結(jié)果的影響力，而剩下的影響就是由公共住宅造成的。現(xiàn)在的計量研究文章中，如果作者聲稱結(jié)果的差異已經(jīng)根據(jù)某某變量進行了控制或調(diào)整，那很可能就是科克倫方法的應用。

不過科克倫的方法是高度依賴模型和參數(shù)估計的，如果數(shù)學模型不能非常準確地描述現(xiàn)實，或者存在異常值，那我們可能無法得出準確的答案。事實上，統(tǒng)計分析中還存在一些非參數(shù)方法，在這類方法中，我們不必通過一個預想的模型，就可以挖掘數(shù)據(jù)背后的內(nèi)涵。根據(jù)格利文科－坎泰利引理（Glivenko-Cantelli lemma），即使我們對一些數(shù)據(jù)的概率分布一無所知，仍然可以構(gòu)造一個非參數(shù)分布，并通過增加觀測值的數(shù)量，使之接近真實的分布函數(shù)。由于現(xiàn)在計算機已經(jīng)可以實現(xiàn)大量重復抽樣和密集計算，這一思想也得到了極大的發(fā)展和應用。

計算機的出現(xiàn)同樣也促進了統(tǒng)計思想的革新。計算機儲存數(shù)據(jù)的能力讓我們可能需要對龐大的數(shù)據(jù)組進行處理，例如在疾病研究的觀測中，如果我們每次檢查都會記錄每個病人產(chǎn)生的500個測量值，并且跟蹤10次，那么一個病人就會有5000個不同的測量值。如果總共研究2萬個病人，那么我們的數(shù)據(jù)就是一個5000維空間里的2萬個點，這極大地增加了數(shù)據(jù)處理的難度。但是在20世紀70年代，斯坦福的一個研究小組發(fā)現(xiàn)，在高維度的空間里，數(shù)據(jù)的分布并不是分散而無規(guī)律的，其中很多的測量值彼此相關(guān)，而它們的分布往往集中在較低維度的空間。根據(jù)這種思想，斯坦福研究小組發(fā)展出了“投影尋蹤”（Projection Pursuit）技術(shù)，通過在低維空間中的數(shù)據(jù)投影來分析高維數(shù)據(jù)的結(jié)構(gòu)特征。

此外，值得一提的是，在貝葉斯（Thomas Bayes）發(fā)現(xiàn)條件概率具有內(nèi)在的對稱性之前，人們都是以“前事件”為條件來計算“后事件”發(fā)生的概率，例如，對一個病人患癌概率的計算，是以該病人的吸煙史為條件的。但是貝葉斯發(fā)現(xiàn)，我們也可以以“后事件”為條件計算“前事件”發(fā)生的概率。現(xiàn)在這一思想廣泛應用于流行病學的“回溯性研究”（retrospective studies）中。我們可以找一組患有某種疾病的人，和一組沒有患病，但是其他方面與病人類似的對照組，在已知病人患有該疾病的條件下，計算某些先前的治療或條件導致該疾病的概率。

更廣義地說，貝葉斯定理對參數(shù)估計的思想也有重要的影響——如果我們認為分布參數(shù)是根據(jù)觀測值而隨機變化的，那在給定結(jié)果的觀測數(shù)據(jù)后，我們也能計算參數(shù)的概率分布。而且，按照貝葉斯的理論，事實上參數(shù)的分布本身也存在著一個參數(shù)，這種層次模型在戰(zhàn)爭時期的密碼編譯和破解中得到了應用。原理在于：密碼的最終呈現(xiàn)是通過多級編碼形成的，如果將原始數(shù)字當成觀測的初始值，它在每一級的變換形式都具有一定的規(guī)律性，可以用參數(shù)來描述，那么在給定密碼后，通過一層層的參數(shù)計算，我們是能夠破譯密碼的。

如今，統(tǒng)計思想的應用還進入到了生產(chǎn)領(lǐng)域。例如，在工業(yè)領(lǐng)域有一種質(zhì)量控制的方法，就是基于統(tǒng)計思想提出的。由于各種因素的影響，同一生產(chǎn)線上出來的產(chǎn)品仍然存在不可避免的差異，然而消費者希望能夠保證產(chǎn)品質(zhì)量穩(wěn)定可靠。因此，W·愛德華茲·戴明（W. Edwards Deming）提出一種方法，測量從原材料供應到成品出廠過程中每一個環(huán)節(jié)的產(chǎn)出差異，并要求管理者將產(chǎn)出差異最大的環(huán)節(jié)作為質(zhì)量控制的重點，并進行連續(xù)性的質(zhì)量控制，不斷提高產(chǎn)出的穩(wěn)定性。正是因為采用了這種方法，日本工業(yè)產(chǎn)品的質(zhì)量得到了有效的控制。

三

統(tǒng)計工具應用中的反思

隨著統(tǒng)計方法的普及，統(tǒng)計分析已經(jīng)形成了一種相對簡易的范式，人們可以自如地使用統(tǒng)計方法對數(shù)據(jù)進行處理。然而，我們需要警惕一種傾向，那就是理所當然地運用工具卻忽視了數(shù)據(jù)本身。

我們在設計模型、求解參數(shù)，并根據(jù)結(jié)果提出建議時，如果沒有仔細研究過數(shù)據(jù)資料的結(jié)構(gòu)特征，可能會導致嚴重的結(jié)果錯誤。1970年，英國內(nèi)務部調(diào)查局有一項研究，是分析不同刑期對男性罪犯出獄后兩年內(nèi)重新犯罪的概率的影響。分析結(jié)果表明，刑期越短，重新犯罪的概率越高。因此他們得出一個結(jié)論，延長刑期減少慣犯的數(shù)量。然而斯特拉·坎利夫（Stella Cunliffe）發(fā)現(xiàn)，重新犯罪與刑期的顯著關(guān)聯(lián)主要是因為刑期在三個月之內(nèi)的犯人重犯罪率高。這些人幾乎都是年老的、處境悲慘的、精神不正常的人，他們反復犯罪只是因為希望監(jiān)獄收容。而在研究所用的統(tǒng)計數(shù)據(jù)中，這同一撥人每次入獄都會被當作不同的樣本重復統(tǒng)計，于是短刑期與重新犯罪概率之間的關(guān)聯(lián)被夸大了。她將統(tǒng)計數(shù)據(jù)重新調(diào)整后，重新犯罪概率與刑期長短的顯著關(guān)聯(lián)就消失了。

還有一個容易引發(fā)爭論的話題，那就是統(tǒng)計分析以及它背后涉及到的概率實際上向我們傳達的意思是，一個命題“可能”或者“在大多數(shù)情況下”是對的/錯的。但問題在于，我們測算得到的估計值，究竟在多大程度上可信，顯著的P值又是否能夠推定因果關(guān)系？

前面我們已經(jīng)討論過假設檢驗的問題，但事實上費希爾承認，所謂的P值只是在最不可能成立的條件下出現(xiàn)觀測結(jié)果的理論概率。較大的P值只能代表我們無法根據(jù)這組數(shù)據(jù)作出充分的判斷，而不能因為沒有找到顯著的證據(jù)，就判斷待檢驗的假設為真；同樣，較小的P值也并不能保證單次的參數(shù)估計結(jié)果一定準確——如果一個科學家以0.05的標準進行大量檢驗，那么從長期來看，他會有5%的頻率拒絕正確的假設。而在對一些吸煙與癌癥研究的批判中，費希爾提出，由于種種缺陷的存在，他們得出的顯著結(jié)果能夠證明相關(guān)性，卻未必能夠證明吸煙是導致癌癥的原因。

當然，這背后還涉及到更深層次的哲學問題：概率有何意義？什么是原因與結(jié)果？

關(guān)于前一個問題，L·喬納森·科恩（L. Jonathan Cohen）提出幾個悖論：在一萬張彩票的抽獎活動中，假設有一人中獎，每個人中獎的概率都是萬分之一。那么按照假設檢驗的思路，我們可以拒絕這種極小概率的事件，以此類推，每個人都不會中獎，也就沒有人會中獎?；蛘?，假設在一個1000席位的音樂廳，主辦方只售出了300張票，但是現(xiàn)場來了1000位觀眾，根據(jù)英國的習慣法，主辦方有權(quán)向現(xiàn)場每個觀眾收錢，因為他們逃票的概率都是70%，這樣一來，雖然音樂廳只有1000個席位，但是主辦方卻賣了1300張門票?？梢钥吹?，以概率為依據(jù)作出的推斷有時是不合邏輯的。

關(guān)于后一個問題，伯特蘭·羅素（Bertrand Russell）曾指出，不同因果關(guān)系的實例并不能套用相同的推理邏輯，它們通常是相互矛盾的。他從符號邏輯出發(fā)，提出了“實質(zhì)蘊涵”（material implication）的概念。羅伯特·科赫（Robert Koch）將其發(fā)展成為一組用以證明某種病原體將導致某種疾病的假設：只要病原體存在，疾病就會發(fā)生；只要疾病沒有發(fā)生，則病原體一定不存在；當病原體被消除，疾病就會消失。但是對于心臟病、糖尿病、癌癥這類疾病，這些假設顯然不適用。

當然，統(tǒng)計模型只是我們描述現(xiàn)實的一種工具，它不可能完美地描繪出現(xiàn)實的復雜性。隨著積累的數(shù)據(jù)越來越多，當有一天我們發(fā)現(xiàn)統(tǒng)計模型不再適用時，自然還會有一場新的革命出現(xiàn)，正如百年前的統(tǒng)計革命一樣。