一個源于1925年的錯誤，正在給現(xiàn)代科學制造麻煩

懶人葛優(yōu)癱 2017-08-22

展開全文

P值是研究者們最愛的統(tǒng)計指標之一，許多科學領域中的研究結果的意義均是由P值來判斷的。它們被用來證明或駁回一個“零假設”：通常假定所測試的效果并不存在。當P值越小，該實驗結果是由純粹的偶然所造成的可能性就越小。

然而現(xiàn)在，它在科學界的地位岌岌可危。許多研究者指出，P值遠沒有眾多科學者想象的那么可靠。

P值為何有了跌下神壇的跡象？這得從P值是如何誕生的說起。

一個源于1925年的錯誤，正在給現(xiàn)代科學制造麻煩

1908年，Guinness brewer William Gosset以筆名”student”發(fā)表了一篇在統(tǒng)計領域具有革命性影響的文章《平均數(shù)的規(guī)律誤差》(“The Probable Error of the Mean”)。

Gosset曾在啤酒廠工作，經常研究諸如啤酒糖含量等因素對啤酒成分的影響，由于樣本采集的有限性，他通常只能以小樣本數(shù)來進行統(tǒng)計平均，不過在這研究的過程中，他發(fā)現(xiàn)小樣本統(tǒng)計平均結果不滿足他一開始認為的高斯分布。為了明白平均數(shù)精度與樣本數(shù)的關系，Gosset嘗試著去計算不同樣本尺寸下的平均數(shù)精度，而這一問題也正是論文的研究核心。

他計算得到的結果包含在了他的T-table分布表中，而現(xiàn)在一般只要是接觸過統(tǒng)計課程的人都會知道T分布，即用來描述不同樣本數(shù)對于統(tǒng)計概率的影響，當樣本數(shù)足夠大的時候，就等同于標準正態(tài)分布(高斯分布)。

一個源于1925年的錯誤，正在給現(xiàn)代科學制造麻煩

雖然之后Gosset的天才式研究發(fā)現(xiàn)并未立刻得到重視，但是少部分的統(tǒng)計學家開始注意到這一研究結果的重要性。其中的一個年輕統(tǒng)計學家R.A. Fisher，相信Gosset的研究結果或許可以用來驗證兩組不同數(shù)據(jù)間是否具有統(tǒng)計顯著性（即現(xiàn)在統(tǒng)計上的t檢驗），這個年輕人不會想到不久后他將可能成為20世紀統(tǒng)計學界最具影響力的人。

1925年，F(xiàn)isher發(fā)表了著作《研究工作者的統(tǒng)計方法》，他在這本具有開創(chuàng)性意義的的書中解釋了統(tǒng)計顯著性的概念。Fisher帶著一些武斷性的選擇α=0.05的概率值來衡量是否具有統(tǒng)計顯著性，當 p值（統(tǒng)計學術語，原假設成立時得到與樣本相同或者更極端結果的概率，P值越小，拒絕原假設的理由越充分，表明結果越顯著）小于0.05時，我們拒絕原假設。

比如，一位研究人員想要確定一種新的教學方法是否有效，他可以選取一組新教學方案教學的學生和普通教學方案的學生的學習成績做對比。如果接受新方法的學生的分數(shù)比那些沒有接受新方法的學生的分數(shù)高出5%的機率（p值），那么Fisher就認為新教學方案是有效的。不過后來證明Fisher武斷的選擇α=0.05的概率值來衡量是否具有統(tǒng)計意義的邏輯是有缺陷的。

一個多世紀后，許多研究者認為Fisher選擇α=0.05誘發(fā)了一個科學上的危機。諸如心理學、經濟學和醫(yī)學等學科上的實驗結果，如果使用α=0.05作為判定閾值的話，那么將導致實驗結論錯誤。

發(fā)表在《科學》雜志上的一項大型研究發(fā)現(xiàn)，對三個心理學主要期刊發(fā)表的結果進行重復，只有不到一半的研究結果能夠被驗證。而另一項對經濟領域的研究發(fā)現(xiàn)，當重復經濟學實驗時，大約有40%的實驗結果消失不見了。不過α=0.05的閾值并非完全是這種實驗大比例不可重復現(xiàn)象的原因，歸根結底實驗過程中缺乏透明度才是這一現(xiàn)象的罪魁禍首。

一個源于1925年的錯誤，正在給現(xiàn)代科學制造麻煩

那么接下來怎么辦呢？由72位杰出的統(tǒng)計學家、經濟學家、心理學家和醫(yī)學研究人員撰寫的一項新提案給出了一個簡單的方案，即使用α=0.005來作為新的閾值。提案的主要作者、南加州大學行為經濟學家Daniel Benjamin說到：“這一種想法的時機已經成熟，有廣泛的潛在支持，希望更改我們在統(tǒng)計意義上使用的語言并收緊標準?！?/p>

提案作者們的具體建議是，對于p值在0.05到0.005范圍內的結果可以認為是一種“暗示性”的證據(jù)，并且那些達到0.005的結果可以被認為是“顯著的”（拒絕原假設是顯著的）。

Benjamin說:“雖然這樣直接使用α=0.005解決方案并不完美，但已經可以在短期內做很多事?！闭缣岚傅难芯克砻鞯模褂忙?0.005解決方案可以減少一半的經濟學和心理學實驗上的錯誤結果。

Benjamin承認選擇α=0.005也帶有一點武斷性質，并同他的同事也討論過其他更低的閾值，但是他認為α=0.005是符合邏輯的。Benjamin補充到，對于0.05閾值的共同解釋——結果（原假設）有95%的可能性是正確的，但使用更先進的統(tǒng)計技術發(fā)現(xiàn)，這95%的機率實際上是更接近于p值等于0.005。

這篇提案有兩個目的：第一，作者們希望學術期刊出版商采用新的統(tǒng)計標準；第二，他們更希望研究人員選擇采用這種統(tǒng)計語言。Benjamin指出在遺傳學和高能物理兩個領域中的P值閾值已經被降低，對應領域的研究者認為改變閾值對于確保結果的可靠性是有必要的。閾值從0.05更改到0.005只能挽救醫(yī)學，心理學和經濟學領域部分的研究結果，Benjamin的團隊更希望醫(yī)學研究人員、經濟學家和心理學家能去正視現(xiàn)今他們領域中出現(xiàn)的科研誠信危機。