在某一癌癥新藥的試驗(yàn)中,50名患者中有44%的人在使用這種藥物后病情得到了緩解。如果不使用這種藥物,只有32%的病人病情會(huì)得到緩解。新的療法聽上去很有前景,但它真的比原來的療法更好嗎? 這個(gè)問題很難回答,所以統(tǒng)計(jì)學(xué)家選擇換一種方式來回答這個(gè)問題。他們對(duì)結(jié)果進(jìn)行觀察并計(jì)算“p值”。如果p值小于0.05,則結(jié)果在統(tǒng)計(jì)學(xué)上具有顯著性;換句話說,這不太可能是隨機(jī)結(jié)果。但目前的問題是,許多在統(tǒng)計(jì)學(xué)上有顯著性的結(jié)果都無法重復(fù)。比如說,某一療法在某次試驗(yàn)中有顯著療效,但在下一次試驗(yàn)中卻沒有任何作用。這個(gè)問題已經(jīng)非常嚴(yán)峻,以致有的期刊已完全禁止在文章中出現(xiàn)“p值”。 瓦倫·約翰遜(Valen E. Johnson)團(tuán)隊(duì)也研究了這個(gè)問題,他們認(rèn)為,僅用統(tǒng)計(jì)顯著性來分析實(shí)驗(yàn)結(jié)果是遠(yuǎn)遠(yuǎn)不夠的。 大部分研究假設(shè)是錯(cuò)誤的 開放科學(xué)協(xié)作(Open ScienceCollaboration,OSC)是一個(gè)專注于科學(xué)研究的非營利性組織。他們?cè)噲D重復(fù)100個(gè)發(fā)表于期刊上的心理學(xué)實(shí)驗(yàn)。根據(jù)報(bào)道,其中97 個(gè)在最初的實(shí)驗(yàn)中都具有統(tǒng)計(jì)顯著性,但開放科學(xué)協(xié)作卻只能成功重復(fù)36個(gè)實(shí)驗(yàn)。 瓦倫·約翰遜和他的學(xué)生用實(shí)驗(yàn)數(shù)據(jù)來估算隨機(jī)選擇的心理學(xué)實(shí)驗(yàn)可以重復(fù)的概率。他們發(fā)現(xiàn)只有7%的實(shí)驗(yàn)具有可重復(fù)性。經(jīng)濟(jì)學(xué)家安娜·德雷貝(Anna Dreber)也做了類似的研究,她估算僅有9%的實(shí)驗(yàn)可以重復(fù)。 這兩項(xiàng)分析表明,心理學(xué)領(lǐng)域中大約只有7.7%的實(shí)驗(yàn)可被成功重復(fù),或許在其他社會(huì)科學(xué)領(lǐng)域也是如此。他們的研究對(duì)于解釋p值具有重要意義,尤其是p值接近0.05時(shí)。 貝葉斯因子 其實(shí)p值接近0.05是隨機(jī)結(jié)果的概率比人們所以為的概率要大。為了更好地理解這個(gè)問題,讓我們回到開始提到的藥物試驗(yàn)。我們知道,50位試用新療法的病人中有22位病人病情得到緩解;若使用舊療法,則有16位病人病情得到緩解。 如果新療法沒有舊療法作用好,那么50位病人中有22位甚至更多病人的病情得到緩解的可能性為0.05。也就是說這個(gè)實(shí)驗(yàn)的p值具有統(tǒng)計(jì)顯著性。但我們想知道新療法是否真的得到了改進(jìn),或者說它是否的確比舊療法更好。 為了回答這個(gè)問題,瓦倫·約翰遜將數(shù)據(jù)中包含的信息與實(shí)驗(yàn)前的可用信息即“先驗(yàn)概率”結(jié)合起來進(jìn)行分析。(先驗(yàn)概率反映研究中沒有直接測(cè)量的因素。比如先驗(yàn)概率可能會(huì)解釋其他10次類似藥物的試驗(yàn)沒有一次能成功重復(fù)的原因。) 統(tǒng)計(jì)數(shù)據(jù)顯示,如果新藥物沒有原來的藥物好,50個(gè)有22個(gè)成功的概率是0.0235——相對(duì)較低。如果新藥物更好呢?實(shí)際上我們并不知道新藥的成功率,但有一個(gè)很好的猜想是它會(huì)接近于觀察到的成功率,即22/50。假定如此,那么觀察到22/50的成功率的可能性是0.113。 綜上,這兩個(gè)概率的比值為貝葉斯因子。我們可以利用貝葉斯定理將貝葉斯因子與先驗(yàn)概率結(jié)合起來,計(jì)算出新療法更好的概率。 藍(lán)色曲線代表了“零假設(shè)”下即舊療法更好的概率。紅色曲線代表的是新療法更好的概率。陰影部分代表p值。在這種情況下,成功數(shù)為22的概率比是A比B,即0.21。 為便于論證,瓦倫·約翰遜假設(shè)在13次癌癥治療實(shí)驗(yàn)中只有1次能成功。這個(gè)值接近他估計(jì)的實(shí)驗(yàn)成功概率。當(dāng)他將這些先驗(yàn)概率與貝葉斯因子結(jié)合在一起時(shí)發(fā)現(xiàn),舊療法更好的概率至少是0.71。這與統(tǒng)計(jì)顯著性上p值為0.05正好相反! 一種新方法 這種不一致性是許多科學(xué)研究的典型特征。p值在0.05左右非常普遍。這就解釋了為什么許多具有統(tǒng)計(jì)顯著性的結(jié)果并不能重復(fù)。 那么,我們應(yīng)該如何評(píng)估文章開始提到的科學(xué)發(fā)現(xiàn)呢?在2017年9月,瓦倫·約翰遜團(tuán)隊(duì)提出:只有p值小于0.005才能被認(rèn)為具有統(tǒng)計(jì)顯著性。p值在0.005到0.05之間僅說明實(shí)驗(yàn)結(jié)果可能具有統(tǒng)計(jì)顯著性。 在瓦倫·約翰遜看來,具有統(tǒng)計(jì)學(xué)意義的結(jié)果應(yīng)該是容易被重復(fù)的,在社會(huì)科學(xué)、生物學(xué)、藥物學(xué)領(lǐng)域也是如此。他還認(rèn)為,統(tǒng)計(jì)顯著性不應(yīng)該作為閾值公布。許多統(tǒng)計(jì)學(xué)給出的結(jié)果(即便這些結(jié)果在很大程度上具有不確定性)已經(jīng)發(fā)表了,但他們不一定給出了重要的初始證據(jù),即便這些證據(jù)與新理論是否正確息息相關(guān)。 10月11日,瓦倫·約翰遜在馬里蘭州貝塞斯達(dá)的統(tǒng)計(jì)推理研討會(huì)上再次向與會(huì)的統(tǒng)計(jì)學(xué)家們提出了他的想法。他說,改變統(tǒng)計(jì)顯著性定義的目標(biāo)是恢復(fù)這個(gè)術(shù)語的本意,使得數(shù)據(jù)可以為科學(xué)發(fā)現(xiàn)或治療效果提供實(shí)質(zhì)性的支持。 飽受爭(zhēng)議 不是所有人都同意瓦倫·約翰遜的觀點(diǎn),其中便包括心理學(xué)家丹尼爾·萊肯斯(Daniel Lakens)團(tuán)隊(duì)。 他們認(rèn)為,貝葉斯因子的定義太過主觀,研究人員完全可以提出其他可能改變他們結(jié)論的假設(shè)。例如在臨床試驗(yàn)中,如果研究人員想提供更有力的證據(jù)支持新藥,他們可以報(bào)告三個(gè)月而不是六個(gè)月的緩解率。而且,13次試驗(yàn)僅有1次可以重復(fù)的預(yù)估概率值太低了。他們指出,這一值沒有考慮p-值篡改(術(shù)語,研究人員反復(fù)分析數(shù)據(jù)直到找到一個(gè)可靠的p值)。他們還認(rèn)為,與其禁止使用p值,研究人員不如在開始實(shí)驗(yàn)前就證明實(shí)驗(yàn)結(jié)果是否可能具有統(tǒng)計(jì)學(xué)上的顯著性。 瓦倫·約翰遜并不認(rèn)同萊肯斯的許多主張。單純從實(shí)踐角度來看,瓦倫·約翰遜認(rèn)為他們的提議行不通,大部分科學(xué)期刊都沒有為研究人員提供實(shí)驗(yàn)前計(jì)算p值的方法。更重要的是,讓研究人員自己設(shè)定閾值對(duì)于提高科學(xué)研究的可重復(fù)性并不是一個(gè)好方法。只有期刊編輯和資助機(jī)構(gòu)同意提前公布那些還沒有進(jìn)行的、但基于科學(xué)家自己設(shè)定標(biāo)準(zhǔn)的實(shí)驗(yàn)的結(jié)果,萊肯斯的提議才是可行的。瓦倫·約翰遜認(rèn)為這種情況基本不可能發(fā)生。 在此之前,瓦倫·約翰遜建議我們不要輕易相信那些p值接近0.05的科學(xué)研究。要堅(jiān)持一個(gè)更高的標(biāo)準(zhǔn)。 |
|