一半以上實驗結果無法重復，學術界正在遭遇一場危機嗎？

常青樹 2024-11-30

展開全文

11.28

知識分子

The Intellectual

圖源：Pixabay

撰文 | 詹羊

● 　● 　●

科學的大廈建立在大量可重復的研究結果之上，然而，近年來，種種跡象表示，在生物醫(yī)學領域，大量的研究結果似乎不可重復。比如，Plos Biology最近發(fā)表的一篇對近2000名生物醫(yī)學研究人員的調研報告中[1]，在最終收回的問卷中，72%的參與調研的活躍一線科研人員認同生物醫(yī)學領域存在可重復性危機，其中27%的參與者甚至認為這場危機非常嚴重。

但這也許不能算新聞。2021年，eLife上就發(fā)表了一篇針對癌癥生物學的可重復性研究的總結[2]。結果發(fā)現，學術界至少一半以上的癌癥生物學實驗很有可能是不能重復的。而工業(yè)界似乎也沒有好到哪里去---早在2011年，拜耳（Bayer）公司的一項內部調查顯示[3]，其對67個潛在的新藥靶點進行重復實驗時，僅有不到四分之一的結果得以重復。

由此可見，可重復性的問題在生物醫(yī)學領域可謂曠日持久。解決這一問題，絕不會是朝夕之功。這方面，也許一個稍微沒有那么熱門的領域---心理學的故事，可以給我們帶來一些啟示。

扎堆的“p值曲線”

與不到一半的可重復率

心理學的可重復性故事，得從2011年講起。

在這一年，現西班牙艾賽德商學院的尤里·西蒙松（Uri Simonsohn）、加州大學伯克利分校的萊夫·尼爾森（Leif Nelson）和賓夕法尼亞大學約瑟夫·西蒙斯（Joseph Simmons）發(fā)表了一篇具有里程碑意義的論文[4]。在這個文章中，三人直言不諱地道出了心理學領域心照不宣的事實：心理學研究者在實驗設計和分析過程中擁有極大自由度，研究者往往可以通過不斷的嘗試，“證明”任何假說在統(tǒng)計上顯著，可謂是“有志者，事竟成”。

作為一個例證，他們演示了如何通過選擇樣本量，選擇控制不同的變量，以及選擇不同的實驗組、對照組等一系列騷操作，最終成功“證明”了“聽披頭士的歌使人年輕”的荒謬結論。假如這樣的行為大量存在，那么大量已發(fā)表的心理學研究成果，可能都是不可重復的假陽性。

他們開出的藥方是：研究者在開始實驗之前就公開所有的實驗選擇，并嚴格按照公開的方案執(zhí)行實驗。這個藥方，就是后來廣為人知的“預注冊”（pre-registration）。

同樣在2011年，布萊恩·諾塞克經過多年努力，終于籌到了推動心理學領域大規(guī)?？芍貜托皂椖克璧牡谝煌敖?span>[5]。他說服了全球270多名研究者一起合作，計劃對100-200項高影響力的心理學實驗進行重復試驗。這項雄心勃勃的計劃，日后給心理學領域帶來翻天覆地的變化。

西蒙松等人2011年的文章，只是在理論上指出了心理學可重復性危機的可能性，但在實證上，并沒有強有力的證據表明問題已經嚴重成了一場“危機”。但到了2014年，情況變得更為清晰了。因為這三位研究者又發(fā)表了一篇有趣的論文[6]，為實證檢驗心理學的可重復性危機提供了有力的工具，這就是著名的“p值曲線”。

p值是統(tǒng)計學中用于衡量結果顯著性的重要指標，通常認為p值小于0.05就算顯著。p值曲線依賴于一個簡單直白的直覺：如果研究者在統(tǒng)計顯著性上“鉆空子”，一旦p值跌破那個神奇的0.05，他們就會興高采烈地收工回家。如果這種情況普遍存在，那么我們應該會在已發(fā)表的論文中看到p值在0.05附近扎堆。果不其然，后續(xù)的研究利用p值曲線驗證了這一點[7]。

而在2015年，諾塞克的大規(guī)?？芍貜托匝芯恳查_花結果，發(fā)表在Science上[8]。在完成的100項心理學重復實驗中，只有不到一半（36%-47%）的研究結果被成功復制，約80%的重復實驗中，檢測到的效應強度比原先的實驗要小。這一結果，徹底做實了心理學領域的可重復性危機。

想提高領域的可重復性，

應更鼓勵不顯著結果的發(fā)表。

現代發(fā)展經濟學有“創(chuàng)造性破壞”（creative destruction）之說，指出創(chuàng)新往往首先帶來舊的經濟體系的崩解，然后建立更高效的新經濟體系，最終推動經濟發(fā)展。心理學的發(fā)展也是如此。西蒙松和諾賽克等人的工作，激起了心理學領域盛況空前的真理大討論。自那以后，學界對可重復性根源和應對方案的理解有了長足的進展。

一方面，學科本身有其特異性[9]。在有些領域，理論和實驗技術都已發(fā)展到了很高的水平（比如高能物理），其實驗設計和分析的范式已經高度統(tǒng)一，沒有太多任由實驗人員自行裁量的空間，結果可重復性自然就高。然而像心理學這樣的學科，目前的技術水平還無法做到這種程度的一致性，需要假以時日等待技術的自然進步，在此之前，要對可重復的實驗比例有個理性的預期。

另一方面，科學家也是人，人類多樣的行為也會影響科研產出的可靠性。這里面，最突出的當然是嚴重的學術不端，比如赤裸裸的造假。但是最廣泛的，也是最難以杜絕的還是是西蒙松等人在2011年文章中指出的，通過反復嘗試不同的實驗設計和分析流程，直到獲得顯著的結果。這樣的微小的“作弊”，幾乎無法被確鑿地證明。除此之外，即使研究者主觀上沒有“作弊”的動機，實驗過程中也極有可能下意識地調整實驗條件，直到預期結果出現---畢竟很多新的科學發(fā)現，需要的就是反常規(guī)的實驗設計和分析流程，無法預先框定，嘗試不可避免。

現行的發(fā)表制度，則進一步鼓勵了這種微小“作弊”行為的泛濫，而“不發(fā)表，就出局”的簡單粗暴的科研管理體制也為這種現狀添了一把火。在前述PLOS Biology研究中，受訪的研究者們紛紛表示發(fā)表不可重復性結果的主要原因是“發(fā)表壓力”。

對此，現加州大學默賽德分校的保羅·司馬爾蒂諾 (Paul Smaldino）和現馬普所演化人類學所長理查德·麥克埃爾里思（Richard McElreath）就在2016年一篇極具影響力的論文中指出[10]，只要現行的學術激勵只傾向于發(fā)表新穎而顯著的結果，這一現象就很難被遏止。華盛頓大學的卡爾·伯格斯特羅姆（Carl T. Bergstrom)也在2016年一篇文章中指出[11]，想要提高領域的可重復性，現行的發(fā)表體制應該更加鼓勵不顯著結果的發(fā)表。

除了理論方面的探究，可重復性的實證研究也大有進步。這里面不乏極具趣味性的研究，在這里僅舉一例，來自2015年發(fā)表在PNAS的一篇文章[12]。在這篇文章里面，作者展示了如何使用“預測市場”（prediction market）來預估實驗的可重復性。預測市場通過價格機制將參與者的不同信息、觀點和判斷匯聚在一起。每個交易者根據自己的知識或預期買入或賣出合約，價格最終反映了集體智慧。在諾賽克的市場中，科學家和公眾可以對某項研究是否可重復進行匿名的“投注”。結果發(fā)現，市場最終的價格，相比于采訪領域內的專家們的意見，更能夠準確預測實驗的可重復性。

而可喜的是，這些探究并不僅僅停留在學術討論上。很多的應對方案，開始慢慢變成了心理學研究的新范式。比如當年西蒙松等人提出的預注冊實驗方式，已經被越來越多的學者所踐行，而領域內的頂級期刊，比如Nature Human Behavior，也在鼓勵這類文章的投稿，并且聲明無論結果符不符合預期，只要按照預注冊的標準嚴格執(zhí)行，都予以接受。

從心理學的經驗看來，可重復性危機不僅僅是“危機”，更是“置信度的革命”（credibility revolution）。這讓我們有理由對生物醫(yī)學領域可重復性的未來保持樂觀。

參考文獻：

（上下滑動可瀏覽）

[1] Cobey, K. D. et al. Biomedical researchers’ perspectives on the reproducibility of research. PLoS Biol. 22, e3002870 (2024).[2] Errington, T. M. et al. Investigating the replicability of preclinical cancer biology. Elife 10, (2021).[3] Prinz, F., Schlange, T. & Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets? Nat. Rev. Drug Discov. 10, 712 (2011).[4] Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol. Sci. 22, 1359–1366 (2011).[5] Wikipedia contributors. Reproducibility Project. Wikipedia, The Free Encyclopedia https://en./wiki/Reproducibility_Project (2024).[6] Simonsohn, U., Nelson, L. D. & Simmons, J. P. P-curve: a key to the file-drawer. J. Exp. Psychol. Gen. 143, 534–547 (2014).[7] Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. The extent and consequences of p-hacking in science. PLoS Biol. 13, e1002106 (2015).[8] Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).[9] National Academies of Sciences, Engineering, and Medicine et al. Reproducibility and Replicability in Science. (National Academies Press, Washington, D.C., DC, 2019).[10] Smaldino, P. E. & McElreath, R. The natural selection of bad science. R. Soc. Open Sci. 3, 160384 (2016).[11] Nissen, S. B., Magidson, T., Gross, K. & Bergstrom, C. T. Publication bias and the canonization of false facts. Elife 5, (2016).[12] Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).