一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

一半以上實驗結果無法重復,學術界正在遭遇一場危機嗎?

 常青樹 2024-11-30

11.28

知識分子

The Intellectual

一半以上實驗結果無法重復,學術界正在遭遇一場危機嗎?

圖源:Pixabay

撰文 | 詹羊

  

科學的大廈建立在大量可重復的研究結果之上,然而,近年來,種種跡象表示,在生物醫(yī)學領域,大量的研究結果似乎不可重復。比如,Plos Biology最近發(fā)表的一篇對近2000名生物醫(yī)學研究人員的調研報告中[1],在最終收回的問卷中,72%的參與調研的活躍一線科研人員認同生物醫(yī)學領域存在可重復性危機,其中27%的參與者甚至認為這場危機非常嚴重。

但這也許不能算新聞。2021年,eLife上就發(fā)表了一篇針對癌癥生物學的可重復性研究的總結[2]。結果發(fā)現,學術界至少一半以上的癌癥生物學實驗很有可能是不能重復的。而工業(yè)界似乎也沒有好到哪里去---早在2011年,拜耳(Bayer)公司的一項內部調查顯示[3],其對67個潛在的新藥靶點進行重復實驗時,僅有不到四分之一的結果得以重復。

由此可見,可重復性的問題在生物醫(yī)學領域可謂曠日持久。解決這一問題,絕不會是朝夕之功。這方面,也許一個稍微沒有那么熱門的領域---心理學的故事,可以給我們帶來一些啟示。

01

扎堆的“p值曲線”

與不到一半的可重復率

心理學的可重復性故事,得從2011年講起。

在這一年,現西班牙艾賽德商學院的尤里·西蒙松(Uri Simonsohn)、加州大學伯克利分校的萊夫·尼爾森(Leif Nelson)和賓夕法尼亞大學約瑟夫·西蒙斯(Joseph Simmons)發(fā)表了一篇具有里程碑意義的論文[4]。在這個文章中,三人直言不諱地道出了心理學領域心照不宣的事實:心理學研究者在實驗設計和分析過程中擁有極大自由度,研究者往往可以通過不斷的嘗試,“證明”任何假說在統(tǒng)計上顯著,可謂是“有志者,事竟成”。

作為一個例證,他們演示了如何通過選擇樣本量,選擇控制不同的變量,以及選擇不同的實驗組、對照組等一系列騷操作,最終成功“證明”了“聽披頭士的歌使人年輕”的荒謬結論。假如這樣的行為大量存在,那么大量已發(fā)表的心理學研究成果,可能都是不可重復的假陽性。

他們開出的藥方是:研究者在開始實驗之前就公開所有的實驗選擇,并嚴格按照公開的方案執(zhí)行實驗。這個藥方,就是后來廣為人知的“預注冊”(pre-registration)。

同樣在2011年,布萊恩·諾塞克經過多年努力,終于籌到了推動心理學領域大規(guī)??芍貜托皂椖克璧牡谝煌敖?span>[5]。他說服了全球270多名研究者一起合作,計劃對100-200項高影響力的心理學實驗進行重復試驗。這項雄心勃勃的計劃,日后給心理學領域帶來翻天覆地的變化。

西蒙松等人2011年的文章,只是在理論上指出了心理學可重復性危機的可能性,但在實證上,并沒有強有力的證據表明問題已經嚴重成了一場“危機”。但到了2014年,情況變得更為清晰了。因為這三位研究者又發(fā)表了一篇有趣的論文[6],為實證檢驗心理學的可重復性危機提供了有力的工具,這就是著名的“p值曲線”。

p值是統(tǒng)計學中用于衡量結果顯著性的重要指標,通常認為p值小于0.05就算顯著。p值曲線依賴于一個簡單直白的直覺:如果研究者在統(tǒng)計顯著性上“鉆空子”,一旦p值跌破那個神奇的0.05,他們就會興高采烈地收工回家。如果這種情況普遍存在,那么我們應該會在已發(fā)表的論文中看到p值在0.05附近扎堆。果不其然,后續(xù)的研究利用p值曲線驗證了這一點[7]

而在2015年,諾塞克的大規(guī)??芍貜托匝芯恳查_花結果,發(fā)表在Science上[8]。在完成的100項心理學重復實驗中,只有不到一半(36%-47%)的研究結果被成功復制,約80%的重復實驗中,檢測到的效應強度比原先的實驗要小。這一結果,徹底做實了心理學領域的可重復性危機。

02

想提高領域的可重復性,

應更鼓勵不顯著結果的發(fā)表。

現代發(fā)展經濟學有“創(chuàng)造性破壞”(creative destruction)之說,指出創(chuàng)新往往首先帶來舊的經濟體系的崩解,然后建立更高效的新經濟體系,最終推動經濟發(fā)展。心理學的發(fā)展也是如此。西蒙松和諾賽克等人的工作,激起了心理學領域盛況空前的真理大討論。自那以后,學界對可重復性根源和應對方案的理解有了長足的進展。

一方面,學科本身有其特異性[9]。在有些領域,理論和實驗技術都已發(fā)展到了很高的水平(比如高能物理),其實驗設計和分析的范式已經高度統(tǒng)一,沒有太多任由實驗人員自行裁量的空間,結果可重復性自然就高。然而像心理學這樣的學科,目前的技術水平還無法做到這種程度的一致性,需要假以時日等待技術的自然進步,在此之前,要對可重復的實驗比例有個理性的預期。

另一方面,科學家也是人,人類多樣的行為也會影響科研產出的可靠性。這里面,最突出的當然是嚴重的學術不端,比如赤裸裸的造假。但是最廣泛的,也是最難以杜絕的還是是西蒙松等人在2011年文章中指出的,通過反復嘗試不同的實驗設計和分析流程,直到獲得顯著的結果。這樣的微小的“作弊”,幾乎無法被確鑿地證明。除此之外,即使研究者主觀上沒有“作弊”的動機,實驗過程中也極有可能下意識地調整實驗條件,直到預期結果出現---畢竟很多新的科學發(fā)現,需要的就是反常規(guī)的實驗設計和分析流程,無法預先框定,嘗試不可避免。

現行的發(fā)表制度,則進一步鼓勵了這種微小“作弊”行為的泛濫,而“不發(fā)表,就出局”的簡單粗暴的科研管理體制也為這種現狀添了一把火。在前述PLOS Biology研究中,受訪的研究者們紛紛表示發(fā)表不可重復性結果的主要原因是“發(fā)表壓力”。

對此,現加州大學默賽德分校的保羅·司馬爾蒂諾 (Paul Smaldino)和現馬普所演化人類學所長理查德·麥克埃爾里思(Richard McElreath)就在2016年一篇極具影響力的論文中指出[10],只要現行的學術激勵只傾向于發(fā)表新穎而顯著的結果,這一現象就很難被遏止。華盛頓大學的卡爾·伯格斯特羅姆(Carl T. Bergstrom)也在2016年一篇文章中指出[11],想要提高領域的可重復性,現行的發(fā)表體制應該更加鼓勵不顯著結果的發(fā)表。

除了理論方面的探究,可重復性的實證研究也大有進步。這里面不乏極具趣味性的研究,在這里僅舉一例,來自2015年發(fā)表在PNAS的一篇文章[12]。在這篇文章里面,作者展示了如何使用“預測市場”(prediction market)來預估實驗的可重復性。預測市場通過價格機制將參與者的不同信息、觀點和判斷匯聚在一起。每個交易者根據自己的知識或預期買入或賣出合約,價格最終反映了集體智慧。在諾賽克的市場中,科學家和公眾可以對某項研究是否可重復進行匿名的“投注”。結果發(fā)現,市場最終的價格,相比于采訪領域內的專家們的意見,更能夠準確預測實驗的可重復性。

而可喜的是,這些探究并不僅僅停留在學術討論上。很多的應對方案,開始慢慢變成了心理學研究的新范式。比如當年西蒙松等人提出的預注冊實驗方式,已經被越來越多的學者所踐行,而領域內的頂級期刊,比如Nature Human Behavior,也在鼓勵這類文章的投稿,并且聲明無論結果符不符合預期,只要按照預注冊的標準嚴格執(zhí)行,都予以接受。

從心理學的經驗看來,可重復性危機不僅僅是“危機”,更是“置信度的革命”(credibility revolution)。這讓我們有理由對生物醫(yī)學領域可重復性的未來保持樂觀。

一半以上實驗結果無法重復,學術界正在遭遇一場危機嗎?

參考文獻:

(上下滑動可瀏覽)

  1. [1] Cobey, K. D. et al. Biomedical researchers’ perspectives on the reproducibility of research. PLoS Biol. 22, e3002870 (2024).[2] Errington, T. M. et al. Investigating the replicability of preclinical cancer biology. Elife 10, (2021).[3] Prinz, F., Schlange, T. & Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets? Nat. Rev. Drug Discov. 10, 712 (2011).[4] Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol. Sci. 22, 1359–1366 (2011).[5] Wikipedia contributors. Reproducibility Project. Wikipedia, The Free Encyclopedia https://en./wiki/Reproducibility_Project (2024).[6] Simonsohn, U., Nelson, L. D. & Simmons, J. P. P-curve: a key to the file-drawer. J. Exp. Psychol. Gen. 143, 534–547 (2014).[7] Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. The extent and consequences of p-hacking in science. PLoS Biol. 13, e1002106 (2015).[8] Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).[9] National Academies of Sciences, Engineering, and Medicine et al. Reproducibility and Replicability in Science. (National Academies Press, Washington, D.C., DC, 2019).[10] Smaldino, P. E. & McElreath, R. The natural selection of bad science. R. Soc. Open Sci. 3, 160384 (2016).[11] Nissen, S. B., Magidson, T., Gross, K. & Bergstrom, C. T. Publication bias and the canonization of false facts. Elife 5, (2016).[12] Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    婷婷色网视频在线播放| 亚洲一区二区久久观看| 国产对白老熟女正在播放| 都市激情小说在线一区二区三区| 国内精品偷拍视频久久| 日韩女优精品一区二区三区| 欧美丰满人妻少妇精品| 国产综合一区二区三区av| 国产成人国产精品国产三级| 欧美乱视频一区二区三区| 91后入中出内射在线| 青青操视频在线播放免费| 亚洲三级视频在线观看免费| 人妻久久一区二区三区精品99| 精品亚洲av一区二区三区| 亚洲男人的天堂色偷偷| 欧美胖熟妇一区二区三区| 欧美日韩国产精品黄片| 久久偷拍视频免费观看| 欧美日韩综合综合久久久| 国产精品白丝一区二区| 亚洲另类欧美综合日韩精品| 中文字幕欧美精品人妻一区| 厕所偷拍一区二区三区视频| 欧美日韩国产一级91| 国自产拍偷拍福利精品图片| 黄色国产一区二区三区| 国自产拍偷拍福利精品图片| 老鸭窝老鸭窝一区二区| 久久精品国产一区久久久| 精品一区二区三区中文字幕 | 不卡中文字幕在线免费看| 福利视频一区二区在线| 激情五月天免费在线观看| 国产欧美高清精品一区| 亚洲精品国产第一区二区多人| 国产中文字幕一二三区| 亚洲中文字幕视频在线播放| 日韩欧美一区二区亚洲| 国产不卡免费高清视频| 老司机精品视频在线免费|