11.28 知識分子 The Intellectual 圖源:Pixabay 撰文 | 詹羊 ● ● ● 科學的大廈建立在大量可重復的研究結果之上,然而,近年來,種種跡象表示,在生物醫(yī)學領域,大量的研究結果似乎不可重復。比如,Plos Biology最近發(fā)表的一篇對近2000名生物醫(yī)學研究人員的調研報告中[1],在最終收回的問卷中,72%的參與調研的活躍一線科研人員認同生物醫(yī)學領域存在可重復性危機,其中27%的參與者甚至認為這場危機非常嚴重。 但這也許不能算新聞。2021年,eLife上就發(fā)表了一篇針對癌癥生物學的可重復性研究的總結[2]。結果發(fā)現,學術界至少一半以上的癌癥生物學實驗很有可能是不能重復的。而工業(yè)界似乎也沒有好到哪里去---早在2011年,拜耳(Bayer)公司的一項內部調查顯示[3],其對67個潛在的新藥靶點進行重復實驗時,僅有不到四分之一的結果得以重復。 由此可見,可重復性的問題在生物醫(yī)學領域可謂曠日持久。解決這一問題,絕不會是朝夕之功。這方面,也許一個稍微沒有那么熱門的領域---心理學的故事,可以給我們帶來一些啟示。 01 扎堆的“p值曲線” 與不到一半的可重復率 心理學的可重復性故事,得從2011年講起。 在這一年,現西班牙艾賽德商學院的尤里·西蒙松(Uri Simonsohn)、加州大學伯克利分校的萊夫·尼爾森(Leif Nelson)和賓夕法尼亞大學約瑟夫·西蒙斯(Joseph Simmons)發(fā)表了一篇具有里程碑意義的論文[4]。在這個文章中,三人直言不諱地道出了心理學領域心照不宣的事實:心理學研究者在實驗設計和分析過程中擁有極大自由度,研究者往往可以通過不斷的嘗試,“證明”任何假說在統(tǒng)計上顯著,可謂是“有志者,事竟成”。 作為一個例證,他們演示了如何通過選擇樣本量,選擇控制不同的變量,以及選擇不同的實驗組、對照組等一系列騷操作,最終成功“證明”了“聽披頭士的歌使人年輕”的荒謬結論。假如這樣的行為大量存在,那么大量已發(fā)表的心理學研究成果,可能都是不可重復的假陽性。 他們開出的藥方是:研究者在開始實驗之前就公開所有的實驗選擇,并嚴格按照公開的方案執(zhí)行實驗。這個藥方,就是后來廣為人知的“預注冊”(pre-registration)。 同樣在2011年,布萊恩·諾塞克經過多年努力,終于籌到了推動心理學領域大規(guī)??芍貜托皂椖克璧牡谝煌敖?span>[5]。他說服了全球270多名研究者一起合作,計劃對100-200項高影響力的心理學實驗進行重復試驗。這項雄心勃勃的計劃,日后給心理學領域帶來翻天覆地的變化。 西蒙松等人2011年的文章,只是在理論上指出了心理學可重復性危機的可能性,但在實證上,并沒有強有力的證據表明問題已經嚴重成了一場“危機”。但到了2014年,情況變得更為清晰了。因為這三位研究者又發(fā)表了一篇有趣的論文[6],為實證檢驗心理學的可重復性危機提供了有力的工具,這就是著名的“p值曲線”。 p值是統(tǒng)計學中用于衡量結果顯著性的重要指標,通常認為p值小于0.05就算顯著。p值曲線依賴于一個簡單直白的直覺:如果研究者在統(tǒng)計顯著性上“鉆空子”,一旦p值跌破那個神奇的0.05,他們就會興高采烈地收工回家。如果這種情況普遍存在,那么我們應該會在已發(fā)表的論文中看到p值在0.05附近扎堆。果不其然,后續(xù)的研究利用p值曲線驗證了這一點[7]。 而在2015年,諾塞克的大規(guī)??芍貜托匝芯恳查_花結果,發(fā)表在Science上[8]。在完成的100項心理學重復實驗中,只有不到一半(36%-47%)的研究結果被成功復制,約80%的重復實驗中,檢測到的效應強度比原先的實驗要小。這一結果,徹底做實了心理學領域的可重復性危機。 02 想提高領域的可重復性, 應更鼓勵不顯著結果的發(fā)表。 現代發(fā)展經濟學有“創(chuàng)造性破壞”(creative destruction)之說,指出創(chuàng)新往往首先帶來舊的經濟體系的崩解,然后建立更高效的新經濟體系,最終推動經濟發(fā)展。心理學的發(fā)展也是如此。西蒙松和諾賽克等人的工作,激起了心理學領域盛況空前的真理大討論。自那以后,學界對可重復性根源和應對方案的理解有了長足的進展。 一方面,學科本身有其特異性[9]。在有些領域,理論和實驗技術都已發(fā)展到了很高的水平(比如高能物理),其實驗設計和分析的范式已經高度統(tǒng)一,沒有太多任由實驗人員自行裁量的空間,結果可重復性自然就高。然而像心理學這樣的學科,目前的技術水平還無法做到這種程度的一致性,需要假以時日等待技術的自然進步,在此之前,要對可重復的實驗比例有個理性的預期。 另一方面,科學家也是人,人類多樣的行為也會影響科研產出的可靠性。這里面,最突出的當然是嚴重的學術不端,比如赤裸裸的造假。但是最廣泛的,也是最難以杜絕的還是是西蒙松等人在2011年文章中指出的,通過反復嘗試不同的實驗設計和分析流程,直到獲得顯著的結果。這樣的微小的“作弊”,幾乎無法被確鑿地證明。除此之外,即使研究者主觀上沒有“作弊”的動機,實驗過程中也極有可能下意識地調整實驗條件,直到預期結果出現---畢竟很多新的科學發(fā)現,需要的就是反常規(guī)的實驗設計和分析流程,無法預先框定,嘗試不可避免。 現行的發(fā)表制度,則進一步鼓勵了這種微小“作弊”行為的泛濫,而“不發(fā)表,就出局”的簡單粗暴的科研管理體制也為這種現狀添了一把火。在前述PLOS Biology研究中,受訪的研究者們紛紛表示發(fā)表不可重復性結果的主要原因是“發(fā)表壓力”。 對此,現加州大學默賽德分校的保羅·司馬爾蒂諾 (Paul Smaldino)和現馬普所演化人類學所長理查德·麥克埃爾里思(Richard McElreath)就在2016年一篇極具影響力的論文中指出[10],只要現行的學術激勵只傾向于發(fā)表新穎而顯著的結果,這一現象就很難被遏止。華盛頓大學的卡爾·伯格斯特羅姆(Carl T. Bergstrom)也在2016年一篇文章中指出[11],想要提高領域的可重復性,現行的發(fā)表體制應該更加鼓勵不顯著結果的發(fā)表。 除了理論方面的探究,可重復性的實證研究也大有進步。這里面不乏極具趣味性的研究,在這里僅舉一例,來自2015年發(fā)表在PNAS的一篇文章[12]。在這篇文章里面,作者展示了如何使用“預測市場”(prediction market)來預估實驗的可重復性。預測市場通過價格機制將參與者的不同信息、觀點和判斷匯聚在一起。每個交易者根據自己的知識或預期買入或賣出合約,價格最終反映了集體智慧。在諾賽克的市場中,科學家和公眾可以對某項研究是否可重復進行匿名的“投注”。結果發(fā)現,市場最終的價格,相比于采訪領域內的專家們的意見,更能夠準確預測實驗的可重復性。 而可喜的是,這些探究并不僅僅停留在學術討論上。很多的應對方案,開始慢慢變成了心理學研究的新范式。比如當年西蒙松等人提出的預注冊實驗方式,已經被越來越多的學者所踐行,而領域內的頂級期刊,比如Nature Human Behavior,也在鼓勵這類文章的投稿,并且聲明無論結果符不符合預期,只要按照預注冊的標準嚴格執(zhí)行,都予以接受。 從心理學的經驗看來,可重復性危機不僅僅是“危機”,更是“置信度的革命”(credibility revolution)。這讓我們有理由對生物醫(yī)學領域可重復性的未來保持樂觀。 參考文獻: (上下滑動可瀏覽)
|
|