【原】震驚! 在線問卷或?qū)嶒?yàn)平臺(tái)中人為的P-hacking, 發(fā)表偏倚和小樣本量史無前例的揭秘！

計(jì)量經(jīng)濟(jì)圈 2022-08-17 發(fā)布于浙江

展開全文

郵箱：econometrics666@126.com

所有計(jì)量經(jīng)濟(jì)圈方法論叢的code文件, 微觀數(shù)據(jù)庫和各種軟件都放在社群里.歡迎到計(jì)量經(jīng)濟(jì)圈社群交流訪問.

關(guān)于P-hacking，參看：1.如何在實(shí)證研究中操縱結(jié)果而不被發(fā)現(xiàn)？2.實(shí)證研究中的P值: 誤解, 操縱及改進(jìn), 探析P值操縱表現(xiàn)及原因,提出相應(yīng)的改進(jìn)策略，3.AER強(qiáng)調(diào)計(jì)量方法的重要性, 經(jīng)濟(jì)學(xué)因果分析中的p值操縱和發(fā)表偏倚！4.DID和IV操縱空間大嗎? 一切皆為P-hacking，5.p-hacking的精辟解釋, 保證你一輩子都忘不了！6.前沿, 終于有人解釋為什么頂刊上很少有不顯著的結(jié)果發(fā)表! 背后機(jī)理？7.常用的12種調(diào)變量顯著性或調(diào)星星的方法，8.控制變量就能影響結(jié)果顯著性, 所以存在很大操作空間, 調(diào)參數(shù)是常用手段嗎？

經(jīng)常聽說，某某同事或朋友通過在線問卷調(diào)查諸如COVID-19、消費(fèi)券、房價(jià)預(yù)期、商品偏好、心理狀態(tài)等問題，待獲得了幾百個(gè)或上千個(gè)個(gè)體問卷數(shù)據(jù)后便開始分析變量間的關(guān)系。

一個(gè)很自然的疑問，這種在線問卷調(diào)查可靠嗎？暫且不論被問卷（或被訪）人員主觀上是否存在故意隱瞞信息或胡亂填寫的問題，我們急切想知道，研究者本人是否存在操縱P值或?yàn)轱@著性而肆意改變變量或問卷數(shù)據(jù)，以及把原定于500份的問卷數(shù)據(jù)硬生生縮減到2-300份從而讓結(jié)果顯著的行為？

下面這篇文章會(huì)給你結(jié)論。

正文

Brodeur, Abel and Brodeur, Abel and Cook, Nikolai and Heyes, Anthony, We Need to Talk About Mechanical Turk: What 22,989 Hypothesis Tests Tell Us About Publication Bias and P-Hacking in Online Experiments. IZA Discussion Paper No. 15478
Amazon Mechanical Turk is a very widely-used tool in business and economics research, but how trustworthy are results from well-published studies that use it? Analyzing the universe of hypotheses tested on the platform and published in leading journals between 2010 and 2020 we find evidence of widespread p-hacking, publication bias and over-reliance on results from plausibly under-powered studies. Even ignoring questions arising from the characteristics and behaviors of study recruits, the conduct of the research community itself erode substantially the credibility of these studies' conclusions. The extent of the problems vary across the business, economics, management and marketing research fields (with marketing especially afflicted). The problems are not getting better over time and are much more prevalent than in a comparison set of non-online experiments. We explore correlates of increased credibility.

我們需要談?wù)凪echanical Turk：22,989 個(gè)假設(shè)檢驗(yàn)告訴我們在線實(shí)驗(yàn)中的發(fā)表偏倚和 p-Hacking問題

摘要：

Amazon Mechanical Turk 是商業(yè)和經(jīng)濟(jì)學(xué)研究中使用非常廣泛的工具，但使用它已發(fā)表的研究結(jié)果的可信度如何？分析在該平臺(tái)上測試并在 2010 年至 2020 年期間在主要期刊上發(fā)表的研究假設(shè)，我們發(fā)現(xiàn)了廣泛的 p-hacking、發(fā)表偏倚和過度依賴小樣本量（2-300個(gè)樣本）的研究結(jié)果的證據(jù)。即使忽略研究被試人員的特征和行為引起的問題，研究者本身的行為也大大削弱了這些研究結(jié)論的可信度。問題的嚴(yán)重程度在商業(yè)、經(jīng)濟(jì)、管理和營銷研究領(lǐng)域（尤其是營銷受到影響）各不相同。隨著時(shí)間的推移，這些問題并沒有變得更好，并且比一組非在線實(shí)驗(yàn)中的問題更為普遍。

先普及一下亞馬遜的Amazon Mechanical Turk平臺(tái)，它是亞馬遜開發(fā)的一個(gè)眾包（crowd sourcing）平臺(tái)。對此感興趣的中青年學(xué)者，可以在這個(gè)平臺(tái)注冊賬號(hào)，并適當(dāng)參與一些項(xiàng)目賺點(diǎn)生活費(fèi)（美元計(jì)價(jià)）。

發(fā)布者（稱為Requester）把需要做的任務(wù)（Human Intelligence Task, HIT）發(fā)在網(wǎng)上，想要做這項(xiàng)任務(wù)的人（稱為Worker）可以接受任務(wù)并且獲得報(bào)酬。發(fā)布這些任務(wù)的請求者中，很大一部分是預(yù)算有限的學(xué)術(shù)研究人員。工人登錄Mechanical Turk后會(huì)看到可用任務(wù)列表，包括誰提供這些任務(wù)、截止日期和薪水?？梢赃x擇抄錄收據(jù)（$0.01），總結(jié)一段文字（$0.35）或進(jìn)行行為經(jīng)濟(jì)學(xué)調(diào)查（$1）。

簡要介紹文章內(nèi)容

近年來，對作為社會(huì)科學(xué)研究參與者重要來源的在線平臺(tái)的使用迅速增加，其中占主導(dǎo)地位的是 Amazon Mechanical Turk (MTurk)。

盡管聲稱 MTurk 作為一種研究工具具有各種優(yōu)勢，包括可以獲得除本科生以外的大量潛在受試者，以及明顯的多樣化受訪者的人員結(jié)構(gòu)（例如，參見 Paolacci 等（2010）），從而讓研究人員能夠以低成本構(gòu)建大樣本。在過去十年間，該平臺(tái)已成為極其受歡迎的教師和研究生研究場所，這也不足為奇。

然而，在使用 MTurk 的同時(shí)，一些研究團(tuán)體越來越懷疑使用它的研究結(jié)果的可靠性。例如，在注意到 2012 年至 2019 年間 MTurk 在管理學(xué)研究中的使用增加了 2117% 之后，Aguinis 等（2021 ）受 Journal of Management 編輯委員會(huì)委托對平臺(tái)進(jìn)行審查時(shí)發(fā)現(xiàn)，在學(xué)者中，MTurk的實(shí)際好處確實(shí)很多，但對數(shù)據(jù)的有效性大家持懷疑態(tài)度。據(jù)稱，這種懷疑是由對 MTurk 受訪者行為的各種擔(dān)憂驅(qū)動(dòng)的，并且有文獻(xiàn)探討這些問題。

例如，從平臺(tái)招募的受試者可能由于報(bào)酬率低而對任務(wù)關(guān)注度不夠，可能通過在線社區(qū)工具與其他參與者共享信息，也可能在回復(fù)中故意欺騙，聲稱在一個(gè)地方但實(shí)際上通過 VPN 在另一個(gè)地方，使用別名等多次參與研究。Hauser 等（2019）詳述了類似的擔(dān)憂。盡管如此，值得注意的是，幾項(xiàng)研究表明，通過對多個(gè)主題池進(jìn)行相同的實(shí)驗(yàn)，來自 MTurk 樣本的結(jié)果與來自更傳統(tǒng)和更昂貴來源的樣本的結(jié)果看起來并沒有太大不同（例如，參見 Snowberg 和 Yariv （2021 ）和 Horton 等（2011 ））。

我們沒有為這只文獻(xiàn)做出貢獻(xiàn)——事實(shí)上，我們對 MTurk 人作為參與者的利弊一無所知。相反，本文的重點(diǎn)，是首次系統(tǒng)地調(diào)查了學(xué)術(shù)研究界在使用 MTurk 時(shí)本身的統(tǒng)計(jì)實(shí)踐，以及這些實(shí)踐在多大程度上使基于 MTurk 的實(shí)證結(jié)果不可靠。我們研究的三種做法在最近其他地方研究可信度評(píng)估中已經(jīng)成為焦點(diǎn)，即(1)p-hacking，(2)發(fā)表偏倚(或選擇性發(fā)表)和(3)從貌似不足的樣本中呈現(xiàn)結(jié)果。

我們分析了MTurk在2010年至2020年期間發(fā)表在美國商學(xué)院協(xié)會(huì)學(xué)術(shù)期刊指南2018年版4或4*分類的所有期刊上的2.3萬多篇論文的假設(shè)檢驗(yàn)。該指南廣泛涵蓋商業(yè)研究和相關(guān)領(lǐng)域，如經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)、市場營銷和行業(yè)研究（如旅游、社會(huì)學(xué)），并廣泛用于研究人員的評(píng)估和評(píng)價(jià)。

我們首先調(diào)查研究主體中 p-hacking 和發(fā)表偏倚的程度。如果發(fā)表假設(shè)檢驗(yàn)的可能性取決于結(jié)果，例如，如果統(tǒng)計(jì)顯著的處理效應(yīng)比不顯著的結(jié)果更有可能發(fā)表，則會(huì)出現(xiàn)發(fā)表偏倚。這可以反映研究人員在決定撰寫什么內(nèi)容、將什么內(nèi)容放入“文件抽屜”和/或期刊選擇發(fā)表內(nèi)容的過程中所做的選擇。術(shù)語 p-hacking 是指以人為夸大統(tǒng)計(jì)顯著性的方式做出的研究選擇。這兩種現(xiàn)象都會(huì)導(dǎo)致已發(fā)表的研究中人為地缺乏統(tǒng)計(jì)上不顯著或“無效”的結(jié)果。有趣的是，許多實(shí)證研究人員會(huì)認(rèn)識(shí)到統(tǒng)計(jì)顯著性的吸引力，這與 Chopra 等（2022 ）進(jìn)行的隨機(jī)實(shí)驗(yàn)的證據(jù)一致，發(fā)現(xiàn)“即使在所有其他研究特征保持不變的情況下，與具有統(tǒng)計(jì)顯著性結(jié)果的研究相比，具有無效結(jié)果的研究被認(rèn)為更難發(fā)表、質(zhì)量更低、重要性更低且估計(jì)更不精確。”

越來越多的人認(rèn)識(shí)到P-hacking是一個(gè)潛在的問題。然而，雖然很難或不可能在任何單個(gè)研究中發(fā)現(xiàn)或量化該問題，但通過比較在一組研究中觀察到的統(tǒng)計(jì)顯著性模式與缺乏此類行為時(shí)所預(yù)期的模式，可以在更大的研究庫中表征該問題的普遍性。已經(jīng)開發(fā)了一些技術(shù)來共同或單獨(dú)檢驗(yàn)和量化 p-hacking 和發(fā)表偏倚。沒有一種技術(shù)是確定的，而且每一種技術(shù)都嵌入了特定的假設(shè)，所以我們認(rèn)為我們的方法的一個(gè)優(yōu)勢是應(yīng)用了大量的技術(shù)。

我們繪制了來自MTurk文章的測試統(tǒng)計(jì)數(shù)據(jù)的分布，發(fā)現(xiàn)它們呈現(xiàn)出與存在相當(dāng)大的p-hacking和發(fā)表偏倚一致的模式。特別是，該分布在z -統(tǒng)計(jì)值1.96附近表現(xiàn)出明顯的全局和局部最大值，對應(yīng)于在5%水平上的統(tǒng)計(jì)顯著性所需的閾值，或0.05的p值。這個(gè)最大值剛好在統(tǒng)計(jì)上即將不顯著的統(tǒng)計(jì)區(qū)間處聚集，這深刻地表明了p-hacking。隨著時(shí)間的推移，這種統(tǒng)計(jì)的模式會(huì)持續(xù)存在，在4*和4星期刊上發(fā)表的論文中一致存在。

我們使用Brodeur et al.(2016)提出的方法來估計(jì)被錯(cuò)誤宣稱具有統(tǒng)計(jì)顯著性的結(jié)果的比例，發(fā)現(xiàn)在研究領(lǐng)域之間，這種結(jié)果的流行率存在顯著差異——在市場營銷中最常見，在經(jīng)濟(jì)和金融中最不常見。應(yīng)用Andrews和Kasy(2019)開發(fā)的方法，我們還證明了樣本中存在嚴(yán)重的發(fā)表偏倚。其他等于z -統(tǒng)計(jì)值大于1.96的結(jié)果發(fā)表的可能性是統(tǒng)計(jì)上無顯著性結(jié)果的4.61倍。使用傳統(tǒng)的卡尺檢驗(yàn)(Gerber和Malhotra, 2008a)和Elliott等(2022)提出的復(fù)雜的測試組合進(jìn)一步驗(yàn)證了這些發(fā)現(xiàn)。

最后，我們檢查研究中的樣本量。統(tǒng)計(jì)檢驗(yàn)的功效在于檢測到效應(yīng)(拒絕無效應(yīng)的原假設(shè))的概率，前提是存在可檢測的真實(shí)效應(yīng)。適當(dāng)選擇樣本大小，即功效水平，是實(shí)驗(yàn)研究設(shè)計(jì)的一個(gè)中心因素。這里我們特別關(guān)注的是，低的統(tǒng)計(jì)功效意味著高誤報(bào)率。自然，這樣的虛假結(jié)果是很難復(fù)現(xiàn)的（特別是如果隨后進(jìn)行更更大功效的復(fù)現(xiàn)練習(xí)）。一個(gè)由功效不足的(小樣本)研究組成的文獻(xiàn)可能會(huì)有許多令人驚訝的結(jié)果，這面臨嚴(yán)重的復(fù)現(xiàn)問題，相應(yīng)地也就面臨可信性的挑戰(zhàn)。

在這種情況下，我們強(qiáng)調(diào)了 MTurk 研究的兩個(gè)特點(diǎn)。首先，許多（大多數(shù)）MTurk 研究使用小樣本。在我們的樣本中，實(shí)驗(yàn)中受試者的中位數(shù)是 249。鑒于 MTurk 平臺(tái)上構(gòu)建樣本量的速度和成本是極其快速和廉價(jià)的，持懷疑態(tài)度的讀者可能會(huì)對這種樣本量感到震驚。在我們的研究樣本中，額外數(shù)據(jù)點(diǎn)的平均成本為 1.30 美元，大約 70% 的案例不到 1 美元。那么選擇如此小的樣本量的依據(jù)是什么（不太可能是成本）？這引出了我們的第二個(gè)觀察結(jié)果，在大多數(shù) MTurk 研究中，對于如何選擇特定樣本大小沒有任何理由（明確或其他）。

MTurk 研究中明顯小樣本的頻率導(dǎo)致了對統(tǒng)計(jì)功效的擔(dān)憂。在我們的樣本中，很少有研究包括正式的功效分析，并且沒有可靠的方法可以事后估算假設(shè)的統(tǒng)計(jì)功效。我們系統(tǒng)地探討了整個(gè)樣本和子樣本內(nèi)的樣本大小、測試結(jié)果的統(tǒng)計(jì)意義、每個(gè)數(shù)據(jù)點(diǎn)的成本以及關(guān)于一項(xiàng)研究是否為如何確定樣本大小提供了基本原理的背景數(shù)據(jù)之間的關(guān)系。

這里的結(jié)果有助于文獻(xiàn)討論在 MTurk 和其他眾包平臺(tái)上進(jìn)行的研究的可信度（Arechar 等（2017 ）；Berinsky 等（2012 ）；Coppock（2019 ）；Buhrmester 等（2011 ）；Goodman 等人(2013)；Horton 等 (2011)；Johnson 和 Ryan (2020)；Lee 等 (2018)；Paolacci 等 (2010)；Snowberg 和 Yariv (2021))。

總的來說，我們在數(shù)據(jù)中發(fā)現(xiàn)的模式挑戰(zhàn)了基于 MTurk 的研究的可信度，這些研究發(fā)表在跨商業(yè)和相關(guān)研究領(lǐng)域的高評(píng)價(jià)期刊上。然而，這并不是因?yàn)榻?jīng)常被引用的關(guān)于 MTurk 受試者提供的回答的有效性的問題，而是研究人員可疑的統(tǒng)計(jì)實(shí)踐。

關(guān)于顯著或不顯著結(jié)果，參看：1.常用的12種調(diào)變量顯著性或調(diào)星星的方法，2.不顯著能任性發(fā)頂刊！還津津有味地討論不顯著的實(shí)證結(jié)果！3.前沿, 終于有人解釋為什么頂刊上很少有不顯著的結(jié)果發(fā)表! 背后機(jī)理？4.回歸中常數(shù)項(xiàng)顯著說明模型中有遺漏變量問題？5.為什么回歸系數(shù)不顯著? 6.關(guān)于模型中變量選擇的五個(gè)誤區(qū), 譬如不顯著的變量需要剔除還是保留？7.控制變量就能影響結(jié)果顯著性, 所以存在很大操作空間, 調(diào)參數(shù)是常用手段嗎？8.添加一個(gè)新變量能使以前不顯著的變量變得顯著了？9.核心解釋變量A不顯著, 但加入變量B后, 為什么A和B都顯著了？10.若系數(shù)回歸結(jié)果不顯著, 我們能夠采取的方法和思路有哪些？11.結(jié)果不顯著但成功發(fā)在Top期刊上的論文有哪些？你心虛過沒？12.交互效應(yīng)顯著的幾種情況, 列出了6種類型，13.交互項(xiàng)中主效應(yīng)不顯著, 交互項(xiàng)顯著可怕嗎? 14.統(tǒng)計(jì)顯著與經(jīng)濟(jì)顯著, 發(fā)AER和經(jīng)濟(jì)研究的標(biāo)配，15.顯著不顯著的后背是什么, 非(半)參估計(jì)里解決內(nèi)生性，16.試了幾百次, 回歸結(jié)果依然不顯著, 到底咋辦，17.科學(xué)家倡議P值需要0.005，顯著性判斷才成立，18.SSCI期刊竟公開征集“不顯著的實(shí)證結(jié)果”的?？恼拢?/a>19.IV與Y在理論上無直接關(guān)系, 但用Y對IV做回歸發(fā)現(xiàn)IV是顯著的, 這是咋回事？20.實(shí)證研究中的P值: 誤解, 操縱及改進(jìn), 探析P值操縱表現(xiàn)及原因,提出相應(yīng)的改進(jìn)策略，21.AER強(qiáng)調(diào)計(jì)量方法的重要性, 經(jīng)濟(jì)學(xué)因果分析中的p值操縱和發(fā)表偏倚！

下這些短鏈接文章屬于合集，可以收藏起來閱讀，不然以后都找不到了。

3.5年，計(jì)量經(jīng)濟(jì)圈近1000篇不重類計(jì)量文章，

可直接在公眾號(hào)菜單欄搜索任何計(jì)量相關(guān)問題,

Econometrics Circle

計(jì)量經(jīng)濟(jì)圈組織了一個(gè)計(jì)量社群，有如下特征：熱情互助最多、前沿趨勢最多、社科資料最多、社科數(shù)據(jù)最多、科研牛人最多、海外名校最多。因此，建議積極進(jìn)取和有強(qiáng)烈研習(xí)激情的中青年學(xué)者到社群交流探討，始終堅(jiān)信優(yōu)秀是通過感染優(yōu)秀而互相成就彼此的。