原文:《貝葉斯因子及其在 JASP 中的實(shí)現(xiàn)》 來(lái)源: ChinaXiv:201709.00120 作者: 胡傳鵬 孔祥禎 Eric-Jan Wagenmakers Alexander Ly 彭凱平 貝葉斯因子及其在 JASP 中的實(shí)現(xiàn) 摘 要 統(tǒng)計(jì)推斷在科學(xué)研究中起到關(guān)鍵作用,然而當(dāng)前科研中最常用的經(jīng)典統(tǒng)計(jì)方法——零假設(shè)檢驗(yàn)(Null hypothesis significance test, NHST)卻因?yàn)殡y以正確理解而被濫用或誤用。有研究者提出使用貝葉斯因子(Bayes factor)作為是一種替代和(或)補(bǔ)充的統(tǒng)計(jì)方法。貝葉斯因 子是貝葉斯統(tǒng)計(jì)中用來(lái)進(jìn)行模型比較和假設(shè)檢驗(yàn)的重要方法,這一方法對(duì)于心理學(xué)及相關(guān)領(lǐng)域的大部分研究者來(lái)說(shuō)仍然比較陌生。因此,本文介紹了貝葉斯因子的基本思路,并總結(jié)了貝葉斯因子與 NHST 相比的優(yōu)勢(shì)。在此基礎(chǔ)上,以貝葉斯獨(dú)立樣本 t 檢驗(yàn)為例,演示如何在開(kāi)放的 統(tǒng)計(jì)軟件 JASP 中實(shí)現(xiàn)貝葉斯因子的計(jì)算,并解釋了對(duì)貝葉斯因子結(jié)果的解讀。最后,對(duì)貝葉斯因子的不足及其應(yīng)用價(jià)值進(jìn)行了討論。 自20 世紀(jì)以來(lái),統(tǒng)計(jì)推斷在科學(xué)研究中起到越來(lái)越重要的作用,科學(xué)研究的結(jié)論也越來(lái) 越依賴(lài)于統(tǒng)計(jì)推斷的正確應(yīng)用。目前使用最為廣泛的統(tǒng)計(jì)推斷方法是零假設(shè)檢驗(yàn)(Null hypothesis significance test, NHST)(見(jiàn)Wasserstein & Lazar, 2016 。然而,與NHST 在各個(gè)領(lǐng)域中廣泛使用相伴的是研究者對(duì) NHST 及p 值的誤解和盲目使用,因此可能反而會(huì)帶來(lái)了 些消極的后果。例如,p 值被用來(lái)支持不合理且無(wú)法重復(fù)的研究結(jié)果,引起了關(guān)于 NHST 是 否適合于科學(xué)研究的爭(zhēng)論。在這個(gè)背景之下,有研究者推薦使用貝葉斯因子替代NHST。 貝葉斯因子(Bayes factor)是貝葉斯統(tǒng)計(jì)(Bayesian statistics)中用來(lái)進(jìn)行模型比較和假設(shè) 檢驗(yàn)的方法。在假設(shè)檢驗(yàn)中,其代表的是當(dāng)前數(shù)據(jù)對(duì)零假設(shè)與備擇假設(shè)支持的強(qiáng)度之間的比率。 正如下一節(jié)將要詳述的,貝葉斯因子能夠量化地反映當(dāng)前數(shù)據(jù)對(duì)各個(gè)假設(shè)支持的程度,因此可能更加適用于科研中的假設(shè)檢驗(yàn)。但是,由于貝葉斯因子的統(tǒng)計(jì)原理及實(shí)現(xiàn)相對(duì)復(fù)雜,其在各個(gè)學(xué)科的研究中并未獲得廣泛關(guān)注。例如,雖然早在上世紀(jì) 60 年代已有研究者試圖將貝葉斯 因子引入心理學(xué)研究,卻一直未能獲得廣泛使用。 但是,隨著計(jì)算機(jī)運(yùn)算能力的大大提升,貝葉斯統(tǒng)計(jì)在計(jì)算機(jī)等領(lǐng)域獲得了巨大的成功。 同時(shí),研究者們開(kāi)發(fā)出用于貝葉斯統(tǒng)計(jì)的工具,如 WinBUGs 、JAGS 、Stan 等,這些軟件的出現(xiàn),促進(jìn)貝葉斯方法在各個(gè)研究領(lǐng)域中的使用。在這些貝葉斯統(tǒng)計(jì)相關(guān)的工具中,也有用于計(jì)算貝葉斯因子的工具,如 R 語(yǔ)言中的 BayesFactor。而在心理學(xué)及相關(guān)領(lǐng)域,不少研究者也試圖引入貝葉斯統(tǒng)計(jì)的方法,尤其是在最近大量心理學(xué)研究無(wú)法重復(fù)的背景之。但對(duì)于不少心理學(xué)及相關(guān)領(lǐng)域的研究者來(lái)說(shuō),使用 R 語(yǔ)言或其他計(jì)算機(jī)語(yǔ)言進(jìn)行貝葉 斯因子計(jì)算仍然有一些困難。為解決這一障礙,研究者們進(jìn)一步開(kāi)發(fā)了與商業(yè)統(tǒng)計(jì)軟件 SPSS具有類(lèi)似圖形界面的統(tǒng)計(jì)工具 JASP (https:///, JASP team 2017),簡(jiǎn)化了貝葉斯因子的計(jì)算。 本文旨在為向心理學(xué)及相關(guān)學(xué)科的研究者介紹貝葉斯因子及其使用。首先本文將介紹貝葉斯因子的原理,及其相對(duì)于傳統(tǒng)假設(shè)檢驗(yàn)中 p 值的優(yōu)勢(shì);再以獨(dú)立樣本 t 檢驗(yàn)為例,介紹了如 何使用 JASP 計(jì)算貝葉斯因子,以及如何解讀和報(bào)告其結(jié)果。在此基礎(chǔ)上,討論了貝葉斯因子 的不足及應(yīng)用價(jià)值。 1 貝葉斯因子的原理 貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)上的應(yīng)用,因此要理解貝葉斯因子,首先需要理解貝葉斯統(tǒng)計(jì)的原理。 1.1 貝葉斯統(tǒng)計(jì)的簡(jiǎn)介 貝葉斯學(xué)派(Bayesian statistics)與頻率學(xué)派(Frequentist statistics)是統(tǒng)計(jì)學(xué)中主要的兩個(gè)學(xué)派,其最核心的差異在于他們對(duì)于概率(probability)有著不一樣的定義。對(duì)于頻率學(xué)派而 言,概率是通過(guò)無(wú)數(shù)次重復(fù)抽樣中頻率(frequency)的預(yù)期值。與之相反,貝葉斯學(xué)派則認(rèn)為, 概率是對(duì)一件事情的相信程度,從0 到1 表示人們基于事先所獲得的信息,在多大程度上相信 某件事情是真的。由于不同人對(duì)同一事件的相信程度可能不同,因此,貝葉斯學(xué)派的概率是具 有主觀性。但貝葉斯學(xué)派的概率卻不是任意的:人們通過(guò)合理的方式,不斷獲取并更新已知信 息,可以最終消除主觀性,從而達(dá)成一致。 由于頻率學(xué)派將概率定義為長(zhǎng)期行為表現(xiàn)的結(jié)果,因此要理解頻率學(xué)派的概率,通常需要 假想那些尚未發(fā)生的事件。例如,在NHST 框架之下,p 值的意義是假定H0 為真的情況下,出現(xiàn)當(dāng)前結(jié)果及比當(dāng)前結(jié)果更加極端結(jié)果的概率。換句話(huà)說(shuō),p 值表達(dá)的是:如果以完全相同的條件無(wú)數(shù)次地重復(fù)當(dāng)前實(shí)驗(yàn),這些實(shí)驗(yàn)中有多少大比例會(huì)出現(xiàn)當(dāng)前結(jié)果模式或者更極端結(jié)果 的模式。因此,p 值的意義暗含一個(gè)假設(shè):我們能夠進(jìn)行無(wú)數(shù)次相同的試驗(yàn)。但是實(shí)際上,研 究者往往難以理解這種對(duì)未出現(xiàn)的無(wú)數(shù)次相同試驗(yàn)的假定,而誤認(rèn)為 p 值是一次檢驗(yàn)中拒絕零 假設(shè)時(shí)犯錯(cuò)誤的概率。這種對(duì)NHST 的誤解,恰好是帶有貝葉斯統(tǒng)計(jì)色彩,即根據(jù)當(dāng)前的數(shù)據(jù)計(jì)算某個(gè)模型正確或錯(cuò)誤的概率。 與頻率學(xué)派統(tǒng)計(jì)不同,貝葉斯統(tǒng)計(jì)最大的特點(diǎn)之一在于:貝葉斯統(tǒng)計(jì)考慮了個(gè)體對(duì)不同可 能性的可信度(credibility),而改變其可信度的,正是人們不斷獲得的數(shù)據(jù)。這種思維方式 與人們?cè)谌粘I钪械慕?jīng)驗(yàn)非常相似:當(dāng)我們不斷地獲得支持某個(gè)觀點(diǎn)的證據(jù)時(shí),我們會(huì)更加相信該觀點(diǎn)。 雖然貝葉斯統(tǒng)計(jì)對(duì)概率的理解與頻率學(xué)派不同,但是其對(duì)概率的計(jì)算卻嚴(yán)格依照概率的基 本原則:加法原則與乘法原則。貝葉斯統(tǒng)計(jì)中最核心的貝葉斯法則(Bayes rule),也是根據(jù)簡(jiǎn) 單的加法原則與乘法原則推導(dǎo)而來(lái)。依據(jù)概率的乘法原則,隨機(jī)事件A與隨機(jī)事件B 同時(shí)發(fā)生的概率為: 公式1 即為聯(lián)合概率的公式,即隨機(jī)事件A 與隨機(jī)事件B 同時(shí)發(fā)生的概率。其意義為: 隨機(jī)事件 A 與隨機(jī)事件 B 的聯(lián)合概率(p(A∩B))為,在 B 發(fā)生的條件下 A 發(fā)生的概率(p(A|B)) 與 B 發(fā)生的的概率(p(B))的乘積,也等于在 A 發(fā)生的條件下 B 發(fā)生的概率(p(B|A))與事件A 發(fā)生的概率(p(A))的乘積。其中,p(A|B)和 p(B|A)均為條件概率(conditional probability),二者意義不同。 對(duì)公式 1 進(jìn)行變換,即可以得到如下公式: 公式2 即為貝葉斯定理公式。其代表的意義是,如果我們要計(jì)算隨機(jī)事件 B 發(fā)生的條件 下A 發(fā)生的概率(p(A|B)),可以通過(guò)使用 A 與 B 同時(shí)發(fā)生的概率(p(A∩B))除以B 發(fā)生的 概率(p(B)),也就等于在 A 發(fā)生的條件下 B 發(fā)生的概率,與A 發(fā)生概率的乘積,再除以 B 發(fā) 生的概率。公式2 將兩個(gè)條件概率聯(lián)系起來(lái),從而使得計(jì)算不同的條件概率成為可能。 在貝葉斯統(tǒng)計(jì)的框架之下,公式 2 可以看作是一次信息的更新。假定我們需要根據(jù)一次實(shí)驗(yàn)收集到的數(shù)據(jù)(data)來(lái)檢驗(yàn)?zāi)硞€(gè)理論模型為真的可能性。如果我們以心理學(xué)研究中常用的 零假設(shè) H0 為例,則可以將公式2 改寫(xiě)如下: p(H0|data)表示數(shù)據(jù)更新之后理論模型 H0 正確的概率,即后驗(yàn)概率(posterior);p (H0)表示 更新數(shù)據(jù)之前認(rèn)為理論模型 H0 正確的概率,即先驗(yàn)概率(prior);而p(data| H0)則是在模型H0之下,出現(xiàn)當(dāng)前數(shù)據(jù)的概率,即邊緣似然性(marginal likelihood)。由此可以看出,在貝葉斯統(tǒng) 計(jì)之中,一次數(shù)據(jù)收集(實(shí)驗(yàn))的主要功能在于幫助我們更新理論模型的可信度。 根據(jù)公式3,我們可以使用數(shù)據(jù)對(duì)任意的模型為真的概率進(jìn)行更新。在假設(shè)檢驗(yàn)中,我們可以根據(jù)觀測(cè)數(shù)據(jù)同時(shí)對(duì)零假設(shè)(理論模型H0)和備擇假設(shè)(理論模型 H1)的可信度進(jìn)行更新(分別見(jiàn)公式3 和公式4),得到它們更新的后驗(yàn)概率。 在公式6 中,BF10 中下標(biāo)的1,代表的是H1,0 代表的是H0,因此,BF10 即代表的是 H1與H0對(duì)比的貝葉斯因子,而BF01即代表的是H0與H1對(duì)比的貝葉斯因子。例如,BF10 =19表示的是,在在備擇假設(shè)H1為真條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是虛無(wú)假設(shè)H0條件下出現(xiàn)當(dāng)前 數(shù)據(jù)的可能性的19 倍。 從貝葉斯因子的公式中可以看出,貝葉斯因子不依賴(lài)于對(duì)先驗(yàn)假設(shè)(p(H1)和 p(H0))。更重要的是,正是貝葉斯因子根據(jù)當(dāng)前數(shù)據(jù)將先驗(yàn)概率更新為后驗(yàn)概率。 因此,NHST 與貝葉斯因子回答了不同的問(wèn)題。NHST 試圖回答“假定我們已知兩個(gè)變量的關(guān)系(如,兩種條件沒(méi)有差異),出現(xiàn)當(dāng)前觀測(cè)數(shù)據(jù)的模式或者更加極端模式的概率(p(more extreme > observed data|H0))有多大”的問(wèn)題;而貝葉斯因子試圖回答的是,在當(dāng)前數(shù)據(jù)更可 能在哪個(gè)理論模型下出現(xiàn)??紤]到研究者往往想知道當(dāng)前數(shù)據(jù)模式條件下,H0 或者 H1 為真的 概率(分別為 p(H0|data)與 p(H1|data)),在假設(shè)檢驗(yàn)中,貝葉斯因子具有一些 NHST 不具備的 優(yōu)勢(shì),下一小節(jié)將對(duì)這些優(yōu)勢(shì)進(jìn)行詳細(xì)說(shuō)明。 對(duì)貝葉斯因子大小的解讀,在 Jeffreys (1961) 的基礎(chǔ)上,Wagenmakers, et al. (2017) 對(duì)貝葉斯因子的大小所代表的意義進(jìn)行原則上的劃分(見(jiàn)表2)。但是這個(gè)劃分僅是大致參考,不能?chē)?yán)格對(duì)應(yīng),研究者需要根據(jù)具體的研究來(lái)判斷貝葉斯因子的意義。 1.2 備擇假設(shè)的默認(rèn)先驗(yàn) 由于貝葉斯因子中先驗(yàn)概率具有至關(guān)重要的作用,因此如何選擇備擇假設(shè)的先驗(yàn)分布變成 了一個(gè)非常重要的問(wèn)題。其中一個(gè)較為合理的做法是,根據(jù)采用該范式的先前研究(如元分析得到的效應(yīng)量)來(lái)假設(shè)備擇假設(shè)的先驗(yàn)分布。但這種做法在很多情況下并不現(xiàn)實(shí):首先根據(jù)范式的不同,效應(yīng)量的可能分布不同;更重要地,由于許多研究本身具有一定的探索性,并沒(méi)有先前研究結(jié)果作為指導(dǎo)。因此,更加常用的做法是使用一個(gè)綜合的、標(biāo)準(zhǔn)化的先驗(yàn)。 例如,在貝葉斯 t 檢驗(yàn)中,零假設(shè)的先驗(yàn)比較好確定,但是對(duì)于備擇假設(shè)的先驗(yàn)分布應(yīng)該 如何選擇,則比較困難。有研究者指出,使用柯西分布(Cauchy distribution)可能是比較合理 的選擇。與標(biāo)準(zhǔn)正態(tài)分布相比,柯西分布在 0 附近概率密度相對(duì)更小一些,因此其比 標(biāo)準(zhǔn)的正態(tài)允許更多較大的效應(yīng)(見(jiàn)圖 1);而與均勻分布(即效應(yīng)量在所有值上的分布完全相 同)相比,柯西分布更偏好零假設(shè)一些。因此,對(duì)于備擇假設(shè)的先驗(yàn)分布,可以如下表示: Jeffreys (1961)最早提出在貝葉斯因子中使用柯西分布作為先驗(yàn)來(lái)比較兩樣本的問(wèn)題。最近研究者的進(jìn)一步驗(yàn)證表明,柯西分布可以作為先驗(yàn)用于計(jì)算心理學(xué)常規(guī)假設(shè)檢驗(yàn)中的貝葉斯因 子,如 t 檢驗(yàn)、ANOVA和相關(guān)分析等。這些驗(yàn)證性的工作,為貝葉斯因子在心理學(xué) 及相關(guān)學(xué)科研究中的應(yīng)用打下了基礎(chǔ)。 2 貝葉斯因子的優(yōu)勢(shì) 如前所述,在假設(shè)檢驗(yàn)中,貝葉斯因子除了更加符合人們的直覺(jué)之外,還具有一些 NHST具備的優(yōu)勢(shì)。這些優(yōu)勢(shì)可以總結(jié)為五個(gè)方面(見(jiàn)表 1)。以下將從這五個(gè)方面展開(kāi)。 2.1 同時(shí)考慮H0和H1 如前所述,貝葉斯因子的計(jì)算同時(shí)考慮 H0 和 H1,并根據(jù)全部現(xiàn)有數(shù)據(jù)對(duì) H0 和 H1 為真的 先驗(yàn)概率進(jìn)行更新,在此基礎(chǔ)之上,比較在當(dāng)前數(shù)據(jù)下哪個(gè)理論模型(H0 和 H1)更合理。這種思路與 NHST 不同:在 NHST 框架之下,計(jì)算 p 值需要假定 H0 為真,而對(duì) H1 不做任何假設(shè),因此p值與H1無(wú)關(guān);NHST的邏輯是,如果H0為真,觀察到當(dāng)前數(shù)據(jù)出現(xiàn)的概率非常小,則拒絕 H0,接受 H1;這種情況下,NHST 忽略了一種可能性:當(dāng)前數(shù)據(jù)下,H1 為真的概率與H0 為真的概率相當(dāng)或者更小。例如,在 Bem (2011)中,H0 是被試的反應(yīng)不受到未來(lái)出現(xiàn) 刺激的影響,H1 是未來(lái)出現(xiàn)的刺激會(huì)影響到被試當(dāng)前反應(yīng),即被試能夠“預(yù)知”尚未出現(xiàn)的刺 激。雖然采用NHST 的邏輯 Bem (2011)得到了 p <>的結(jié)果,即 H0 為真時(shí),得到當(dāng)前數(shù)據(jù) 的概率(p(data|H0))很低,因此作者選擇拒絕 H0 而接受 H1,認(rèn)為被試能夠預(yù)知未來(lái)出現(xiàn)的刺 激。然而,研究者更關(guān)心的是,根據(jù)當(dāng)前數(shù)據(jù),某個(gè)模型/假設(shè)(如 H1)為真的概率(p(H1|data)), 而非零假設(shè) H0 為真時(shí)得到當(dāng)前數(shù)據(jù)的概率(p(data| H0))。考慮到先驗(yàn)知識(shí)告訴我們 H1 本身為 真的概率可能非常低,在當(dāng)前數(shù)據(jù)模式下,H1 為真的可能性 p(H1|data)極可能比 H0 為真的可 能性 p(H0|data)更低。 此外,p 值等于在 H0 為真的情況下,多次重復(fù)實(shí)驗(yàn)觀察到與當(dāng)前數(shù)據(jù)一樣極端或者更加極端結(jié)果的概率,即 p 值是假定 H0 為真時(shí)概率分布的尾端面積的積分值。因此,對(duì) p 值的理 解需要假定存在著比當(dāng)前數(shù)據(jù)更加極端的數(shù)據(jù)模式,而人們?cè)谥庇X(jué)上并不太擅長(zhǎng)做出這種假定, 常常會(huì)帶來(lái)對(duì) p 值的誤解。 因此,由于貝葉斯因子分別量化了當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 的支持強(qiáng)度,對(duì) H0 和 H1 同等對(duì)待, 而不是像 NHST 一樣完全不考慮 H1。另外,貝葉斯因子不需要假定未出現(xiàn)的數(shù)據(jù),也更加符合人們的直覺(jué) 2.2 可以用來(lái)支持 H0 同樣,由于同時(shí)量化了當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 各自的支持強(qiáng)度,貝葉斯因子可以用來(lái)支持 H0。在貝葉斯的框架下,只要 H0 和 H1 假設(shè)是具體的,貝葉斯因子就可以根據(jù)當(dāng)前數(shù)據(jù)對(duì)他們 的后驗(yàn)概率進(jìn)行一次更新,從而得到當(dāng)前數(shù)據(jù)更支持哪個(gè)假設(shè)的結(jié)果。如果 H0 比 H1 更加符合數(shù)據(jù)的模式,則貝葉斯因子能夠表明當(dāng)前數(shù)據(jù)支持 H1。但是,在傳統(tǒng)的 NHST 框架之下,由于假設(shè)檢驗(yàn)僅在 H0 為真的假設(shè)下進(jìn)行,僅憑借大于顯著性性水平(比如 0.05 或 0.005)的 p值是無(wú)法為 H0 是否為真提供證據(jù)。比如,僅依據(jù)假設(shè)檢驗(yàn)的結(jié)果 p = 0.20 并不能斷言有證據(jù) 表明沒(méi)有效應(yīng)(evidence of absence)(除非結(jié)合樣本量、效應(yīng)量和統(tǒng)計(jì)效力 Power 做出綜合判斷)。 在實(shí)際的研究中,能夠?qū)?nbsp;H0 提供量化的證據(jù)具有非常重要的意義,它可以直觀地讓 研究者區(qū)分出有證據(jù)表明沒(méi)有效應(yīng)(evidence of absence)和沒(méi)有證據(jù)表明有效應(yīng)(absence of evidence)這兩種情況。更具體來(lái)說(shuō),貝葉斯因子的結(jié)果有三種狀態(tài):(1)提供了支持 H1 的 證據(jù)(即有證據(jù)表明有效應(yīng));(2)支持 H0 的證據(jù)(即有證據(jù)表明沒(méi)有效應(yīng));或(3)證據(jù)對(duì) 兩者都不支持(沒(méi)有足夠的證據(jù)表明有效應(yīng)還是無(wú)效應(yīng))。例如,零假設(shè)與備擇假設(shè)相比的貝 葉斯因子BF01 =15,則說(shuō)明的是在這種情況下,觀察到的數(shù)據(jù)出現(xiàn)在H0為真情況下的可能 性是在 H1 為真情況下的可能性的 15 倍,表明當(dāng)前數(shù)據(jù)更加支持沒(méi)有效應(yīng)的假設(shè) H0。但是, 假如 BF01 = 1.5,則說(shuō)明觀察到的數(shù)據(jù)出現(xiàn)在 H0 為真情況下的可能性是在 H1 為真情況下的 可能性的 1.5 倍,則說(shuō)明當(dāng)前數(shù)據(jù)對(duì)于兩個(gè)假設(shè)的支持程度相當(dāng),沒(méi)有足夠的證據(jù)支持 H0 或 者 H1(見(jiàn)表 2 關(guān)于貝葉斯因子大小意義的建議)。 值得注意的是,不管是支持 H1,還是支持 H0,貝葉斯因子提供的證據(jù)是相對(duì)的,即,相 對(duì)于某個(gè)假設(shè)更支持另一個(gè)假設(shè),但可能存在第三個(gè)模型 H2 比 H1 和 H0 均更接近真實(shí)情況, 具有更高的后驗(yàn)概率。此外,最近有研究者在 NHST 框架之下發(fā)展出可以接受零假設(shè)的方法: 等同性檢驗(yàn)(Equivalence Test)。這種方法通過(guò)設(shè)定多個(gè) H0 來(lái)檢驗(yàn)效應(yīng)量是否與 0 沒(méi)有差異, 從而檢驗(yàn)是否能接受 H0。但等同性檢驗(yàn)仍然使用了非常主觀的 p 值,無(wú)法提供對(duì)證據(jù)的測(cè)量。 2.3 不“嚴(yán)重”地傾向于反對(duì) H0 貝葉斯因子同時(shí)分別量化了當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 支持的強(qiáng)度,因此,與傳統(tǒng) NHST 相比,其在比較數(shù)據(jù)對(duì) H0 和 H1 的支持強(qiáng)度時(shí)更加均衡,從而其拒絕 H0 的傾向也相對(duì)沒(méi)有那么強(qiáng)烈。 事實(shí)上,在傳統(tǒng) NHST 假設(shè)之下,研究者總能拒絕 H0。例如,有研究者分析了美國(guó)總結(jié)選 舉中候選人的身高與當(dāng)選之間的關(guān)系,對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)之后發(fā)現(xiàn) r = 0.39,p = .007,但使用貝葉斯因子分析表明 BF10 = 6.33。雖然兩種方法大致上支持了同樣的結(jié)論(即 拒絕 H0 與中等程度的證據(jù)支持 H1)。但是從 p 值上看,似乎表明拒絕 H0 的證據(jù)很強(qiáng),而貝葉 斯因子得到的支持則是有保留的。Wetzels, et al. 比較了 855 個(gè) t 檢驗(yàn)的結(jié)果,發(fā)現(xiàn)雖然大部 分的情況下 p 值與貝葉斯因子在結(jié)論上是一致的,但是貝葉斯因子相對(duì)來(lái)說(shuō)更加謹(jǐn)慎:p 值在0.01 與 0.05 之間的統(tǒng)計(jì)顯著結(jié)果,其對(duì)應(yīng)的貝葉斯因子只表明有非常弱的證據(jù)。對(duì)傳統(tǒng) p 值的貝葉斯解讀,詳見(jiàn)。 2.4 可以監(jiān)控證據(jù)的強(qiáng)度變化 計(jì)算貝葉斯因子時(shí),可以根據(jù)數(shù)據(jù)更新對(duì) H0 和 H1 支持的程度,因此,隨著新數(shù)據(jù)的出現(xiàn), 可以不斷對(duì)不同假設(shè)的支持程度進(jìn)行更新。在貝葉斯框架之下,貝葉斯因子的計(jì)算與解讀均不 需要假定存在無(wú)數(shù)的重復(fù)實(shí)驗(yàn),而是按照似然性法則對(duì)貝葉斯因子進(jìn)行更新,此外數(shù)據(jù)的出現(xiàn) 順序不會(huì)影響貝葉斯因子的解讀。 正是由于在貝葉斯統(tǒng)計(jì)的框架之下,沒(méi)有假陽(yáng)性的概念,因此,對(duì)貝葉斯因子的解讀不會(huì) 受到何時(shí)停止收集數(shù)據(jù)的影響。實(shí)際上,如果研究者們能夠采用序列貝葉斯因子設(shè)計(jì),在實(shí) 驗(yàn)開(kāi)始前提前設(shè)置貝葉斯因子的合理閾值(通常是 10,即較強(qiáng)的證據(jù)),則能夠在實(shí)驗(yàn)中根據(jù) 數(shù)據(jù)增加對(duì)后驗(yàn)概率進(jìn)行更新,可以在適當(dāng)?shù)臅r(shí)候停止收集數(shù)據(jù)。這種不受到停止規(guī)則影 響的原則,對(duì)實(shí)際研究具有重要的意義,使得研究者能合理有效地收集數(shù)據(jù)。 2.5 不受抽樣計(jì)劃的影響 由于貝葉斯因子的計(jì)算使用似然性原則,其對(duì)數(shù)據(jù)的分析沒(méi)有預(yù)先的假設(shè),因此也不受 到抽樣計(jì)劃的影響。換句話(huà)說(shuō),即使研究者對(duì)數(shù)據(jù)收集的過(guò)程不清楚,仍能夠計(jì)算和解讀貝葉 斯因子。這個(gè)特點(diǎn)對(duì)于分析自然情境中獲得的數(shù)據(jù)非常實(shí)用。 仍然以上述的美國(guó)總結(jié)選舉中候選人的身高與當(dāng)選之間關(guān)系的研究為例,研究者發(fā)現(xiàn) r = 0.39,p = .007。在 NHST 框架之下,要對(duì) p 值進(jìn)行合理的解讀,我們必須假定 p 值是實(shí)驗(yàn) 者在總統(tǒng)選舉之前已經(jīng)計(jì)劃好進(jìn)行 46 次選舉,并且在第 46 次選舉后停止收集數(shù)據(jù),在此基礎(chǔ) 之上計(jì)算相關(guān)系數(shù);否則,p = 0.007 代表的意義很難解讀。但很明顯的是,這些假設(shè)是不成立 的。因此,對(duì)于這個(gè)例子來(lái)說(shuō),使用 NHST 的前提條件是不滿(mǎn)足的。 同樣,這個(gè)例子也存在與停止規(guī)則相關(guān)的問(wèn)題:在真實(shí)的生活中,美國(guó)的總統(tǒng)選舉還會(huì)繼 續(xù),數(shù)據(jù)會(huì)繼續(xù)增加。如何分析未來(lái)的這些數(shù)據(jù)呢?如果每新增加一個(gè)數(shù)據(jù)均進(jìn)行一次 NHST分析,則會(huì)引起多重比較的問(wèn)題,使得假陽(yáng)性增加。 與 NHST 相反,貝葉斯因子能夠隨著新數(shù)據(jù)不斷地出現(xiàn)而不斷地更新,從而能夠分析實(shí)驗(yàn) 室之外的真實(shí)數(shù)據(jù),也能夠?qū)?shù)據(jù)進(jìn)行有意義的解讀。因此,在這個(gè)例子,數(shù)據(jù)隨著時(shí)間慢慢積累,貝葉斯因子實(shí)時(shí)監(jiān)控證據(jù)的優(yōu)勢(shì)與不受抽樣計(jì)劃影響的優(yōu)勢(shì)也相互關(guān)聯(lián)起來(lái):這兩個(gè)優(yōu) 勢(shì)均是因?yàn)樨惾~斯因子不依賴(lài)于研究者收集數(shù)據(jù)的意圖。但是,正如我們?cè)诤竺嬉岬降模m然隨著數(shù)據(jù)更新而更新貝葉斯因子不會(huì)影響到對(duì)其解讀,但這種忽略假陽(yáng)性的做法并不能避免 假陽(yáng)性的升高,研究者仍需要通過(guò)提前設(shè)置合理的閾值和(或)選擇合適的先驗(yàn)來(lái)控制假陽(yáng)性。 總之,貝葉斯因子以觀察到的數(shù)據(jù)為條件,定量地分析當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 提供的支持程度。通過(guò)實(shí)時(shí)地監(jiān)控證據(jù)強(qiáng)度的變化,貝葉斯因子讓研究者可以在收集數(shù)據(jù)的同時(shí)監(jiān)控證據(jù)強(qiáng) 度的變化。如果預(yù)先確定貝葉斯因子的停止閾值(比如 BF10 大于 10 或者 BF10 小于 1/10 時(shí)停 止收集數(shù)據(jù)),研究者能夠在證據(jù)足夠充足停止收集數(shù)據(jù)。此外,即使缺乏數(shù)據(jù)收集計(jì)劃信息 的情況下,貝葉斯因子仍然能夠從觀測(cè)數(shù)據(jù)中得到證據(jù)來(lái)更加支持哪個(gè)假設(shè)。更重要的是,貝 葉斯因子本質(zhì)上是對(duì)不同的模型的進(jìn)行比較,因此其不需要假定某個(gè)模型為真。 3 使用 JASP 計(jì)算貝葉斯因子 由于貝葉斯因子的獨(dú)特優(yōu)勢(shì),因此很早就有研究者將其引入心理學(xué)的研究之中。在實(shí)際情況中,貝葉斯因子計(jì)算的具體公式會(huì)隨著數(shù)據(jù)類(lèi)型和分析的類(lèi)型而變得更加復(fù)雜,相關(guān)公式可以參考。正是由于這個(gè)原因,貝葉斯因子在心理學(xué)的研究中一直受到很大的限制。 但是最近,研究者利用 R 語(yǔ)言豐富的軟件包,開(kāi)發(fā)了可視化的統(tǒng)計(jì)工具 JASP (https://jasp- stats.org/),該軟件采用與SPSS 類(lèi)似的用戶(hù)界面,讓貝葉斯因子的計(jì)算變得更加容易實(shí)現(xiàn),本 小節(jié)將介紹 JASP 軟件及其使用。 3.1 JASP 軟件簡(jiǎn)介
JASP 是一個(gè)免費(fèi)、開(kāi)源的統(tǒng)計(jì)軟件,其使用 R 語(yǔ)言的工具包進(jìn)行數(shù)據(jù)處理,但其使用不 需要安裝 R。JASP 的長(zhǎng)期目標(biāo)是讓所有人能夠通過(guò)免費(fèi)的統(tǒng)計(jì)軟件進(jìn)行最先進(jìn)統(tǒng)計(jì)技術(shù),尤 其是貝葉斯統(tǒng)計(jì)中的貝葉斯因子。 JASP 是在心理學(xué)研究面臨可重復(fù)危機(jī)的背景下開(kāi)發(fā)的,其開(kāi)發(fā)理念如下:第一,開(kāi)源與免費(fèi),因?yàn)橥该鲬?yīng)該是科學(xué)研究的本質(zhì)元素;第二,包容性,即包括貝葉斯分析,也包括NHST分析方法,而且NHST 分析方法中,增加了對(duì)效應(yīng)量及其置信區(qū)間的輸出;第三,簡(jiǎn)潔性,即JASP 的基本軟件中僅包括最常用的分析,而更高級(jí)的統(tǒng)計(jì)方法又可以通過(guò)插件模塊進(jìn)行補(bǔ)充;第四,友好的圖形界面,例如,輸出部分隨著用戶(hù)選擇變量輸入而實(shí)時(shí)更新,表格使用心理學(xué)學(xué)術(shù)論文的標(biāo)準(zhǔn)格式APA 格式。同時(shí),JASP 的使用遞進(jìn)式輸出,即默認(rèn)的結(jié)果輸出是最 簡(jiǎn)潔的,更多的結(jié)果輸出可以由研究者自己進(jìn)行定義。此外,為方便公開(kāi)和分享分析過(guò)程,JASP將輸入的數(shù)據(jù)與輸出結(jié)果保存于同一個(gè)后綴為.jasp 的文件之中,每個(gè)分析的結(jié)果均與相應(yīng)的 分析和變量數(shù)據(jù)相關(guān)聯(lián)。這種結(jié)果與數(shù)據(jù)整合的文件可以與開(kāi)放科學(xué)平臺(tái) OSF 兼容,從而做到數(shù)據(jù)與結(jié)果分享。 3.2 貝葉斯因子分析在JASP 的實(shí)現(xiàn)及其結(jié) 果解讀JASP 中可以實(shí)現(xiàn)多種實(shí)驗(yàn)設(shè)計(jì)的貝葉斯因子分析,包括單樣本 t 檢驗(yàn)、獨(dú)立樣本 t 檢驗(yàn)、 配對(duì)樣本 t 檢驗(yàn)、方差分析、重復(fù)測(cè)量的方差分析、ANCOVA 和相關(guān)分析。對(duì)于每一種分析, 均提供了頻率學(xué)派的方法和貝葉斯的方法。JASP 的貝葉斯因子分析中采用前述的默認(rèn)先驗(yàn)分 布,但也可以修改。接下來(lái)本文將 Wagenmakers et al. (2015, https:///uszvx/)對(duì) Topolinski and Sparenberg (2012) 的重復(fù)實(shí)驗(yàn)數(shù)據(jù)為例進(jìn)行分析,說(shuō)明如何使用 JASP 進(jìn)行獨(dú)立樣本 t 檢驗(yàn)。其他常用貝葉斯因子分析,可以進(jìn)一步參考 Wagenmakers et al. (2017)。 在 Topolinski and Sparenberg (2012) 的第二個(gè)實(shí)驗(yàn)中,一組被試以順時(shí)針?lè)较虬蝿?dòng)一個(gè)廚 房用的鐘,而另一組則以逆時(shí)針?lè)较驌軇?dòng)。隨后,被試填寫(xiě)一個(gè)評(píng)估經(jīng)驗(yàn)開(kāi)放性的問(wèn)卷。他們的數(shù)據(jù)表明,被試順時(shí)針轉(zhuǎn)時(shí)比逆時(shí)針轉(zhuǎn)的被試報(bào)告更高的對(duì)經(jīng)驗(yàn)的開(kāi)放性 (但是見(jiàn) Francis,2013 )。Wagenmakers, et al. (2015) 采用提前注冊(cè)(preregistration)的方式對(duì)該研究進(jìn)行 重復(fù),在實(shí)驗(yàn)開(kāi)始前確定停止收集數(shù)據(jù)的標(biāo)準(zhǔn):當(dāng)支持某一個(gè)假設(shè)的貝葉斯因子達(dá)到 10 時(shí)即 停止收集數(shù)據(jù),或者每條件下達(dá)到 50 個(gè)樣本后停止收集數(shù)據(jù)。此外,預(yù)注冊(cè)時(shí)采用單側(cè) t 檢 驗(yàn)的默認(rèn)先驗(yàn),即 r = 1 的柯西分布。而單側(cè)的 t 檢驗(yàn)的先驗(yàn)是只有正效應(yīng)的柯西分布,即備擇假設(shè)為 H+ : Cauchy (0, 1)。 有研究者認(rèn)為,默認(rèn)先驗(yàn)分布 Cauchy (0, 1)是不現(xiàn)實(shí)的,因?yàn)樵谶@個(gè)分布中,大的效應(yīng)量占 的比例太大(大于 1 的效應(yīng)量在分布中占了 50%以上);相反,另一些人覺(jué)得這個(gè)分布不現(xiàn)實(shí) 是因?yàn)檫@個(gè)分布中,靠近 0 的效應(yīng)量的比重太大,即效應(yīng)量為 0 是最可能的值。一個(gè)避免這些 問(wèn)題的做法是減小柯西分布的參數(shù) r。在 BayesFactor 工具包中,默認(rèn)采用的 JASP 中對(duì)于單側(cè)的 t 檢驗(yàn)同樣采用這個(gè)先驗(yàn)。r 減小意味著H1 和H0 相似,他們對(duì)觀測(cè)數(shù) 據(jù)的預(yù)測(cè)相似,更難得到支持H0 的強(qiáng)證據(jù)。 使用 JASP 可以對(duì)這批數(shù)據(jù)進(jìn)行貝葉斯的獨(dú)立樣本 t 檢驗(yàn)。首先用JASP 打開(kāi)數(shù)據(jù)(File →Examples→“Kitchen Rolls”,或者從 https:///9r423/下載后,點(diǎn)擊 File→Open),然后在 T- tests 的面板中選擇“Bayesian Independent Samples T-test”。將顯示如圖 1 中間圖所示的對(duì)話(huà)框。 我們已經(jīng)將“mean NEO”作為因變量(dependent variable),“Rotation”作為分組變量(grouping variable)。勾選了“Descripitves”、“prior and posterior”及其子選項(xiàng)“Additional info”之后,結(jié) 果如圖 4 右邊的所示:與順時(shí)針相比,逆時(shí)針對(duì)經(jīng)驗(yàn)的開(kāi)放性稍微高一些,這個(gè)結(jié)果的方向與Topolinski and Sparenberg (2012)所假設(shè)的正好相反。 如果將Cauchy先驗(yàn)的寬度設(shè)置為JASP的默認(rèn)值r=0.707,同時(shí)勾選了“Prior and posterior”及其子選項(xiàng)的“Additional info”這兩個(gè)選項(xiàng),結(jié)果如圖 2 右側(cè)所示。從實(shí)線(xiàn)的分布可以看出,大 部分的后驗(yàn)概率是負(fù)值,其的中值是-0.13,95%的可信區(qū)間從-0.5到0.23。BF01 =3.71,表明 觀察到的數(shù)據(jù)在 H0 假設(shè)之下的可能性是在 H1 假設(shè)之下可能性的 3.71 倍(我們選擇了 BF01, 因?yàn)?nbsp;BF01=3.71 相對(duì)于等價(jià)的 BF10=0.27 來(lái)說(shuō)更好解釋)。 通過(guò)這個(gè)初步的展示,我們可以了解到如何進(jìn)行貝葉斯獨(dú)立樣本 t 檢驗(yàn)的操作。接下來(lái)展 示如何按照提前注冊(cè)過(guò)的方法,對(duì)這批數(shù)據(jù)進(jìn)行貝葉斯單側(cè)獨(dú)立樣本 t 檢驗(yàn)(除使用 r = 0.707而非 1 外)。由于描述性統(tǒng)計(jì)輸出表明順時(shí)針是組 1 而逆時(shí)針是組 2,我們將在”Hypothesis”的 面板處勾選“group 1 > group 2”,正如圖 3 中間所示。 單側(cè)檢驗(yàn)的結(jié)果如圖 3 右邊部分所示。與預(yù)期的一致,如果觀察到的效應(yīng)是與假設(shè)相反, 則這種使用單側(cè)檢驗(yàn)將先驗(yàn)知識(shí)整合到分析之中的做法,增加支持 H0 的相對(duì)證據(jù)(也見(jiàn) Matzke et al. (2015) ),即貝葉斯因子 BF01 從 3.71 增加到了 7.74,意味著觀察到的數(shù)據(jù)在 H0 下的可 能是在 H+可能性的 7.74 倍。 值得注意的是,在 H+下的后驗(yàn)分布是集中在 0 但不是沒(méi)有負(fù)值(見(jiàn)圖 3 右側(cè)),與 H+中的順序限制是一致的。這一點(diǎn)與傳統(tǒng)頻率主義的單側(cè)置信區(qū)間不同,傳統(tǒng)方法的單尾置信區(qū)間為[-.23 +∞) 。雖然傳統(tǒng)頻率主義的區(qū)間在數(shù)學(xué)上是良好定義的(即,它包括了全部的不會(huì)被單尾的 a = 0.05 顯著性檢驗(yàn)拒絕的值),但是大部分研究者會(huì)發(fā)現(xiàn)這個(gè)區(qū)間即不好理解也沒(méi)有信息量。 除了計(jì)算貝葉斯因子外,JASP還可以進(jìn)行穩(wěn)健性分析(Baye sian robustness check),從而量化柯西先驗(yàn)分布參數(shù) r 對(duì)貝葉斯因子的影響。如圖 4 所示,選中“Bayes factor robustness check”的選項(xiàng),這將得到圖 4 右側(cè)上面的圖。從該圖可以看到,當(dāng) Cauchy 先驗(yàn)的 r 為 0 時(shí),H0 與 H+相同(BF0+=1),BF0+隨著r的增加而增加。在JASP的默認(rèn)值r=0.707,貝葉斯因子BF0+ =7.73;而對(duì)于Jeffrey默認(rèn)的r=1,貝葉斯因子BF0+ =10.75。因此,在一系列r的先驗(yàn)值中, 當(dāng)前數(shù)據(jù)顯示了對(duì) H0 的中等到強(qiáng)的證據(jù)支持。 此外,還可以勾選圖 4 中間的部分的“Sequential analysis”及其子選項(xiàng)“Robustness check”,進(jìn) 行序列分析。其結(jié)果見(jiàn)圖 4 右側(cè)下半部分的圖。序列分析顯示的是貝葉斯因子隨著著抽樣而變 化的結(jié)果,也就是說(shuō),研究都可以在新數(shù)據(jù)收集到時(shí)對(duì)證據(jù)的積累進(jìn)行監(jiān)控和可視化。從圖中 可以看到,實(shí)際上 Wagenmakers et al. (2015)并未按預(yù)注冊(cè)時(shí)的 r = 1 先驗(yàn)來(lái)計(jì)算 BF0+并在 BF0+ > 10 或者 BF+0 > 10 時(shí)立刻停止收集數(shù)據(jù): 在 55 個(gè)被試之后,虛線(xiàn)超過(guò)了 BF0+ > 10,但是數(shù)據(jù) 仍然繼續(xù)收集。在實(shí)踐中,每隔幾天檢驗(yàn)一次貝葉斯因子,有助于了解貝葉斯因子是否在某個(gè)時(shí)間點(diǎn)上超過(guò)預(yù)先決定的標(biāo)準(zhǔn),并據(jù)此決定是否停止數(shù)據(jù)。 序列分析的一個(gè)優(yōu)點(diǎn)是它可視化了貝葉斯因子在不同先驗(yàn)條件下的收斂過(guò)程,即貝葉斯因子在 log 尺度上差異開(kāi)始穩(wěn)定不變 (e.g.)。在當(dāng)前的例子中,當(dāng)被試數(shù)量達(dá)到 35 時(shí), 不同先驗(yàn)下的貝葉斯因子開(kāi)始出現(xiàn)收斂。要理解為什么在貝葉斯因子的 log 值的差異會(huì)在一些 初步的觀測(cè)數(shù)據(jù)之后不再變化,我們可以假定數(shù)據(jù) y 包括兩個(gè)部分 y1 和 y2,根據(jù)條件概率公 式,BF0+ (y) = BF0+ (y1) × BF0+ (y2|y1)。這個(gè)公式表明,貝葉斯因子并非是對(duì)不同數(shù)據(jù)進(jìn)行盲目 地相乘,實(shí)際上公式中的第二個(gè)因子——BF0+(y2|y1) —— 反映的是:當(dāng)先驗(yàn)分布已經(jīng)根據(jù)數(shù) 據(jù) y1 進(jìn)行更新后,數(shù)據(jù) y2 對(duì)貝葉斯因子再次更新 (Jeffreys, 1961, p. 333)。對(duì)這個(gè)公式進(jìn)行log 轉(zhuǎn)換后,得到 log(BF0+ (y)) = log(BF0+ (y1)) + log(BF0+ (y2|y1))。假定數(shù)據(jù) y1 包括了足夠的 信息,不管 r 如何變化,通過(guò) y1 更新后均得到大致相同的結(jié)果分布(在大部分情況下,這種 情況很快就會(huì)出現(xiàn))。而通過(guò) y1 得到的這個(gè)后驗(yàn)分布,又變成了數(shù)據(jù) y2 的先驗(yàn)分布,即成為log(BF0+(y2|y1))的先驗(yàn)。在這種情況下,log(BF0+(y2|y1))的值大致相似(相似的先驗(yàn)分布,相 同的數(shù)據(jù))。因此,不一樣的 r 值會(huì)讓數(shù)據(jù) y1 產(chǎn)生不同的后驗(yàn)分布,但當(dāng)數(shù)據(jù) y1 是足夠的大 后,使得 y1 的后驗(yàn)分布大致相似,此時(shí) y2 再次對(duì)模型進(jìn)行更新的大小也是相似,這就使得log(BF0+(y2|y1))在不同的 r 下相似,產(chǎn)生收斂的現(xiàn)象。 3.3 使用貝葉斯因子時(shí)如何報(bào)告 貝葉斯統(tǒng)計(jì)在目前的心理學(xué)研究中并不常見(jiàn)。雖然大部分雜志的編輯和審稿人會(huì)欣賞采用 更加合理的統(tǒng)計(jì)手段,但是出于對(duì)貝葉斯方法的陌生,研究者需使用貝葉斯因子時(shí),需要提供 相關(guān)的背景信息讓編輯和審稿人了解這種背景。因此,除了報(bào)告貝葉斯因子的結(jié)果之外,還需要首先報(bào)告如下幾點(diǎn)。第一、選用貝葉斯因子的動(dòng)機(jī)與原因,即為什么在某個(gè)報(bào)告中使用貝 葉斯因子而不是 NHST。例如,可以說(shuō)明貝葉斯因子提供了更加豐富的信息,或者數(shù)據(jù)特點(diǎn)不滿(mǎn)足 NHST 的前提假設(shè)(如在自然情境下收集的數(shù)據(jù),無(wú)法判斷數(shù)據(jù)收集的動(dòng)機(jī)和實(shí)驗(yàn)假設(shè))。 第二、描述貝葉斯因子在模型比較中的基本邏輯。即,假定讀者并不非常了解貝葉斯因子,簡(jiǎn) 單地解釋貝葉斯因子中模型比較的思想。第三、描述貝葉斯因子分析中的先驗(yàn)分布以及采用該 先驗(yàn)的原因,先驗(yàn)分布應(yīng)該或多或少對(duì)數(shù)據(jù)分析提供一些信息。第四、解釋貝葉斯因子,將貝 葉斯因子與研究中的理論或假設(shè)結(jié)合起來(lái)。 貝葉斯因子不使用統(tǒng)計(jì)顯著,而是描述數(shù)據(jù)對(duì)假設(shè)的支持程度。例如,在 Wagenmakers, et al. 中,對(duì)Jeffreys 默認(rèn)先驗(yàn)下的貝葉斯結(jié)果進(jìn)行如下描述: “貝葉斯因子為 BF01 = 10.76,說(shuō)明在(假定沒(méi)有效應(yīng)的)零假設(shè)下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性 是在(假定存在效應(yīng)的)備擇假設(shè)下可能性的 10.76 倍。根據(jù) Jeffreys (1961)提出的分類(lèi)標(biāo)準(zhǔn), 這是較強(qiáng)的證據(jù)支持了零假設(shè),即在順時(shí)針和立逆時(shí)針轉(zhuǎn)鐘表指針的人在經(jīng)驗(yàn)開(kāi)放性(NEO) 得分上沒(méi)有差異。” 此外,使用貝葉斯因子進(jìn)行分析時(shí),還可以報(bào)告探索性的結(jié)果,如穩(wěn)健性分布和序列分析的結(jié)果,這些結(jié)果將進(jìn)一步豐富結(jié)果的信息,給其他研究者提供更加全面的結(jié)果。 4 總結(jié)與展望 近年來(lái),科學(xué)研究的可重復(fù)問(wèn)題備受關(guān)注,尤其是心理學(xué),對(duì) NHST 的過(guò)度依 賴(lài)正是原因之一。貝葉斯因子作為一種假設(shè)檢驗(yàn)方法,具有 NHST 不具備的一些優(yōu)勢(shì),其能夠?qū)Ξ?dāng)前心理學(xué)研究中對(duì) NHST 框架下的 p 值的過(guò)度依賴(lài)起到補(bǔ)充的作用。但是值得注意的是,心理學(xué)研究重復(fù)失敗的原因多種多樣,僅使用貝葉斯因子不能讓心理學(xué)的研究變得可重 復(fù)。例如數(shù)據(jù)不開(kāi)放以及研究過(guò)程不透明、對(duì)探索性分析與驗(yàn)證性分析不加區(qū)分、以發(fā)表論文為核心的獎(jiǎng)勵(lì)體系等都可能是造成當(dāng)前研究可重復(fù)率低的原因。即便如此,作為一種不同于傳統(tǒng) NHST 的方法,貝葉斯因子有助于研究者使用多種的方法對(duì)同一研究進(jìn)行分析,從而得到更加穩(wěn)定的統(tǒng)計(jì)的推斷,得到更加客觀的結(jié)論。需要指出的是,采用多種方法進(jìn)行分析時(shí),需要報(bào)告全部的分析過(guò)程和結(jié)果,而非選擇最有利于自己結(jié)論的分析結(jié)果進(jìn)行報(bào)告。 4.1 貝葉斯因子的不足 貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)方面的應(yīng)用,而貝葉斯學(xué)派與頻率學(xué)派統(tǒng)計(jì)的爭(zhēng)議一直存在。實(shí)際上,有研究者認(rèn)為貝葉斯因子也可能存在許多問(wèn)題,充分了解這些反對(duì)的觀點(diǎn),將更加有利于我們?cè)谘芯恐泻侠淼厥褂秘惾~斯因子。 對(duì)貝葉斯因子最強(qiáng)烈的質(zhì)疑來(lái)自于對(duì)其先驗(yàn)概率的設(shè)定,可能會(huì)認(rèn)為先驗(yàn)概率過(guò)于主觀、 過(guò)于保守從而不容易出現(xiàn)較強(qiáng)的證據(jù)等。也有研究者認(rèn)為,默認(rèn)的先驗(yàn)對(duì)小的效應(yīng)不利。例如,Bem, et al. 認(rèn)為,Wagenmakers, et al. 對(duì) Bem的數(shù)據(jù)進(jìn)行重新分析時(shí),采用了不合 適的先驗(yàn)概率是 Wagenmakers, et al. 未能得到與 Bem一致結(jié)論的原因。這種批評(píng)實(shí)質(zhì)上是對(duì)貝葉斯因子的誤用,即未將先驗(yàn)知識(shí)轉(zhuǎn)化成為合適的先驗(yàn)概率。有趣的是,只要研究者將自己使用的先驗(yàn)概率保持透明與公開(kāi),其他研究者可以采用交叉驗(yàn)證,從而起到充分探索的作用。 其次,也有研究者認(rèn)為,貝葉斯因子沒(méi)有考慮假陽(yáng)性的問(wèn)題。在 NHST 框架之下,研究者 非常強(qiáng)調(diào)控制一類(lèi)錯(cuò)誤與二類(lèi)錯(cuò)誤的問(wèn)題。例如心理學(xué)研究中一般將一類(lèi)錯(cuò)誤控制在 5%以?xún)?nèi), 因此顯著性水平設(shè)置為 0.05。也正是需要控制一類(lèi)錯(cuò)誤,NHST 框架之下有許多方法用來(lái)調(diào)整 閾值使其一類(lèi)錯(cuò)誤率不至于太高,例如直接提高顯著性水平閾限到 0.005和多重比較校正 的方法。而貝葉斯統(tǒng)計(jì)主要是為了不斷地對(duì)證據(jù)的強(qiáng)度進(jìn)行測(cè)量,其不考慮控制假陽(yáng)性(即一 類(lèi)錯(cuò)誤)的問(wèn)題。因此,當(dāng)研究者基于貝葉斯因子進(jìn)行決策(效應(yīng)是否存在)時(shí),就可能犯下 一類(lèi)錯(cuò)誤。因此,在實(shí)際的貝葉斯因子分析中,可以通過(guò)先驗(yàn)來(lái)解決多重比較的問(wèn)題。 例如,直接說(shuō)明研究者預(yù)期假陽(yáng)性率有多大。 還有研究者指出,基于估計(jì)的統(tǒng)計(jì)總是要比假設(shè)檢驗(yàn)更優(yōu),因?yàn)楣烙?jì)本身將不確定性考慮進(jìn)來(lái)。例如,Cumming (2014) 建議使用效應(yīng)量及其置信區(qū)間以替代 p 值。但是考慮到參數(shù) 估計(jì)與假設(shè)檢驗(yàn)在科研中均有其相應(yīng)最適用的問(wèn)題,因此貝葉斯因子無(wú)法直接與基于估計(jì)的頻 率主義學(xué)派統(tǒng)計(jì)進(jìn)行比較。但是,貝葉斯統(tǒng)計(jì)中,也有基于估計(jì)的方法。 最后,貝葉斯因子進(jìn)行假設(shè)檢驗(yàn),本質(zhì)上是證據(jù)的不斷累積,而非得到二分的結(jié)論。因此,一次實(shí)驗(yàn)的結(jié)果可以被看作是試探性的,研究者可以繼續(xù)收集數(shù)據(jù)或者進(jìn)行重復(fù)實(shí)驗(yàn)。 4.2 貝葉斯因子的應(yīng)用前景
貝葉斯因子作為基于貝葉斯統(tǒng)計(jì)的假設(shè)檢驗(yàn)方法,與 NHST 相比具有一些優(yōu)勢(shì),其使得研究者可以直接檢驗(yàn)數(shù)據(jù)是否支持零假設(shè),不再受抽樣意圖和停止收集數(shù)據(jù)標(biāo)準(zhǔn)的影響,從而更加靈活地進(jìn)行數(shù)據(jù)分析。這些優(yōu)勢(shì)可能幫助心理學(xué)家更好地在研究過(guò)程中進(jìn)行決策,同時(shí),貝葉斯因子的采用也可以促進(jìn)研究者去更加深入地理解貝葉斯方向的適用范圍以及前提條件等。 JASP 的推出,使用貝葉斯因子的計(jì)算和解讀變得更加簡(jiǎn)便,研究者即便沒(méi)有很強(qiáng)的編程 基礎(chǔ),也能夠使用 JASP 迅速地進(jìn)行貝葉斯因子分析。這可能有助于推動(dòng)研究者研究中更加廣 泛地使用貝葉斯因子。此外,JASP 本身正在快速發(fā)展,其功能的深度和廣度正在不斷地?cái)U(kuò)大, 新的方法和標(biāo)準(zhǔn)將不斷地整合到軟件之中,可能使研究者更科學(xué)地進(jìn)行研究。 參考文獻(xiàn):略 原文鏈接:http://www./abs/201709.00120,歡迎各位讀者留言評(píng)論 (注: ChinaXiv是沒(méi)有經(jīng)過(guò)同行評(píng)議的預(yù)印本【working paper】) 編輯:潘雨 張柏楊 · · · · · ·
|
|