胡傳鵬等：貝葉斯因子及其在 JASP 中的實(shí)現(xiàn)

昵稱(chēng)45199333 2017-10-06

展開(kāi)全文

原文：《貝葉斯因子及其在 JASP 中的實(shí)現(xiàn)》

來(lái)源： ChinaXiv:201709.00120

作者：胡傳鵬孔祥禎 Eric-Jan Wagenmakers Alexander Ly 彭凱平

貝葉斯因子及其在 JASP 中的實(shí)現(xiàn)

摘要

統(tǒng)計(jì)推斷在科學(xué)研究中起到關(guān)鍵作用，然而當(dāng)前科研中最常用的經(jīng)典統(tǒng)計(jì)方法——零假設(shè)檢驗(yàn)(Null hypothesis significance test, NHST)卻因?yàn)殡y以正確理解而被濫用或誤用。有研究者提出使用貝葉斯因子(Bayes factor)作為是一種替代和(或)補(bǔ)充的統(tǒng)計(jì)方法。貝葉斯因子是貝葉斯統(tǒng)計(jì)中用來(lái)進(jìn)行模型比較和假設(shè)檢驗(yàn)的重要方法，這一方法對(duì)于心理學(xué)及相關(guān)領(lǐng)域的大部分研究者來(lái)說(shuō)仍然比較陌生。因此，本文介紹了貝葉斯因子的基本思路，并總結(jié)了貝葉斯因子與 NHST 相比的優(yōu)勢(shì)。在此基礎(chǔ)上，以貝葉斯獨(dú)立樣本 t 檢驗(yàn)為例，演示如何在開(kāi)放的統(tǒng)計(jì)軟件 JASP 中實(shí)現(xiàn)貝葉斯因子的計(jì)算，并解釋了對(duì)貝葉斯因子結(jié)果的解讀。最后，對(duì)貝葉斯因子的不足及其應(yīng)用價(jià)值進(jìn)行了討論。

自20 世紀(jì)以來(lái)，統(tǒng)計(jì)推斷在科學(xué)研究中起到越來(lái)越重要的作用，科學(xué)研究的結(jié)論也越來(lái) 越依賴(lài)于統(tǒng)計(jì)推斷的正確應(yīng)用。目前使用最為廣泛的統(tǒng)計(jì)推斷方法是零假設(shè)檢驗(yàn)(Null hypothesis significance test, NHST)(見(jiàn)Wasserstein & Lazar, 2016 。然而，與NHST 在各個(gè)領(lǐng)域中廣泛使用相伴的是研究者對(duì) NHST 及p 值的誤解和盲目使用，因此可能反而會(huì)帶來(lái)了些消極的后果。例如，p 值被用來(lái)支持不合理且無(wú)法重復(fù)的研究結(jié)果，引起了關(guān)于 NHST 是否適合于科學(xué)研究的爭(zhēng)論。在這個(gè)背景之下，有研究者推薦使用貝葉斯因子替代NHST。

貝葉斯因子(Bayes factor)是貝葉斯統(tǒng)計(jì)(Bayesian statistics)中用來(lái)進(jìn)行模型比較和假設(shè) 檢驗(yàn)的方法。在假設(shè)檢驗(yàn)中，其代表的是當(dāng)前數(shù)據(jù)對(duì)零假設(shè)與備擇假設(shè)支持的強(qiáng)度之間的比率。正如下一節(jié)將要詳述的，貝葉斯因子能夠量化地反映當(dāng)前數(shù)據(jù)對(duì)各個(gè)假設(shè)支持的程度，因此可能更加適用于科研中的假設(shè)檢驗(yàn)。但是，由于貝葉斯因子的統(tǒng)計(jì)原理及實(shí)現(xiàn)相對(duì)復(fù)雜，其在各個(gè)學(xué)科的研究中并未獲得廣泛關(guān)注。例如，雖然早在上世紀(jì) 60 年代已有研究者試圖將貝葉斯因子引入心理學(xué)研究，卻一直未能獲得廣泛使用。

但是，隨著計(jì)算機(jī)運(yùn)算能力的大大提升，貝葉斯統(tǒng)計(jì)在計(jì)算機(jī)等領(lǐng)域獲得了巨大的成功。同時(shí)，研究者們開(kāi)發(fā)出用于貝葉斯統(tǒng)計(jì)的工具，如 WinBUGs 、JAGS 、Stan 等，這些軟件的出現(xiàn)，促進(jìn)貝葉斯方法在各個(gè)研究領(lǐng)域中的使用。在這些貝葉斯統(tǒng)計(jì)相關(guān)的工具中，也有用于計(jì)算貝葉斯因子的工具，如 R 語(yǔ)言中的 BayesFactor。而在心理學(xué)及相關(guān)領(lǐng)域，不少研究者也試圖引入貝葉斯統(tǒng)計(jì)的方法，尤其是在最近大量心理學(xué)研究無(wú)法重復(fù)的背景之。但對(duì)于不少心理學(xué)及相關(guān)領(lǐng)域的研究者來(lái)說(shuō)，使用 R 語(yǔ)言或其他計(jì)算機(jī)語(yǔ)言進(jìn)行貝葉斯因子計(jì)算仍然有一些困難。為解決這一障礙，研究者們進(jìn)一步開(kāi)發(fā)了與商業(yè)統(tǒng)計(jì)軟件 SPSS具有類(lèi)似圖形界面的統(tǒng)計(jì)工具 JASP (https:///, JASP team 2017)，簡(jiǎn)化了貝葉斯因子的計(jì)算。

本文旨在為向心理學(xué)及相關(guān)學(xué)科的研究者介紹貝葉斯因子及其使用。首先本文將介紹貝葉斯因子的原理，及其相對(duì)于傳統(tǒng)假設(shè)檢驗(yàn)中 p 值的優(yōu)勢(shì);再以獨(dú)立樣本 t 檢驗(yàn)為例，介紹了如何使用 JASP 計(jì)算貝葉斯因子，以及如何解讀和報(bào)告其結(jié)果。在此基礎(chǔ)上，討論了貝葉斯因子的不足及應(yīng)用價(jià)值。

1 貝葉斯因子的原理

貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)上的應(yīng)用，因此要理解貝葉斯因子，首先需要理解貝葉斯統(tǒng)計(jì)的原理。

1.1 貝葉斯統(tǒng)計(jì)的簡(jiǎn)介

貝葉斯學(xué)派(Bayesian statistics)與頻率學(xué)派(Frequentist statistics)是統(tǒng)計(jì)學(xué)中主要的兩個(gè)學(xué)派，其最核心的差異在于他們對(duì)于概率(probability)有著不一樣的定義。對(duì)于頻率學(xué)派而言，概率是通過(guò)無(wú)數(shù)次重復(fù)抽樣中頻率(frequency)的預(yù)期值。與之相反，貝葉斯學(xué)派則認(rèn)為，概率是對(duì)一件事情的相信程度，從0 到1 表示人們基于事先所獲得的信息，在多大程度上相信某件事情是真的。由于不同人對(duì)同一事件的相信程度可能不同，因此，貝葉斯學(xué)派的概率是具有主觀性。但貝葉斯學(xué)派的概率卻不是任意的:人們通過(guò)合理的方式，不斷獲取并更新已知信息，可以最終消除主觀性，從而達(dá)成一致。

由于頻率學(xué)派將概率定義為長(zhǎng)期行為表現(xiàn)的結(jié)果，因此要理解頻率學(xué)派的概率，通常需要假想那些尚未發(fā)生的事件。例如，在NHST 框架之下，p 值的意義是假定H0 為真的情況下，出現(xiàn)當(dāng)前結(jié)果及比當(dāng)前結(jié)果更加極端結(jié)果的概率。換句話(huà)說(shuō)，p 值表達(dá)的是:如果以完全相同的條件無(wú)數(shù)次地重復(fù)當(dāng)前實(shí)驗(yàn)，這些實(shí)驗(yàn)中有多少大比例會(huì)出現(xiàn)當(dāng)前結(jié)果模式或者更極端結(jié)果的模式。因此，p 值的意義暗含一個(gè)假設(shè):我們能夠進(jìn)行無(wú)數(shù)次相同的試驗(yàn)。但是實(shí)際上，研究者往往難以理解這種對(duì)未出現(xiàn)的無(wú)數(shù)次相同試驗(yàn)的假定，而誤認(rèn)為 p 值是一次檢驗(yàn)中拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率。這種對(duì)NHST 的誤解，恰好是帶有貝葉斯統(tǒng)計(jì)色彩，即根據(jù)當(dāng)前的數(shù)據(jù)計(jì)算某個(gè)模型正確或錯(cuò)誤的概率。

與頻率學(xué)派統(tǒng)計(jì)不同，貝葉斯統(tǒng)計(jì)最大的特點(diǎn)之一在于:貝葉斯統(tǒng)計(jì)考慮了個(gè)體對(duì)不同可能性的可信度(credibility)，而改變其可信度的，正是人們不斷獲得的數(shù)據(jù)。這種思維方式與人們?cè)谌粘Ｉ钪械慕?jīng)驗(yàn)非常相似:當(dāng)我們不斷地獲得支持某個(gè)觀點(diǎn)的證據(jù)時(shí)，我們會(huì)更加相信該觀點(diǎn)。

雖然貝葉斯統(tǒng)計(jì)對(duì)概率的理解與頻率學(xué)派不同，但是其對(duì)概率的計(jì)算卻嚴(yán)格依照概率的基本原則:加法原則與乘法原則。貝葉斯統(tǒng)計(jì)中最核心的貝葉斯法則(Bayes rule)，也是根據(jù)簡(jiǎn) 單的加法原則與乘法原則推導(dǎo)而來(lái)。依據(jù)概率的乘法原則，隨機(jī)事件A與隨機(jī)事件B 同時(shí)發(fā)生的概率為:

公式1 即為聯(lián)合概率的公式，即隨機(jī)事件A 與隨機(jī)事件B 同時(shí)發(fā)生的概率。其意義為:

隨機(jī)事件 A 與隨機(jī)事件 B 的聯(lián)合概率(p(A∩B))為，在 B 發(fā)生的條件下 A 發(fā)生的概率(p(A|B)) 與 B 發(fā)生的的概率(p(B))的乘積，也等于在 A 發(fā)生的條件下 B 發(fā)生的概率(p(B|A))與事件A 發(fā)生的概率(p(A))的乘積。其中，p(A|B)和 p(B|A)均為條件概率(conditional probability)，二者意義不同。

對(duì)公式 1 進(jìn)行變換，即可以得到如下公式:

公式2 即為貝葉斯定理公式。其代表的意義是，如果我們要計(jì)算隨機(jī)事件 B 發(fā)生的條件下A 發(fā)生的概率(p(A|B))，可以通過(guò)使用 A 與 B 同時(shí)發(fā)生的概率(p(A∩B))除以B 發(fā)生的概率(p(B))，也就等于在 A 發(fā)生的條件下 B 發(fā)生的概率，與A 發(fā)生概率的乘積，再除以 B 發(fā) 生的概率。公式2 將兩個(gè)條件概率聯(lián)系起來(lái)，從而使得計(jì)算不同的條件概率成為可能。

在貝葉斯統(tǒng)計(jì)的框架之下，公式 2 可以看作是一次信息的更新。假定我們需要根據(jù)一次實(shí)驗(yàn)收集到的數(shù)據(jù)(data)來(lái)檢驗(yàn)?zāi)硞€(gè)理論模型為真的可能性。如果我們以心理學(xué)研究中常用的零假設(shè) H0 為例，則可以將公式2 改寫(xiě)如下:

p(H0|data)表示數(shù)據(jù)更新之后理論模型 H0 正確的概率，即后驗(yàn)概率(posterior);p (H0)表示更新數(shù)據(jù)之前認(rèn)為理論模型 H0 正確的概率，即先驗(yàn)概率(prior);而p(data| H0)則是在模型H0之下，出現(xiàn)當(dāng)前數(shù)據(jù)的概率，即邊緣似然性(marginal likelihood)。由此可以看出，在貝葉斯統(tǒng) 計(jì)之中，一次數(shù)據(jù)收集(實(shí)驗(yàn))的主要功能在于幫助我們更新理論模型的可信度。

根據(jù)公式3，我們可以使用數(shù)據(jù)對(duì)任意的模型為真的概率進(jìn)行更新。在假設(shè)檢驗(yàn)中，我們可以根據(jù)觀測(cè)數(shù)據(jù)同時(shí)對(duì)零假設(shè)(理論模型H0)和備擇假設(shè)(理論模型 H1)的可信度進(jìn)行更新(分別見(jiàn)公式3 和公式4)，得到它們更新的后驗(yàn)概率。

在公式6 中，BF10 中下標(biāo)的1，代表的是H1，0 代表的是H0，因此，BF10 即代表的是 H1與H0對(duì)比的貝葉斯因子，而BF01即代表的是H0與H1對(duì)比的貝葉斯因子。例如，BF10 =19表示的是，在在備擇假設(shè)H1為真條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是虛無(wú)假設(shè)H0條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性的19 倍。

從貝葉斯因子的公式中可以看出，貝葉斯因子不依賴(lài)于對(duì)先驗(yàn)假設(shè)(p(H1)和 p(H0))。更重要的是，正是貝葉斯因子根據(jù)當(dāng)前數(shù)據(jù)將先驗(yàn)概率更新為后驗(yàn)概率。

因此，NHST 與貝葉斯因子回答了不同的問(wèn)題。NHST 試圖回答“假定我們已知兩個(gè)變量的關(guān)系(如，兩種條件沒(méi)有差異)，出現(xiàn)當(dāng)前觀測(cè)數(shù)據(jù)的模式或者更加極端模式的概率(p(more extreme > observed data|H0))有多大”的問(wèn)題;而貝葉斯因子試圖回答的是，在當(dāng)前數(shù)據(jù)更可能在哪個(gè)理論模型下出現(xiàn)?？紤]到研究者往往想知道當(dāng)前數(shù)據(jù)模式條件下，H0 或者 H1 為真的概率(分別為 p(H0|data)與 p(H1|data))，在假設(shè)檢驗(yàn)中，貝葉斯因子具有一些 NHST 不具備的優(yōu)勢(shì)，下一小節(jié)將對(duì)這些優(yōu)勢(shì)進(jìn)行詳細(xì)說(shuō)明。

對(duì)貝葉斯因子大小的解讀，在 Jeffreys (1961) 的基礎(chǔ)上，Wagenmakers, et al. (2017) 對(duì)貝葉斯因子的大小所代表的意義進(jìn)行原則上的劃分(見(jiàn)表2)。但是這個(gè)劃分僅是大致參考，不能?chē)?yán)格對(duì)應(yīng)，研究者需要根據(jù)具體的研究來(lái)判斷貝葉斯因子的意義。

1.2 備擇假設(shè)的默認(rèn)先驗(yàn)

由于貝葉斯因子中先驗(yàn)概率具有至關(guān)重要的作用，因此如何選擇備擇假設(shè)的先驗(yàn)分布變成了一個(gè)非常重要的問(wèn)題。其中一個(gè)較為合理的做法是，根據(jù)采用該范式的先前研究(如元分析得到的效應(yīng)量)來(lái)假設(shè)備擇假設(shè)的先驗(yàn)分布。但這種做法在很多情況下并不現(xiàn)實(shí):首先根據(jù)范式的不同，效應(yīng)量的可能分布不同;更重要地，由于許多研究本身具有一定的探索性，并沒(méi)有先前研究結(jié)果作為指導(dǎo)。因此，更加常用的做法是使用一個(gè)綜合的、標(biāo)準(zhǔn)化的先驗(yàn)。

例如，在貝葉斯 t 檢驗(yàn)中，零假設(shè)的先驗(yàn)比較好確定，但是對(duì)于備擇假設(shè)的先驗(yàn)分布應(yīng)該如何選擇，則比較困難。有研究者指出，使用柯西分布(Cauchy distribution)可能是比較合理的選擇。與標(biāo)準(zhǔn)正態(tài)分布相比，柯西分布在 0 附近概率密度相對(duì)更小一些，因此其比標(biāo)準(zhǔn)的正態(tài)允許更多較大的效應(yīng)(見(jiàn)圖 1);而與均勻分布(即效應(yīng)量在所有值上的分布完全相同)相比，柯西分布更偏好零假設(shè)一些。因此，對(duì)于備擇假設(shè)的先驗(yàn)分布，可以如下表示:

Jeffreys (1961)最早提出在貝葉斯因子中使用柯西分布作為先驗(yàn)來(lái)比較兩樣本的問(wèn)題。最近研究者的進(jìn)一步驗(yàn)證表明，柯西分布可以作為先驗(yàn)用于計(jì)算心理學(xué)常規(guī)假設(shè)檢驗(yàn)中的貝葉斯因子，如 t 檢驗(yàn)、ANOVA和相關(guān)分析等。這些驗(yàn)證性的工作，為貝葉斯因子在心理學(xué) 及相關(guān)學(xué)科研究中的應(yīng)用打下了基礎(chǔ)。

2 貝葉斯因子的優(yōu)勢(shì)

如前所述，在假設(shè)檢驗(yàn)中，貝葉斯因子除了更加符合人們的直覺(jué)之外，還具有一些 NHST具備的優(yōu)勢(shì)。這些優(yōu)勢(shì)可以總結(jié)為五個(gè)方面(見(jiàn)表 1)。以下將從這五個(gè)方面展開(kāi)。

2.1 同時(shí)考慮H0和H1

如前所述，貝葉斯因子的計(jì)算同時(shí)考慮 H0 和 H1，并根據(jù)全部現(xiàn)有數(shù)據(jù)對(duì) H0 和 H1 為真的先驗(yàn)概率進(jìn)行更新，在此基礎(chǔ)之上，比較在當(dāng)前數(shù)據(jù)下哪個(gè)理論模型(H0 和 H1)更合理。這種思路與 NHST 不同:在 NHST 框架之下，計(jì)算 p 值需要假定 H0 為真，而對(duì) H1 不做任何假設(shè)，因此p值與H1無(wú)關(guān);NHST的邏輯是，如果H0為真，觀察到當(dāng)前數(shù)據(jù)出現(xiàn)的概率非常小，則拒絕 H0，接受 H1;這種情況下，NHST 忽略了一種可能性:當(dāng)前數(shù)據(jù)下，H1 為真的概率與H0 為真的概率相當(dāng)或者更小。例如，在 Bem (2011)中，H0 是被試的反應(yīng)不受到未來(lái)出現(xiàn) 刺激的影響，H1 是未來(lái)出現(xiàn)的刺激會(huì)影響到被試當(dāng)前反應(yīng)，即被試能夠“預(yù)知”尚未出現(xiàn)的刺激。雖然采用NHST 的邏輯 Bem (2011)得到了 p <>的結(jié)果，即 H0 為真時(shí)，得到當(dāng)前數(shù)據(jù) 的概率(p(data|H0))很低，因此作者選擇拒絕 H0 而接受 H1，認(rèn)為被試能夠預(yù)知未來(lái)出現(xiàn)的刺激。然而，研究者更關(guān)心的是，根據(jù)當(dāng)前數(shù)據(jù)，某個(gè)模型/假設(shè)(如 H1)為真的概率(p(H1|data))，而非零假設(shè) H0 為真時(shí)得到當(dāng)前數(shù)據(jù)的概率(p(data| H0))。考慮到先驗(yàn)知識(shí)告訴我們 H1 本身為真的概率可能非常低，在當(dāng)前數(shù)據(jù)模式下，H1 為真的可能性 p(H1|data)極可能比 H0 為真的可能性 p(H0|data)更低。

此外，p 值等于在 H0 為真的情況下，多次重復(fù)實(shí)驗(yàn)觀察到與當(dāng)前數(shù)據(jù)一樣極端或者更加極端結(jié)果的概率，即 p 值是假定 H0 為真時(shí)概率分布的尾端面積的積分值。因此，對(duì) p 值的理解需要假定存在著比當(dāng)前數(shù)據(jù)更加極端的數(shù)據(jù)模式，而人們?cè)谥庇X(jué)上并不太擅長(zhǎng)做出這種假定，常常會(huì)帶來(lái)對(duì) p 值的誤解。

因此，由于貝葉斯因子分別量化了當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 的支持強(qiáng)度，對(duì) H0 和 H1 同等對(duì)待，而不是像 NHST 一樣完全不考慮 H1。另外，貝葉斯因子不需要假定未出現(xiàn)的數(shù)據(jù)，也更加符合人們的直覺(jué)

2.2 可以用來(lái)支持 H0

同樣，由于同時(shí)量化了當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 各自的支持強(qiáng)度，貝葉斯因子可以用來(lái)支持 H0。在貝葉斯的框架下，只要 H0 和 H1 假設(shè)是具體的，貝葉斯因子就可以根據(jù)當(dāng)前數(shù)據(jù)對(duì)他們的后驗(yàn)概率進(jìn)行一次更新，從而得到當(dāng)前數(shù)據(jù)更支持哪個(gè)假設(shè)的結(jié)果。如果 H0 比 H1 更加符合數(shù)據(jù)的模式，則貝葉斯因子能夠表明當(dāng)前數(shù)據(jù)支持 H1。但是，在傳統(tǒng)的 NHST 框架之下，由于假設(shè)檢驗(yàn)僅在 H0 為真的假設(shè)下進(jìn)行，僅憑借大于顯著性性水平(比如 0.05 或 0.005)的 p值是無(wú)法為 H0 是否為真提供證據(jù)。比如，僅依據(jù)假設(shè)檢驗(yàn)的結(jié)果 p = 0.20 并不能斷言有證據(jù) 表明沒(méi)有效應(yīng)(evidence of absence)(除非結(jié)合樣本量、效應(yīng)量和統(tǒng)計(jì)效力 Power 做出綜合判斷)。

在實(shí)際的研究中，能夠?qū)?nbsp;H0 提供量化的證據(jù)具有非常重要的意義，它可以直觀地讓研究者區(qū)分出有證據(jù)表明沒(méi)有效應(yīng)(evidence of absence)和沒(méi)有證據(jù)表明有效應(yīng)(absence of evidence)這兩種情況。更具體來(lái)說(shuō)，貝葉斯因子的結(jié)果有三種狀態(tài):(1)提供了支持 H1 的證據(jù)(即有證據(jù)表明有效應(yīng));(2)支持 H0 的證據(jù)(即有證據(jù)表明沒(méi)有效應(yīng));或(3)證據(jù)對(duì) 兩者都不支持(沒(méi)有足夠的證據(jù)表明有效應(yīng)還是無(wú)效應(yīng))。例如，零假設(shè)與備擇假設(shè)相比的貝葉斯因子BF01 =15，則說(shuō)明的是在這種情況下，觀察到的數(shù)據(jù)出現(xiàn)在H0為真情況下的可能性是在 H1 為真情況下的可能性的 15 倍，表明當(dāng)前數(shù)據(jù)更加支持沒(méi)有效應(yīng)的假設(shè) H0。但是，假如 BF01 = 1.5，則說(shuō)明觀察到的數(shù)據(jù)出現(xiàn)在 H0 為真情況下的可能性是在 H1 為真情況下的可能性的 1.5 倍，則說(shuō)明當(dāng)前數(shù)據(jù)對(duì)于兩個(gè)假設(shè)的支持程度相當(dāng)，沒(méi)有足夠的證據(jù)支持 H0 或者 H1(見(jiàn)表 2 關(guān)于貝葉斯因子大小意義的建議)。

值得注意的是，不管是支持 H1，還是支持 H0，貝葉斯因子提供的證據(jù)是相對(duì)的，即，相對(duì)于某個(gè)假設(shè)更支持另一個(gè)假設(shè)，但可能存在第三個(gè)模型 H2 比 H1 和 H0 均更接近真實(shí)情況，具有更高的后驗(yàn)概率。此外，最近有研究者在 NHST 框架之下發(fā)展出可以接受零假設(shè)的方法: 等同性檢驗(yàn)(Equivalence Test)。這種方法通過(guò)設(shè)定多個(gè) H0 來(lái)檢驗(yàn)效應(yīng)量是否與 0 沒(méi)有差異，

從而檢驗(yàn)是否能接受 H0。但等同性檢驗(yàn)仍然使用了非常主觀的 p 值，無(wú)法提供對(duì)證據(jù)的測(cè)量。

2.3 不“嚴(yán)重”地傾向于反對(duì) H0

貝葉斯因子同時(shí)分別量化了當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 支持的強(qiáng)度，因此，與傳統(tǒng) NHST 相比，其在比較數(shù)據(jù)對(duì) H0 和 H1 的支持強(qiáng)度時(shí)更加均衡，從而其拒絕 H0 的傾向也相對(duì)沒(méi)有那么強(qiáng)烈。

事實(shí)上，在傳統(tǒng) NHST 假設(shè)之下，研究者總能拒絕 H0。例如，有研究者分析了美國(guó)總結(jié)選舉中候選人的身高與當(dāng)選之間的關(guān)系，對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)之后發(fā)現(xiàn) r = 0.39，p = .007，但使用貝葉斯因子分析表明 BF10 = 6.33。雖然兩種方法大致上支持了同樣的結(jié)論(即拒絕 H0 與中等程度的證據(jù)支持 H1)。但是從 p 值上看，似乎表明拒絕 H0 的證據(jù)很強(qiáng)，而貝葉斯因子得到的支持則是有保留的。Wetzels, et al. 比較了 855 個(gè) t 檢驗(yàn)的結(jié)果，發(fā)現(xiàn)雖然大部分的情況下 p 值與貝葉斯因子在結(jié)論上是一致的，但是貝葉斯因子相對(duì)來(lái)說(shuō)更加謹(jǐn)慎:p 值在0.01 與 0.05 之間的統(tǒng)計(jì)顯著結(jié)果，其對(duì)應(yīng)的貝葉斯因子只表明有非常弱的證據(jù)。對(duì)傳統(tǒng) p 值的貝葉斯解讀，詳見(jiàn)。

2.4 可以監(jiān)控證據(jù)的強(qiáng)度變化

計(jì)算貝葉斯因子時(shí)，可以根據(jù)數(shù)據(jù)更新對(duì) H0 和 H1 支持的程度，因此，隨著新數(shù)據(jù)的出現(xiàn)，可以不斷對(duì)不同假設(shè)的支持程度進(jìn)行更新。在貝葉斯框架之下，貝葉斯因子的計(jì)算與解讀均不需要假定存在無(wú)數(shù)的重復(fù)實(shí)驗(yàn)，而是按照似然性法則對(duì)貝葉斯因子進(jìn)行更新，此外數(shù)據(jù)的出現(xiàn) 順序不會(huì)影響貝葉斯因子的解讀。

正是由于在貝葉斯統(tǒng)計(jì)的框架之下，沒(méi)有假陽(yáng)性的概念，因此，對(duì)貝葉斯因子的解讀不會(huì) 受到何時(shí)停止收集數(shù)據(jù)的影響。實(shí)際上，如果研究者們能夠采用序列貝葉斯因子設(shè)計(jì)，在實(shí) 驗(yàn)開(kāi)始前提前設(shè)置貝葉斯因子的合理閾值(通常是 10，即較強(qiáng)的證據(jù))，則能夠在實(shí)驗(yàn)中根據(jù) 數(shù)據(jù)增加對(duì)后驗(yàn)概率進(jìn)行更新，可以在適當(dāng)?shù)臅r(shí)候停止收集數(shù)據(jù)。這種不受到停止規(guī)則影響的原則，對(duì)實(shí)際研究具有重要的意義，使得研究者能合理有效地收集數(shù)據(jù)。

2.5 不受抽樣計(jì)劃的影響

由于貝葉斯因子的計(jì)算使用似然性原則，其對(duì)數(shù)據(jù)的分析沒(méi)有預(yù)先的假設(shè)，因此也不受到抽樣計(jì)劃的影響。換句話(huà)說(shuō)，即使研究者對(duì)數(shù)據(jù)收集的過(guò)程不清楚，仍能夠計(jì)算和解讀貝葉斯因子。這個(gè)特點(diǎn)對(duì)于分析自然情境中獲得的數(shù)據(jù)非常實(shí)用。

仍然以上述的美國(guó)總結(jié)選舉中候選人的身高與當(dāng)選之間關(guān)系的研究為例，研究者發(fā)現(xiàn) r = 0.39，p = .007。在 NHST 框架之下，要對(duì) p 值進(jìn)行合理的解讀，我們必須假定 p 值是實(shí)驗(yàn) 者在總統(tǒng)選舉之前已經(jīng)計(jì)劃好進(jìn)行 46 次選舉，并且在第 46 次選舉后停止收集數(shù)據(jù)，在此基礎(chǔ) 之上計(jì)算相關(guān)系數(shù);否則，p = 0.007 代表的意義很難解讀。但很明顯的是，這些假設(shè)是不成立的。因此，對(duì)于這個(gè)例子來(lái)說(shuō)，使用 NHST 的前提條件是不滿(mǎn)足的。

同樣，這個(gè)例子也存在與停止規(guī)則相關(guān)的問(wèn)題:在真實(shí)的生活中，美國(guó)的總統(tǒng)選舉還會(huì)繼續(xù)，數(shù)據(jù)會(huì)繼續(xù)增加。如何分析未來(lái)的這些數(shù)據(jù)呢?如果每新增加一個(gè)數(shù)據(jù)均進(jìn)行一次 NHST分析，則會(huì)引起多重比較的問(wèn)題，使得假陽(yáng)性增加。

與 NHST 相反，貝葉斯因子能夠隨著新數(shù)據(jù)不斷地出現(xiàn)而不斷地更新，從而能夠分析實(shí)驗(yàn) 室之外的真實(shí)數(shù)據(jù)，也能夠?qū)?shù)據(jù)進(jìn)行有意義的解讀。因此，在這個(gè)例子，數(shù)據(jù)隨著時(shí)間慢慢積累，貝葉斯因子實(shí)時(shí)監(jiān)控證據(jù)的優(yōu)勢(shì)與不受抽樣計(jì)劃影響的優(yōu)勢(shì)也相互關(guān)聯(lián)起來(lái):這兩個(gè)優(yōu) 勢(shì)均是因?yàn)樨惾~斯因子不依賴(lài)于研究者收集數(shù)據(jù)的意圖。但是，正如我們?cè)诤竺嬉岬降模m然隨著數(shù)據(jù)更新而更新貝葉斯因子不會(huì)影響到對(duì)其解讀，但這種忽略假陽(yáng)性的做法并不能避免假陽(yáng)性的升高，研究者仍需要通過(guò)提前設(shè)置合理的閾值和(或)選擇合適的先驗(yàn)來(lái)控制假陽(yáng)性。

總之，貝葉斯因子以觀察到的數(shù)據(jù)為條件，定量地分析當(dāng)前數(shù)據(jù)對(duì) H0 和 H1 提供的支持程度。通過(guò)實(shí)時(shí)地監(jiān)控證據(jù)強(qiáng)度的變化，貝葉斯因子讓研究者可以在收集數(shù)據(jù)的同時(shí)監(jiān)控證據(jù)強(qiáng) 度的變化。如果預(yù)先確定貝葉斯因子的停止閾值(比如 BF10 大于 10 或者 BF10 小于 1/10 時(shí)停止收集數(shù)據(jù))，研究者能夠在證據(jù)足夠充足停止收集數(shù)據(jù)。此外，即使缺乏數(shù)據(jù)收集計(jì)劃信息的情況下，貝葉斯因子仍然能夠從觀測(cè)數(shù)據(jù)中得到證據(jù)來(lái)更加支持哪個(gè)假設(shè)。更重要的是，貝葉斯因子本質(zhì)上是對(duì)不同的模型的進(jìn)行比較，因此其不需要假定某個(gè)模型為真。

3 使用 JASP 計(jì)算貝葉斯因子

由于貝葉斯因子的獨(dú)特優(yōu)勢(shì)，因此很早就有研究者將其引入心理學(xué)的研究之中。在實(shí)際情況中，貝葉斯因子計(jì)算的具體公式會(huì)隨著數(shù)據(jù)類(lèi)型和分析的類(lèi)型而變得更加復(fù)雜，相關(guān)公式可以參考。正是由于這個(gè)原因，貝葉斯因子在心理學(xué)的研究中一直受到很大的限制。但是最近，研究者利用 R 語(yǔ)言豐富的軟件包，開(kāi)發(fā)了可視化的統(tǒng)計(jì)工具 JASP (https://jasp- stats.org/)，該軟件采用與SPSS 類(lèi)似的用戶(hù)界面，讓貝葉斯因子的計(jì)算變得更加容易實(shí)現(xiàn)，本小節(jié)將介紹 JASP 軟件及其使用。

3.1 JASP 軟件簡(jiǎn)介

JASP 是一個(gè)免費(fèi)、開(kāi)源的統(tǒng)計(jì)軟件，其使用 R 語(yǔ)言的工具包進(jìn)行數(shù)據(jù)處理，但其使用不需要安裝 R。JASP 的長(zhǎng)期目標(biāo)是讓所有人能夠通過(guò)免費(fèi)的統(tǒng)計(jì)軟件進(jìn)行最先進(jìn)統(tǒng)計(jì)技術(shù)，尤其是貝葉斯統(tǒng)計(jì)中的貝葉斯因子。

JASP 是在心理學(xué)研究面臨可重復(fù)危機(jī)的背景下開(kāi)發(fā)的，其開(kāi)發(fā)理念如下:第一，開(kāi)源與免費(fèi)，因?yàn)橥该鲬?yīng)該是科學(xué)研究的本質(zhì)元素;第二，包容性，即包括貝葉斯分析，也包括NHST分析方法，而且NHST 分析方法中，增加了對(duì)效應(yīng)量及其置信區(qū)間的輸出;第三，簡(jiǎn)潔性，即JASP 的基本軟件中僅包括最常用的分析，而更高級(jí)的統(tǒng)計(jì)方法又可以通過(guò)插件模塊進(jìn)行補(bǔ)充;第四，友好的圖形界面，例如，輸出部分隨著用戶(hù)選擇變量輸入而實(shí)時(shí)更新，表格使用心理學(xué)學(xué)術(shù)論文的標(biāo)準(zhǔn)格式APA 格式。同時(shí)，JASP 的使用遞進(jìn)式輸出，即默認(rèn)的結(jié)果輸出是最簡(jiǎn)潔的，更多的結(jié)果輸出可以由研究者自己進(jìn)行定義。此外，為方便公開(kāi)和分享分析過(guò)程，JASP將輸入的數(shù)據(jù)與輸出結(jié)果保存于同一個(gè)后綴為.jasp 的文件之中，每個(gè)分析的結(jié)果均與相應(yīng)的分析和變量數(shù)據(jù)相關(guān)聯(lián)。這種結(jié)果與數(shù)據(jù)整合的文件可以與開(kāi)放科學(xué)平臺(tái) OSF 兼容，從而做到數(shù)據(jù)與結(jié)果分享。

3.2 貝葉斯因子分析在JASP 的實(shí)現(xiàn)及其結(jié)

果解讀

JASP 中可以實(shí)現(xiàn)多種實(shí)驗(yàn)設(shè)計(jì)的貝葉斯因子分析，包括單樣本 t 檢驗(yàn)、獨(dú)立樣本 t 檢驗(yàn)、配對(duì)樣本 t 檢驗(yàn)、方差分析、重復(fù)測(cè)量的方差分析、ANCOVA 和相關(guān)分析。對(duì)于每一種分析，均提供了頻率學(xué)派的方法和貝葉斯的方法。JASP 的貝葉斯因子分析中采用前述的默認(rèn)先驗(yàn)分布，但也可以修改。接下來(lái)本文將 Wagenmakers et al. (2015, https:///uszvx/)對(duì) Topolinski and Sparenberg (2012) 的重復(fù)實(shí)驗(yàn)數(shù)據(jù)為例進(jìn)行分析，說(shuō)明如何使用 JASP 進(jìn)行獨(dú)立樣本 t 檢驗(yàn)。其他常用貝葉斯因子分析，可以進(jìn)一步參考 Wagenmakers et al. (2017)。

在 Topolinski and Sparenberg (2012) 的第二個(gè)實(shí)驗(yàn)中，一組被試以順時(shí)針?lè)较虬蝿?dòng)一個(gè)廚房用的鐘，而另一組則以逆時(shí)針?lè)较驌軇?dòng)。隨后，被試填寫(xiě)一個(gè)評(píng)估經(jīng)驗(yàn)開(kāi)放性的問(wèn)卷。他們的數(shù)據(jù)表明，被試順時(shí)針轉(zhuǎn)時(shí)比逆時(shí)針轉(zhuǎn)的被試報(bào)告更高的對(duì)經(jīng)驗(yàn)的開(kāi)放性 (但是見(jiàn) Francis,2013 )。Wagenmakers, et al. (2015) 采用提前注冊(cè)(preregistration)的方式對(duì)該研究進(jìn)行重復(fù)，在實(shí)驗(yàn)開(kāi)始前確定停止收集數(shù)據(jù)的標(biāo)準(zhǔn):當(dāng)支持某一個(gè)假設(shè)的貝葉斯因子達(dá)到 10 時(shí)即停止收集數(shù)據(jù)，或者每條件下達(dá)到 50 個(gè)樣本后停止收集數(shù)據(jù)。此外，預(yù)注冊(cè)時(shí)采用單側(cè) t 檢驗(yàn)的默認(rèn)先驗(yàn)，即 r = 1 的柯西分布。而單側(cè)的 t 檢驗(yàn)的先驗(yàn)是只有正效應(yīng)的柯西分布，即備擇假設(shè)為 H+ : Cauchy (0, 1)。

有研究者認(rèn)為，默認(rèn)先驗(yàn)分布 Cauchy (0, 1)是不現(xiàn)實(shí)的，因?yàn)樵谶@個(gè)分布中，大的效應(yīng)量占的比例太大(大于 1 的效應(yīng)量在分布中占了 50%以上);相反，另一些人覺(jué)得這個(gè)分布不現(xiàn)實(shí) 是因?yàn)檫@個(gè)分布中，靠近 0 的效應(yīng)量的比重太大，即效應(yīng)量為 0 是最可能的值。一個(gè)避免這些問(wèn)題的做法是減小柯西分布的參數(shù) r。在 BayesFactor 工具包中，默認(rèn)采用的

JASP 中對(duì)于單側(cè)的 t 檢驗(yàn)同樣采用這個(gè)先驗(yàn)。r 減小意味著H1 和H0 相似，他們對(duì)觀測(cè)數(shù) 據(jù)的預(yù)測(cè)相似，更難得到支持H0 的強(qiáng)證據(jù)。

使用 JASP 可以對(duì)這批數(shù)據(jù)進(jìn)行貝葉斯的獨(dú)立樣本 t 檢驗(yàn)。首先用JASP 打開(kāi)數(shù)據(jù)(File →Examples→“Kitchen Rolls”，或者從 https:///9r423/下載后，點(diǎn)擊 File→Open)，然后在 T- tests 的面板中選擇“Bayesian Independent Samples T-test”。將顯示如圖 1 中間圖所示的對(duì)話(huà)框。我們已經(jīng)將“mean NEO”作為因變量(dependent variable)，“Rotation”作為分組變量(grouping variable)。勾選了“Descripitves”、“prior and posterior”及其子選項(xiàng)“Additional info”之后，結(jié) 果如圖 4 右邊的所示:與順時(shí)針相比，逆時(shí)針對(duì)經(jīng)驗(yàn)的開(kāi)放性稍微高一些，這個(gè)結(jié)果的方向與Topolinski and Sparenberg (2012)所假設(shè)的正好相反。

如果將Cauchy先驗(yàn)的寬度設(shè)置為JASP的默認(rèn)值r=0.707，同時(shí)勾選了“Prior and posterior”及其子選項(xiàng)的“Additional info”這兩個(gè)選項(xiàng)，結(jié)果如圖 2 右側(cè)所示。從實(shí)線(xiàn)的分布可以看出，大部分的后驗(yàn)概率是負(fù)值，其的中值是-0.13，95%的可信區(qū)間從-0.5到0.23。BF01 =3.71，表明觀察到的數(shù)據(jù)在 H0 假設(shè)之下的可能性是在 H1 假設(shè)之下可能性的 3.71 倍(我們選擇了 BF01，因?yàn)?nbsp;BF01=3.71 相對(duì)于等價(jià)的 BF10=0.27 來(lái)說(shuō)更好解釋)。

通過(guò)這個(gè)初步的展示，我們可以了解到如何進(jìn)行貝葉斯獨(dú)立樣本 t 檢驗(yàn)的操作。接下來(lái)展示如何按照提前注冊(cè)過(guò)的方法，對(duì)這批數(shù)據(jù)進(jìn)行貝葉斯單側(cè)獨(dú)立樣本 t 檢驗(yàn)(除使用 r = 0.707而非 1 外)。由于描述性統(tǒng)計(jì)輸出表明順時(shí)針是組 1 而逆時(shí)針是組 2，我們將在”Hypothesis”的面板處勾選“group 1 > group 2”，正如圖 3 中間所示。

單側(cè)檢驗(yàn)的結(jié)果如圖 3 右邊部分所示。與預(yù)期的一致，如果觀察到的效應(yīng)是與假設(shè)相反，則這種使用單側(cè)檢驗(yàn)將先驗(yàn)知識(shí)整合到分析之中的做法，增加支持 H0 的相對(duì)證據(jù)(也見(jiàn) Matzke et al. (2015) )，即貝葉斯因子 BF01 從 3.71 增加到了 7.74，意味著觀察到的數(shù)據(jù)在 H0 下的可能是在 H+可能性的 7.74 倍。

值得注意的是，在 H+下的后驗(yàn)分布是集中在 0 但不是沒(méi)有負(fù)值(見(jiàn)圖 3 右側(cè))，與 H+中的順序限制是一致的。這一點(diǎn)與傳統(tǒng)頻率主義的單側(cè)置信區(qū)間不同，傳統(tǒng)方法的單尾置信區(qū)間為[-.23 +∞) 。雖然傳統(tǒng)頻率主義的區(qū)間在數(shù)學(xué)上是良好定義的(即，它包括了全部的不會(huì)被單尾的 a = 0.05 顯著性檢驗(yàn)拒絕的值)，但是大部分研究者會(huì)發(fā)現(xiàn)這個(gè)區(qū)間即不好理解也沒(méi)有信息量。

除了計(jì)算貝葉斯因子外，JASP還可以進(jìn)行穩(wěn)健性分析(Baye sian robustness check)，從而量化柯西先驗(yàn)分布參數(shù) r 對(duì)貝葉斯因子的影響。如圖 4 所示，選中“Bayes factor robustness check”的選項(xiàng)，這將得到圖 4 右側(cè)上面的圖。從該圖可以看到，當(dāng) Cauchy 先驗(yàn)的 r 為 0 時(shí)，H0 與 H+相同(BF0+=1)，BF0+隨著r的增加而增加。在JASP的默認(rèn)值r=0.707，貝葉斯因子BF0+ =7.73;而對(duì)于Jeffrey默認(rèn)的r=1，貝葉斯因子BF0+ =10.75。因此，在一系列r的先驗(yàn)值中，當(dāng)前數(shù)據(jù)顯示了對(duì) H0 的中等到強(qiáng)的證據(jù)支持。

此外，還可以勾選圖 4 中間的部分的“Sequential analysis”及其子選項(xiàng)“Robustness check”，進(jìn) 行序列分析。其結(jié)果見(jiàn)圖 4 右側(cè)下半部分的圖。序列分析顯示的是貝葉斯因子隨著著抽樣而變化的結(jié)果，也就是說(shuō)，研究都可以在新數(shù)據(jù)收集到時(shí)對(duì)證據(jù)的積累進(jìn)行監(jiān)控和可視化。從圖中可以看到，實(shí)際上 Wagenmakers et al. (2015)并未按預(yù)注冊(cè)時(shí)的 r = 1 先驗(yàn)來(lái)計(jì)算 BF0+并在 BF0+ > 10 或者 BF+0 > 10 時(shí)立刻停止收集數(shù)據(jù): 在 55 個(gè)被試之后，虛線(xiàn)超過(guò)了 BF0+ > 10，但是數(shù)據(jù) 仍然繼續(xù)收集。在實(shí)踐中，每隔幾天檢驗(yàn)一次貝葉斯因子，有助于了解貝葉斯因子是否在某個(gè)時(shí)間點(diǎn)上超過(guò)預(yù)先決定的標(biāo)準(zhǔn)，并據(jù)此決定是否停止數(shù)據(jù)。

序列分析的一個(gè)優(yōu)點(diǎn)是它可視化了貝葉斯因子在不同先驗(yàn)條件下的收斂過(guò)程，即貝葉斯因子在 log 尺度上差異開(kāi)始穩(wěn)定不變 (e.g.)。在當(dāng)前的例子中，當(dāng)被試數(shù)量達(dá)到 35 時(shí)，不同先驗(yàn)下的貝葉斯因子開(kāi)始出現(xiàn)收斂。要理解為什么在貝葉斯因子的 log 值的差異會(huì)在一些初步的觀測(cè)數(shù)據(jù)之后不再變化，我們可以假定數(shù)據(jù) y 包括兩個(gè)部分 y1 和 y2，根據(jù)條件概率公式，BF0+ (y) = BF0+ (y1) × BF0+ (y2|y1)。這個(gè)公式表明，貝葉斯因子并非是對(duì)不同數(shù)據(jù)進(jìn)行盲目地相乘，實(shí)際上公式中的第二個(gè)因子——BF0+(y2|y1) —— 反映的是:當(dāng)先驗(yàn)分布已經(jīng)根據(jù)數(shù) 據(jù) y1 進(jìn)行更新后，數(shù)據(jù) y2 對(duì)貝葉斯因子再次更新 (Jeffreys, 1961, p. 333)。對(duì)這個(gè)公式進(jìn)行log 轉(zhuǎn)換后，得到 log(BF0+ (y)) = log(BF0+ (y1)) + log(BF0+ (y2|y1))。假定數(shù)據(jù) y1 包括了足夠的信息，不管 r 如何變化，通過(guò) y1 更新后均得到大致相同的結(jié)果分布(在大部分情況下，這種情況很快就會(huì)出現(xiàn))。而通過(guò) y1 得到的這個(gè)后驗(yàn)分布，又變成了數(shù)據(jù) y2 的先驗(yàn)分布，即成為log(BF0+(y2|y1))的先驗(yàn)。在這種情況下，log(BF0+(y2|y1))的值大致相似(相似的先驗(yàn)分布，相同的數(shù)據(jù))。因此，不一樣的 r 值會(huì)讓數(shù)據(jù) y1 產(chǎn)生不同的后驗(yàn)分布，但當(dāng)數(shù)據(jù) y1 是足夠的大后，使得 y1 的后驗(yàn)分布大致相似，此時(shí) y2 再次對(duì)模型進(jìn)行更新的大小也是相似，這就使得log(BF0+(y2|y1))在不同的 r 下相似，產(chǎn)生收斂的現(xiàn)象。

3.3 使用貝葉斯因子時(shí)如何報(bào)告

貝葉斯統(tǒng)計(jì)在目前的心理學(xué)研究中并不常見(jiàn)。雖然大部分雜志的編輯和審稿人會(huì)欣賞采用更加合理的統(tǒng)計(jì)手段，但是出于對(duì)貝葉斯方法的陌生，研究者需使用貝葉斯因子時(shí)，需要提供相關(guān)的背景信息讓編輯和審稿人了解這種背景。因此，除了報(bào)告貝葉斯因子的結(jié)果之外，還需要首先報(bào)告如下幾點(diǎn)。第一、選用貝葉斯因子的動(dòng)機(jī)與原因，即為什么在某個(gè)報(bào)告中使用貝葉斯因子而不是 NHST。例如，可以說(shuō)明貝葉斯因子提供了更加豐富的信息，或者數(shù)據(jù)特點(diǎn)不滿(mǎn)足 NHST 的前提假設(shè)(如在自然情境下收集的數(shù)據(jù)，無(wú)法判斷數(shù)據(jù)收集的動(dòng)機(jī)和實(shí)驗(yàn)假設(shè))。第二、描述貝葉斯因子在模型比較中的基本邏輯。即，假定讀者并不非常了解貝葉斯因子，簡(jiǎn) 單地解釋貝葉斯因子中模型比較的思想。第三、描述貝葉斯因子分析中的先驗(yàn)分布以及采用該先驗(yàn)的原因，先驗(yàn)分布應(yīng)該或多或少對(duì)數(shù)據(jù)分析提供一些信息。第四、解釋貝葉斯因子，將貝葉斯因子與研究中的理論或假設(shè)結(jié)合起來(lái)。

貝葉斯因子不使用統(tǒng)計(jì)顯著，而是描述數(shù)據(jù)對(duì)假設(shè)的支持程度。例如，在 Wagenmakers, et al. 中，對(duì)Jeffreys 默認(rèn)先驗(yàn)下的貝葉斯結(jié)果進(jìn)行如下描述:

“貝葉斯因子為 BF01 = 10.76，說(shuō)明在(假定沒(méi)有效應(yīng)的)零假設(shè)下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是在(假定存在效應(yīng)的)備擇假設(shè)下可能性的 10.76 倍。根據(jù) Jeffreys (1961)提出的分類(lèi)標(biāo)準(zhǔn)，這是較強(qiáng)的證據(jù)支持了零假設(shè)，即在順時(shí)針和立逆時(shí)針轉(zhuǎn)鐘表指針的人在經(jīng)驗(yàn)開(kāi)放性(NEO) 得分上沒(méi)有差異。”

此外，使用貝葉斯因子進(jìn)行分析時(shí)，還可以報(bào)告探索性的結(jié)果，如穩(wěn)健性分布和序列分析的結(jié)果，這些結(jié)果將進(jìn)一步豐富結(jié)果的信息，給其他研究者提供更加全面的結(jié)果。

4 總結(jié)與展望

近年來(lái)，科學(xué)研究的可重復(fù)問(wèn)題備受關(guān)注，尤其是心理學(xué)，對(duì) NHST 的過(guò)度依賴(lài)正是原因之一。貝葉斯因子作為一種假設(shè)檢驗(yàn)方法，具有 NHST 不具備的一些優(yōu)勢(shì)，其能夠?qū)Ξ?dāng)前心理學(xué)研究中對(duì) NHST 框架下的 p 值的過(guò)度依賴(lài)起到補(bǔ)充的作用。但是值得注意的是，心理學(xué)研究重復(fù)失敗的原因多種多樣，僅使用貝葉斯因子不能讓心理學(xué)的研究變得可重復(fù)。例如數(shù)據(jù)不開(kāi)放以及研究過(guò)程不透明、對(duì)探索性分析與驗(yàn)證性分析不加區(qū)分、以發(fā)表論文為核心的獎(jiǎng)勵(lì)體系等都可能是造成當(dāng)前研究可重復(fù)率低的原因。即便如此，作為一種不同于傳統(tǒng) NHST 的方法，貝葉斯因子有助于研究者使用多種的方法對(duì)同一研究進(jìn)行分析，從而得到更加穩(wěn)定的統(tǒng)計(jì)的推斷，得到更加客觀的結(jié)論。需要指出的是，采用多種方法進(jìn)行分析時(shí)，需要報(bào)告全部的分析過(guò)程和結(jié)果，而非選擇最有利于自己結(jié)論的分析結(jié)果進(jìn)行報(bào)告。

4.1 貝葉斯因子的不足

貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)方面的應(yīng)用，而貝葉斯學(xué)派與頻率學(xué)派統(tǒng)計(jì)的爭(zhēng)議一直存在。實(shí)際上，有研究者認(rèn)為貝葉斯因子也可能存在許多問(wèn)題，充分了解這些反對(duì)的觀點(diǎn)，將更加有利于我們?cè)谘芯恐泻侠淼厥褂秘惾~斯因子。

對(duì)貝葉斯因子最強(qiáng)烈的質(zhì)疑來(lái)自于對(duì)其先驗(yàn)概率的設(shè)定，可能會(huì)認(rèn)為先驗(yàn)概率過(guò)于主觀、過(guò)于保守從而不容易出現(xiàn)較強(qiáng)的證據(jù)等。也有研究者認(rèn)為，默認(rèn)的先驗(yàn)對(duì)小的效應(yīng)不利。例如，Bem, et al. 認(rèn)為，Wagenmakers, et al. 對(duì) Bem的數(shù)據(jù)進(jìn)行重新分析時(shí)，采用了不合適的先驗(yàn)概率是 Wagenmakers, et al. 未能得到與 Bem一致結(jié)論的原因。這種批評(píng)實(shí)質(zhì)上是對(duì)貝葉斯因子的誤用，即未將先驗(yàn)知識(shí)轉(zhuǎn)化成為合適的先驗(yàn)概率。有趣的是，只要研究者將自己使用的先驗(yàn)概率保持透明與公開(kāi)，其他研究者可以采用交叉驗(yàn)證，從而起到充分探索的作用。

其次，也有研究者認(rèn)為，貝葉斯因子沒(méi)有考慮假陽(yáng)性的問(wèn)題。在 NHST 框架之下，研究者非常強(qiáng)調(diào)控制一類(lèi)錯(cuò)誤與二類(lèi)錯(cuò)誤的問(wèn)題。例如心理學(xué)研究中一般將一類(lèi)錯(cuò)誤控制在 5%以?xún)?nèi)，因此顯著性水平設(shè)置為 0.05。也正是需要控制一類(lèi)錯(cuò)誤，NHST 框架之下有許多方法用來(lái)調(diào)整閾值使其一類(lèi)錯(cuò)誤率不至于太高，例如直接提高顯著性水平閾限到 0.005和多重比較校正的方法。而貝葉斯統(tǒng)計(jì)主要是為了不斷地對(duì)證據(jù)的強(qiáng)度進(jìn)行測(cè)量，其不考慮控制假陽(yáng)性(即一類(lèi)錯(cuò)誤)的問(wèn)題。因此，當(dāng)研究者基于貝葉斯因子進(jìn)行決策(效應(yīng)是否存在)時(shí)，就可能犯下一類(lèi)錯(cuò)誤。因此，在實(shí)際的貝葉斯因子分析中，可以通過(guò)先驗(yàn)來(lái)解決多重比較的問(wèn)題。例如，直接說(shuō)明研究者預(yù)期假陽(yáng)性率有多大。

還有研究者指出，基于估計(jì)的統(tǒng)計(jì)總是要比假設(shè)檢驗(yàn)更優(yōu)，因?yàn)楣烙?jì)本身將不確定性考慮進(jìn)來(lái)。例如，Cumming (2014) 建議使用效應(yīng)量及其置信區(qū)間以替代 p 值。但是考慮到參數(shù) 估計(jì)與假設(shè)檢驗(yàn)在科研中均有其相應(yīng)最適用的問(wèn)題，因此貝葉斯因子無(wú)法直接與基于估計(jì)的頻率主義學(xué)派統(tǒng)計(jì)進(jìn)行比較。但是，貝葉斯統(tǒng)計(jì)中，也有基于估計(jì)的方法。

最后，貝葉斯因子進(jìn)行假設(shè)檢驗(yàn)，本質(zhì)上是證據(jù)的不斷累積，而非得到二分的結(jié)論。因此，一次實(shí)驗(yàn)的結(jié)果可以被看作是試探性的，研究者可以繼續(xù)收集數(shù)據(jù)或者進(jìn)行重復(fù)實(shí)驗(yàn)。

4.2 貝葉斯因子的應(yīng)用前景

貝葉斯因子作為基于貝葉斯統(tǒng)計(jì)的假設(shè)檢驗(yàn)方法，與 NHST 相比具有一些優(yōu)勢(shì)，其使得研究者可以直接檢驗(yàn)數(shù)據(jù)是否支持零假設(shè)，不再受抽樣意圖和停止收集數(shù)據(jù)標(biāo)準(zhǔn)的影響，從而更加靈活地進(jìn)行數(shù)據(jù)分析。這些優(yōu)勢(shì)可能幫助心理學(xué)家更好地在研究過(guò)程中進(jìn)行決策，同時(shí)，貝葉斯因子的采用也可以促進(jìn)研究者去更加深入地理解貝葉斯方向的適用范圍以及前提條件等。

JASP 的推出，使用貝葉斯因子的計(jì)算和解讀變得更加簡(jiǎn)便，研究者即便沒(méi)有很強(qiáng)的編程基礎(chǔ)，也能夠使用 JASP 迅速地進(jìn)行貝葉斯因子分析。這可能有助于推動(dòng)研究者研究中更加廣泛地使用貝葉斯因子。此外，JASP 本身正在快速發(fā)展，其功能的深度和廣度正在不斷地?cái)U(kuò)大，新的方法和標(biāo)準(zhǔn)將不斷地整合到軟件之中，可能使研究者更科學(xué)地進(jìn)行研究。

參考文獻(xiàn)：略

原文鏈接：http://www./abs/201709.00120，歡迎各位讀者留言評(píng)論（注: ChinaXiv是沒(méi)有經(jīng)過(guò)同行評(píng)議的預(yù)印本【working paper】）

編輯：潘雨張柏楊

· · · · · ·

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱(chēng)45199333 > 《教育學(xué)習(xí)知識(shí)思想》

舉報(bào)/認(rèn)領(lǐng)