提起P值,每位對(duì)科研稍有涉及的人,基本都知道P<0.05意味著差異有顯著性。如果繼續(xù)深究,差異顯著性的意義是什么?大都會(huì)滿臉迷茫,以一種像是回答又像是詢問(wèn)的口氣說(shuō)道,是概率吧? 就在我們對(duì)P值究竟為何物還一頭霧水,且還帶著一絲盲目崇拜的時(shí)候,有些大牛開(kāi)始質(zhì)疑P值的價(jià)值,認(rèn)為P值并沒(méi)有大家所認(rèn)為的那樣可信。甚至,類似“P值已死”的觀點(diǎn)還不時(shí)冒出來(lái),掀起一陣陣的爭(zhēng)論浪潮。 P值從問(wèn)世到現(xiàn)在,已經(jīng)近百年。我們信了100年,用了100年。在我們的意識(shí)里,能經(jīng)得起時(shí)間考驗(yàn)的,都是真理。如果它沒(méi)有“生命力”,怎么會(huì)風(fēng)靡科學(xué)界100年?在百年“誕辰”之際,難道P值真的到了壽終正寢的時(shí)刻了? 今天我們就來(lái)了解一下P值背后的原理、在整個(gè)統(tǒng)計(jì)學(xué)框架里扮演的角色、P值的前世今生、以及未來(lái)的命運(yùn)。 P值在整個(gè)統(tǒng)計(jì)學(xué)框架中扮演的角色 我們首先來(lái)看看在整個(gè)統(tǒng)計(jì)學(xué)框架里,P值在充當(dāng)著什么樣的角色。 現(xiàn)代統(tǒng)計(jì)學(xué)主要由兩大部分組成:統(tǒng)計(jì)描述,統(tǒng)計(jì)推斷。 統(tǒng)計(jì)描述,就好像給數(shù)據(jù)拍張快照,看看它們長(zhǎng)什么樣子。我們熟悉的平均數(shù)、中位數(shù)就是用來(lái)看看數(shù)據(jù)在什么位置扎堆。標(biāo)準(zhǔn)差、四分位數(shù)間距等,是用來(lái)看它們親密或疏遠(yuǎn)的程度。當(dāng)然也可以用直方圖、箱線圖、散點(diǎn)圖等統(tǒng)計(jì)圖形,來(lái)更為形象直觀地展現(xiàn)扎堆的情況。 統(tǒng)計(jì)推斷,是根據(jù)我們手中的樣本數(shù)據(jù),來(lái)推斷其背后類似的整個(gè)群體是否具有相同的特征。因?yàn)榇蟛糠謺r(shí)候很難做到對(duì)全體進(jìn)行研究,只能折中,研究其中的一小部分,然后據(jù)此來(lái)推斷全體的一般規(guī)律,比如我們購(gòu)買桔子時(shí),不能把桔子都吃完,才判斷這一堆桔子是甜還是不甜,只能嘗一個(gè),然后據(jù)此判斷桔子的整體情況。不過(guò),值得一提的是,現(xiàn)今火熱的“大數(shù)據(jù)”可能做到對(duì)所有數(shù)據(jù),即總體進(jìn)行研究。 統(tǒng)計(jì)推斷,包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩部分。參數(shù)估計(jì)是指用樣本數(shù)據(jù)估算總體的未知參數(shù)。如果是用一個(gè)數(shù)值進(jìn)行估計(jì),則稱為點(diǎn)估計(jì);如果估計(jì)時(shí)給出的是一個(gè)區(qū)間范圍,則稱為區(qū)間估計(jì)。 假設(shè)檢驗(yàn),用樣本的特征信息來(lái)推斷總體的特征的過(guò)程。假設(shè)檢驗(yàn)有點(diǎn)像偵探,通過(guò)手里有限的證據(jù),大膽做出推測(cè),作為進(jìn)一步調(diào)查分析的起點(diǎn),以最終了解事情的全貌。該文的主角P值,就在這一過(guò)程中發(fā)揮給予肯定還是否定的判官的作用。 P值背后的原理是什么? 如上所述,P值在假設(shè)檢驗(yàn)這一過(guò)程中發(fā)揮判官的作用。說(shuō)到假設(shè)檢驗(yàn)的原理,通常要從拋硬幣游戲說(shuō)起。 一天中午,飯店里酒足飯飽后的兩位年輕人小李和小王都不想埋單,于是提議用拋硬幣來(lái)決定誰(shuí)掏錢,具體規(guī)則如下:一元硬幣拋10次,誰(shuí)的菊花朝上多,誰(shuí)贏。 小李先拋,6次菊花朝上。小李很是得意,自認(rèn)為勝券在握。 然后,小王開(kāi)始拋,竟然有9次菊花朝上。 小李的臉立馬由晴轉(zhuǎn)陰,一臉怒色,指著小王吼道,你丫作弊,硬幣有問(wèn)題! 小王反問(wèn)道,憑什么說(shuō)硬幣有問(wèn)題?難道拋10次9次朝上不可能嗎? 顯然,理論上是有這樣的可能存在的,但畢竟這樣的概率太小了。通常,我們認(rèn)為,完全公平競(jìng)爭(zhēng),菊花朝上的概率為1/2。小李堅(jiān)持認(rèn)為小王在作弊,小王用的硬幣可能兩面都是菊花,畢竟電影中就常出現(xiàn)這樣的橋段。小李提出檢查小王的硬幣,但小王堅(jiān)決拒絕。因此,一番爭(zhēng)執(zhí)后,經(jīng)過(guò)商議,采取了一個(gè)折中的辦法,再次進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證。 按照統(tǒng)計(jì)學(xué)語(yǔ)言,描述如下: 小王提出假設(shè)(H0):硬幣是公平的 小李堅(jiān)持硬幣被動(dòng)了手腳(H1):導(dǎo)致結(jié)果偏向小王 這里的H1稱之為備擇假設(shè),也就是有待證明的觀點(diǎn)。H0被稱為檢驗(yàn)假設(shè),就是有待證明觀點(diǎn)的反調(diào)。二者非此即彼,不相兼容。 結(jié)果,仍舊出現(xiàn)了9次菊花朝上的情況。假如硬幣公平,出現(xiàn)這種情況的概率是1/512。比這種情況更加極端的是,10次統(tǒng)統(tǒng)朝上,其概率更低,是1/1024。 拋10次9次朝上的概率,和10次都朝上的概率,二者之和就是P值,遠(yuǎn)小于0.05。據(jù)此,10個(gè)硬幣9次朝上和更極端的10次都朝上,屬于小概率事件。 于是,拒絕H0,接受H1。即推斷出小李的猜測(cè)“硬幣有貓膩”是正確的。 總之,假設(shè)檢驗(yàn)的基本過(guò)程為,依據(jù)實(shí)踐或常識(shí)提出一個(gè)觀點(diǎn)(H1),例如桔子是甜的,然后故意唱反調(diào)桔子不甜(H0),然后證明桔子不甜的概率很小,否定這一觀點(diǎn),反過(guò)來(lái)推斷出桔子是甜的(H1)。 假設(shè)檢驗(yàn)的核心思想是: 如果您還是覺(jué)得上訴解釋太燒腦,只要銘記一條簡(jiǎn)單粗暴的黃金口訣就ok了:If P is low, H0 must go! 貌似天衣無(wú)縫的P值,何以屢遭質(zhì)疑? 上訴假設(shè)檢驗(yàn)的推斷流程,在小編看來(lái),簡(jiǎn)直就是渾然天成,天衣無(wú)縫。然而,大咖們并不這么認(rèn)為。自上世紀(jì)20年代誕生以來(lái),大咖們對(duì)其批評(píng)不斷,其所用的語(yǔ)言也是極盡諷刺之能,先后被比作蚊子(這東西很煩人,又揮之不去)、皇帝的新裝(P值方法中到處都是顯而易見(jiàn)的問(wèn)題,卻被所有人無(wú)視)、不育的風(fēng)流才子(這位“才子”強(qiáng)行搶走科學(xué)佳人做壓寨夫人,卻讓科學(xué)佳人后繼無(wú)人)。 為什么P值備受爭(zhēng)議,我們一起來(lái)追溯一下P值和假設(shè)檢驗(yàn)的歷史,并從中尋找答案。 1900年,統(tǒng)計(jì)學(xué)家Karl Pearson在其論文中提出了我們耳熟能詳?shù)目ǚ綑z驗(yàn),文章中一同被介紹的,還有 “P值”。 1925年,Ronald A Fisher,也就是現(xiàn)代統(tǒng)計(jì)學(xué)之父,提出了顯著性檢驗(yàn)的思想。P值能風(fēng)靡學(xué)術(shù)界這么多年,F(xiàn)isher是第一推手。Fisher給出了在各種情形下P值的計(jì)算方法。 1928年,Jerzy Neyman和Karl Pearson的兒子—— Egon Pearson提出了假設(shè)檢驗(yàn)(簡(jiǎn)稱N-P),即后來(lái)流行的“備擇假設(shè)”的概念。 Fisher的顯著性檢驗(yàn),沒(méi)有需要首肯的觀點(diǎn)(H1),而Egon Pearson的假設(shè)檢驗(yàn)不僅有要首肯的觀點(diǎn),還有一個(gè)唱反調(diào)的主假設(shè)Hm(與H0類似),同時(shí)還提出了效應(yīng)值、把握度,I類、II類錯(cuò)誤的概念,且采用拒絕域而非P值來(lái)做決策。 除了形式上的差別,二者深層次的哲學(xué)指導(dǎo)思想也不同。Fisher的顯著性檢驗(yàn)其思想基礎(chǔ)是假設(shè)總體無(wú)限多,手中的數(shù)據(jù)是從中隨機(jī)抽取的一小部分樣本。Pearson的假設(shè)檢驗(yàn)是假設(shè)我們可以從總體中無(wú)限制抽取樣本。 對(duì)于統(tǒng)計(jì)學(xué)的實(shí)踐意義,二者的觀點(diǎn)也是大相徑庭。Fisher認(rèn)為統(tǒng)計(jì)學(xué)的功用是只能總結(jié)某觀點(diǎn)對(duì)立面的數(shù)據(jù)具有的特點(diǎn),不能直接推斷出某觀點(diǎn)正確與否,且不能直接依據(jù)數(shù)據(jù)結(jié)果判斷現(xiàn)實(shí)和指導(dǎo)行動(dòng)。這意味著,F(xiàn)isher并沒(méi)有打算將顯著性檢驗(yàn)當(dāng)做辨別是非的判官用,只是用來(lái)查看數(shù)據(jù)是否值得進(jìn)行深入研究這一中間環(huán)節(jié)的一個(gè)小幫手。 而Egon Pearson認(rèn)為,沒(méi)有任何一種統(tǒng)計(jì)推論思想能夠不參與決策。他們直接忽視了P值這個(gè)指標(biāo),將它作為一種指導(dǎo)行動(dòng)的決策方法,還引入了包括統(tǒng)計(jì)效力、假陽(yáng)性、假陰性和很多其他如今在統(tǒng)計(jì)學(xué)概論課上耳熟能詳?shù)母拍?。很明顯,Pearson的思維方式的實(shí)操性很強(qiáng),迎合了研究者使用統(tǒng)計(jì)學(xué)開(kāi)展科研的初衷。 Fisher和Pearson爭(zhēng)執(zhí)不斷。Pearson批評(píng)Fisher的某些工作還不如毫無(wú)用處,而Fisher則嘲諷Pearson的方法無(wú)比幼稚、甚至駭人聽(tīng)聞。 就在雙方的爭(zhēng)論尚且難分高下之際,其他研究人員的耐心早已消耗殆盡,想盡快將這些統(tǒng)計(jì)學(xué)的最新成果推而廣之。他們開(kāi)始給科學(xué)家們編寫統(tǒng)計(jì)學(xué)應(yīng)用指南。1940年,Lindquist首次將Fisher的顯著性檢驗(yàn)和Egon Pearson的假設(shè)檢驗(yàn)糅合在了一起, 提出了原假設(shè)顯著性檢驗(yàn)(Null Hypothesis Significance Testing, NHST)。就是把Fisher粗略的P值計(jì)算法硬塞進(jìn)了內(nèi)曼和Pearson二人建立的規(guī)則嚴(yán)密的統(tǒng)計(jì)系統(tǒng)中,創(chuàng)造出了一種混合的方法,然后“P值為0.05,即可將統(tǒng)計(jì)結(jié)果視為顯著”的規(guī)則應(yīng)運(yùn)而生。 追溯完P(guān)值和假設(shè)檢驗(yàn)的歷史,大家應(yīng)該明白, 我們現(xiàn)在廣泛使用的假設(shè)檢驗(yàn),看似流暢統(tǒng)一嚴(yán)謹(jǐn)合理,但其實(shí)是一道大拌菜,是卡方檢驗(yàn)、顯著性檢驗(yàn)、 N-P假設(shè)檢驗(yàn)硬生生組合在一起的大雜燴 “P值已死”的觀點(diǎn)并非完全空穴來(lái)風(fēng)。P值從來(lái)沒(méi)有可以肯定(H1)或否定(H0)某個(gè)觀點(diǎn)的功能,因?yàn)榛谀硞€(gè)樣本得出的結(jié)論,當(dāng)樣本大小變動(dòng)時(shí),結(jié)論也可能會(huì)改變。 問(wèn)題重重的P值,用于實(shí)踐有什么影響? 并不完美的P值用于實(shí)踐,引發(fā)一系列問(wèn)題。 首先,P值顯著并不等同于現(xiàn)實(shí)中確實(shí)如此,容易使研究者夸大或縮小某現(xiàn)象的影響。比如,一項(xiàng)覆蓋超過(guò)19000人的研究顯示,與現(xiàn)實(shí)中結(jié)識(shí)夫妻相比,網(wǎng)戀夫妻離婚率更低(P<0.002),婚姻滿足感更高(P<0.001)?,F(xiàn)實(shí)情況是,網(wǎng)戀夫妻離婚率為5.96%,現(xiàn)實(shí)中結(jié)識(shí)夫妻為7.67%。根據(jù)7分幸福感評(píng)分,網(wǎng)戀夫妻幸福感為5.64分,現(xiàn)實(shí)中結(jié)識(shí)夫妻為5.48分。網(wǎng)戀夫妻與現(xiàn)實(shí)中結(jié)識(shí)夫妻的離婚率和幸福感,雖然P值很小(千分之1和千分之2的概率),提示有絕對(duì)的差異,但絕對(duì)數(shù)值的差值卻很小,分別僅相差1.71%和0.16%。 其次,P值不能直接等同于某現(xiàn)象的發(fā)生概率。很多科學(xué)家看到某研究結(jié)果的P值為0.01,就會(huì)認(rèn)為該結(jié)論不成立的概率只有1%。但其實(shí)P值無(wú)法告訴研究人員這樣的信息。現(xiàn)實(shí)中,結(jié)論不成立的概率遠(yuǎn)大于P值。P值為0.01,結(jié)論不成立的概率超過(guò)10%,結(jié)果可重復(fù)的概率只有73%左右,再次結(jié)果為0.01的概率只有50%。簡(jiǎn)而言之,實(shí)驗(yàn)結(jié)果不可重復(fù)的概率高得驚人,就跟拋硬幣猜正面向上還是朝下其正確概率相似。 再其次,研究人員不能根據(jù)P值直接判斷事實(shí)。要對(duì)事實(shí)作出判斷,還需要結(jié)合更多信息來(lái)綜合考慮。就好像某種罕見(jiàn)腦瘤的表現(xiàn)之一為頭痛,一個(gè)人清晨醒來(lái)覺(jué)得有點(diǎn)頭痛,然后就斷定自己患上了該腦瘤。這當(dāng)然不是不可能,只是概率太小,所以還得拿出更多證據(jù)來(lái)排除感冒等這類更為常見(jiàn)的原因,才能最終確診。 最后,因種種現(xiàn)實(shí)原因,不少研究者為了追求所謂的顯著性結(jié)果,選擇進(jìn)行“P值操縱(P-hacking)”,即通過(guò)增加樣本量、數(shù)據(jù)分層等手段,來(lái)讓P值達(dá)到有顯著性。這導(dǎo)致一些探索性的研究結(jié)果,看似確定無(wú)疑,實(shí)際上研究結(jié)果很難重復(fù)。還有人曾利用統(tǒng)計(jì)學(xué)分析得出了奇葩的結(jié)論:大學(xué)生聽(tīng)披頭士樂(lè)隊(duì)的音樂(lè)會(huì)變得更年輕;吃巧克力可以減肥(目前該文章已被撤回)……。 P值:棄之不用還是進(jìn)一步完善? 對(duì)于毛病諸多的P值,是棄之不用,還是進(jìn)一步完善讓其浴火重生,各方態(tài)度不一。 一些國(guó)際大牌雜志對(duì)此態(tài)度有些偏激,直接宣布禁用P值,比如說(shuō)政治雜志《Political Analysis》和心理學(xué)雜志《Basic and Applied Social Psychology》(BASP)。但搞笑的是,當(dāng)BASP的主編被Nature問(wèn)道“沒(méi)了P值怎么辦”時(shí),主編“淡定”地回答“我也不知道什么樣的統(tǒng)計(jì)方法可以取代P值”。顯然,在建立好新房子之前就急著推倒舊房子,不是明智之舉,只能淪為無(wú)家可歸的流浪兒。因此,這本雜志成為了拋棄P值試驗(yàn)的小白鼠,結(jié)果可想而知。 很多統(tǒng)計(jì)學(xué)家呼吁用貝葉斯等決策方法替代P值。貝葉斯法則誕生于18世紀(jì),其思想是把概率視為某種結(jié)果的似然性而非出現(xiàn)的頻率。這其中蘊(yùn)含了某種主觀因素,而這也是統(tǒng)計(jì)學(xué)前輩們極力想避免的。但是,貝葉斯分析框架能夠使觀察者將自己的認(rèn)知相對(duì)容易地融入結(jié)論,以及計(jì)算出現(xiàn)新數(shù)據(jù)后概率如何變化。但貝葉斯檢驗(yàn)需要研究人員來(lái)定義和檢測(cè)兩個(gè)替代假設(shè),顯然并不是所有的研究人員都有能力進(jìn)行貝葉斯檢驗(yàn)。 當(dāng)然,更多的統(tǒng)計(jì)學(xué)家們支持對(duì)其進(jìn)行改造,讓其趨于完美,具體方法如下: 1、避免使用“顯著”或“不顯著”來(lái)進(jìn)行判斷。如心理學(xué)家Cumming建議,研究者應(yīng)當(dāng)給出置信區(qū)間和統(tǒng)計(jì)效力,以讓讀者獲悉研究結(jié)果的靠譜程度。 2、將P值的閾值從現(xiàn)行的0.05降到0.005。P < 0.05只能稱之為有提示意義(suggestive),P < 0.005才叫有顯著意義(significant)。對(duì)這一觀點(diǎn)持支持態(tài)度者不在少數(shù)。2017年7月,針對(duì)是否支持將P值閾值降低,Nature對(duì)讀者做了個(gè)調(diào)查,結(jié)果6938人中竟有69%人表示支持。如何真要實(shí)施這一改變,影響可謂深遠(yuǎn)。很多小伙伴覺(jué)得P < 0.05已經(jīng)難于上青天,再要降低,提高門檻,真的會(huì)要了老命? 3、還有人贊同將同一個(gè)數(shù)據(jù)用多種方法進(jìn)行分析。倘若不同的方法得到的結(jié)論不同,就表明研究者應(yīng)該繼續(xù)開(kāi)動(dòng)腦筋,努力找到原因所在,這能讓我們更好地了解現(xiàn)象背后的真相。 總之,已經(jīng)風(fēng)靡了100年的P值,雖然備受爭(zhēng)議,但就此讓它退出歷史舞臺(tái),有點(diǎn)難度。在一個(gè)更為完美的替代方案問(wèn)世之前,它仍舊會(huì)有很強(qiáng)的生命力。 對(duì)于P值,不知您的態(tài)度是什么? |
|