說人話的統(tǒng)計學(xué) 上一集我們講了如何通過最大似然法計算出最符合數(shù)據(jù)的回歸線,從而建立自變量與因變量之間的線性模型。說到底,線性模型是對實際數(shù)據(jù)中自變量與因變量關(guān)系的一種近似。這個近似到底合不合理,有沒有實際意義,我們該如何判斷呢? 由于自變量的選擇有很多,即使我們把八桿子打不著的兩個因素放在一塊,我們也能建立兩者之間的線性模型。比如,我們用學(xué)校到家里的距離,或者家里寵物狗的體重來建立小朋友的身高的線性模型,這樣的模型往往并不會具有統(tǒng)計學(xué)上的顯著性。 需要警惕的是,如果我們嘗試在大量毫無關(guān)系的變量之間做線性模型的相關(guān)分析,總會因為巧合導(dǎo)致其中一些看似有統(tǒng)計學(xué)意義上面的顯著性。比如說,有人竟然發(fā)現(xiàn)每年美國人均吃芝士的量與被床單纏死的人的數(shù)量有相關(guān)性。這顯然在道理上是說不通的。這其實就是我們在前面 t 檢驗和 ANOVA 檢驗里面提到過的假陽性問題,也就是實際上明明沒關(guān)系,而統(tǒng)計上有鼻子有眼地找出了顯著的關(guān)系。 基于上面的原因,我們在建立線性模型(其實也包括其它任何統(tǒng)計模型)的時候,首先會根據(jù)特定領(lǐng)域的專業(yè)知識選擇與因變量有可能有相關(guān)性的自變量來建模。比如在前面講的子女身高的例子里面,我們的模型是子女的身高與用母的身高有線性關(guān)系,因為從生物學(xué)的角度,身高可能會具有一定的遺傳性,這是模型具有合理性的前提。這樣建立的起來的模型才具有實際應(yīng)用的價值。 我們根據(jù)一個看上去合情合理的猜想建立了父母身高和子女身高之間的線性模型,在這個模型里面,父母身高是自變量 x,子女身高是因變量 Y。它們的關(guān)系用線性模型表示為: 當(dāng)然,這個看似很有道理的假設(shè)也許只是我們的一廂情愿——或許父母和子女的身高沒有關(guān)系。換句話說,不同身高的父母對應(yīng)的子女身高并沒有什么不同。用數(shù)學(xué)語言來描述就是 xi 取不同的值,yi 并不隨之改變,為了滿足這種情形,β1 只能等于零。在這種情況下,子女身高與父母身高的模型更應(yīng)該是: 這就是說,要驗證線性模型中自變量與因變量是不是有顯著的線性相關(guān)性,其實就是檢驗 β1(即回歸線的斜率)是否不等于零。 在上一集《回歸線三千,我只取這一條》里面我們引入了極大似然估計來找出對斜率 β1 的最佳估計: 這里只是對真實斜率值 β1 的一個估計,而且由于隨機誤差的 εi 存在,我們對斜率 β1 估計值的總是存在誤差。假如真實的斜率是 0.5,一個樣本由 50 個家庭的身高數(shù)據(jù)組成,從一個小鎮(zhèn)的人口里面隨機抽取這樣的樣本 100 次,根據(jù)每個樣本對斜率得到的最佳估計都會略有不同,比如有時是 0.4,有時是 0.6,總體應(yīng)該在斜率的真實值 0.5 上下波動。 如果這 100 個樣本里面幾乎都大于 0,直觀上真實的斜率 β1 也很有可能大于 0;如果這 100 個樣本里面一半小于 0 、另一半大于 0,很有可能真實的斜率 β1 跟 0 很接近。 上面只是直觀的判斷,我們還需要用更定量的方法描述斜率的估計值的分布。 在 εi 滿足方差為 σ 的正態(tài)分布時,重復(fù)抽取很多樣本,對每個樣本都用極大似然估計找出一個,在數(shù)學(xué)上可以推導(dǎo)出,滿足正態(tài)分布,其方差表達(dá)式為: 的方差越小,說明我們對斜率 β1 的估計就越準(zhǔn)確。 觀察方差表達(dá)式,我可以看出:咱們模型里面的誤差項越大,那么我們對斜率 β1 的估計就越不準(zhǔn)確;自變量 x 的方差總和(分母項)越大,對斜率估計就越準(zhǔn)確。 上面的方差表達(dá)式的分子是誤差項的方差,它其實是個未知數(shù)。但我們正好可以用上一集講到 σ2 的估計值來代替,這樣我們就知道相對真實斜率 β1 的分布了。 知道了的分布,我們就可以計算大家熟悉的 p 值。 與之前 t 檢驗時學(xué)到的 p 值的定義類似,線性假設(shè)顯著性檢驗的 p 值指的是:當(dāng)原假設(shè)成立,即真實的 β1 等于 0 時,根據(jù)實際數(shù)據(jù)計算出的斜率大于或小于-的概率(這是雙側(cè)檢驗的情形,單側(cè)檢驗可以類比 t 檢驗里講過的情形)。如果 p 值非常小,說明原假設(shè)成立時,觀察到的值的概率會很低,從而認(rèn)為原假設(shè)不太可能成立。 知道了的分布,我們還可以計算斜率 β1 的置信區(qū)間。 由于估計值總是以真實的斜率 β1 為中心呈高斯分布, 有 95% 概率真實斜率 β1 會被以下的區(qū)間涵蓋: 這并不是說真實的斜率會服從這樣一個概率分布,在頻率派的框架底下,真實的斜率是一個確切的值,只是由于數(shù)據(jù)本身的隨機性,我們測量到的斜率會上下浮動,導(dǎo)致有一定的概率估計值會遠(yuǎn)離真實值 β1。 關(guān)于置信區(qū)間的更詳細(xì)解讀可以參考《用置信區(qū)間,就是這么(不)自信!》。 用線性模型分析數(shù)據(jù)時,找出斜率的置信區(qū)間往往比知道 p 值更有用。95% 置信區(qū)間不包含 0 等價于 p 值小于 0.05 。因為線性模型的一大功能就是做預(yù)測,有了斜率的置信區(qū)間,我們就能知道父母的身高增加 1 厘米,子女的身高增加的多少以及其誤差范圍。 當(dāng)然,實際應(yīng)用中,統(tǒng)計軟件會幫我們算出斜率的 p 值和置信區(qū)間,所以和之前我們講過的其他原理一樣,上面這些式子都用不著去背。但是,知道它們的含義和怎么來的,可以讓我用起來心中更有數(shù)。 如果我們能減少 β1 估計值的方差,我們對 β1 的估計就會更準(zhǔn)確,具體說來就是置信區(qū)間會變窄,從而統(tǒng)計功效更強,越容易檢驗出自變量與應(yīng)變量之間的相關(guān)性,好處多多。 那有沒有什么方法能夠減小的方差呢? 前面講到的方差與線性模型中誤差項的方差呈正比,與自變量的方差呈反比。前者反映的是模型本身局限性,并不為我們的意志改變(除非我們想出更好的模型),但是后者則是可以在采集數(shù)據(jù)時做好規(guī)劃來改變的。我們在采集樣本的時候,要盡量涵蓋自變量的全部范圍,增加樣本中自變量值的方差。 在建立父母身高和子女身高的線性模型的例子里面,在最極端的情況下,如果樣本中所有父母的身高都一樣,我們便無法知道父母身高變化時子女身高是否會隨著變化。具體到單個數(shù)據(jù)點上,假如父母的平均身高是170cm,某一個樣本對應(yīng)的父母身高也是170cm,那么這個樣本對的貢獻(xiàn)為0,并不能增加估計 β1 的準(zhǔn)確性。 事實上,x 離均值越遠(yuǎn)的樣本對減少方差的貢獻(xiàn)越大,包括身高很矮或很高的樣本是提高線性模型統(tǒng)計功效的有效方法。 最后,我們再來看看如何解讀假設(shè)檢驗的結(jié)果。 即使 β1 等于 0,也不能完全說明自變量和因變量之間沒有關(guān)系,只能說明線性模型不能很好的描述兩者之間的關(guān)系,有可能它們具有非線性的關(guān)系,如下圖例子。以后我們會更詳細(xì)地講如何用線性模型來處理非線性關(guān)系。 圖中 y 與 x 的關(guān)系是拋物線而不是直線,數(shù)學(xué)表達(dá)式是 y=(x-10)2 。如果直接用線性模型擬合,得到的結(jié)果是斜率為零,但是并不能說明 y 與 x 之間沒有關(guān)系。 如果我們在計算出來斜率的 p 值和置信區(qū)間后,發(fā)現(xiàn)斜率并不顯著,在檢查其它可能性之前,首先,我們應(yīng)該考慮是否有足夠的統(tǒng)計功效,如果是統(tǒng)計功效不足,想辦法多收集一些數(shù)據(jù),尤其是離平均值比較遠(yuǎn)的數(shù)據(jù)說不定可以解決問題。 而導(dǎo)致斜率不顯著的另外一個可能的原因,是影響 Y 取值的除了 x 還有其它因素,這種情況下,自變量與因變量之間確實具有線性關(guān)系,但是由于沒有考慮到其它因素的影響,使得模型認(rèn)為的誤差項比實際的誤差項大很多,所以導(dǎo)致結(jié)果不顯著。 回復(fù)「統(tǒng)計學(xué)」可查看「說人話的統(tǒng)計學(xué)」系列合輯, 或點擊下方標(biāo)題可閱讀本系列任意文章 干貨 第1章 高屋建瓴看統(tǒng)計 做統(tǒng)計,多少數(shù)據(jù)才算夠?(上) 做統(tǒng)計,多少數(shù)據(jù)才算夠?(下) 第2章 算術(shù)平均數(shù)與正態(tài)分布 第3章 t檢驗:兩組平均數(shù)的比較 樣本分布不正態(tài)?數(shù)據(jù)變換來救場! 找出 t 檢驗的效應(yīng)大小,對耍流氓 say no! 第4章 方差分析(ANOVA):多組平均數(shù)的比較 第5章 線性回歸:統(tǒng)計建模初步 (未完,更新中) 如果只能學(xué)習(xí)一種統(tǒng)計方法,我選擇線性回歸 自檢 統(tǒng)計學(xué)的十個誤區(qū),你答對了嗎? 番外篇 精選每日一題 更多精選題可回顧歷史推送文末 題目來源:臨床執(zhí)業(yè)醫(yī)師資格考試往屆真題 |
|