【原】SAS系列33：SAS高級(jí)統(tǒng)計(jì)（二）多元線性回歸

松哥精鼎統(tǒng)計(jì) 2020-10-23

展開(kāi)全文

導(dǎo)讀

上一期介紹了多因素分析方法類型、用途、注意事項(xiàng)。今天我們開(kāi)始介紹多因素分析中最基本、最常用的方法——多元線性回歸分析。

一、多元線性回歸模型

（一）多元線性回歸的數(shù)學(xué)模型及其基本原理

26期我們介紹的簡(jiǎn)單線性回歸分析研究一個(gè)反應(yīng)變量與一個(gè)自變量之間的線性依存關(guān)系，而多元線性回歸分析是簡(jiǎn)單線性回歸分析的擴(kuò)展形式，是研究一個(gè)反應(yīng)變量與多個(gè)自變量之間的線性依存關(guān)系。如果應(yīng)變量y和自變量x1，x2，x3，…，xk有如下線性關(guān)系：

則稱式11-1為應(yīng)變量y在自變量上的k元線性回歸模型，式中β0為截距，βj（j=1,2,…,k）為偏回歸系數(shù)，表示x1每改變一個(gè)單位時(shí)，y的改變量；ε為誤差或殘差，模型假定誤差ε獨(dú)立且服從均值為0方差為σ2的正態(tài)分布。通過(guò)一組實(shí)際觀察數(shù)據(jù)，可求出式11-1中的參數(shù)βj的估計(jì)值bj，從而建立經(jīng)驗(yàn)回歸方程：

式11-2中是在自變量x1，x2，x3，…，xk條件下對(duì)觀察值y的平均估計(jì)值，又稱平均值。

多元線性回歸分析是應(yīng)用一個(gè)數(shù)學(xué)模型來(lái)提示總體中若干個(gè)自變量與一個(gè)因變量之間的線性依存關(guān)系，并評(píng)估用這個(gè)數(shù)學(xué)模型模擬相關(guān)事物變化規(guī)律的準(zhǔn)確性。多元線性回歸分析可以從統(tǒng)計(jì)意義上確定在消除了其它自變量的影響后，每一個(gè)自變量對(duì)因變量的影響，并估計(jì)出在其他自變量固定不變的情況下，每一個(gè)自變量對(duì)因變量的數(shù)值影響大小。

（二）多元線性回歸分析的前提條件

對(duì)于多元線性回歸分析，要求觀察數(shù)據(jù)和模型的殘差滿足以下前提條件：

? 因變量y是連續(xù)型隨機(jī)變量，且服從正態(tài)分布；如果不滿足會(huì)導(dǎo)致統(tǒng)計(jì)檢驗(yàn)結(jié)果出現(xiàn)偏倚。

? 自變量是固定變量，即非隨機(jī)變量或無(wú)度量誤差的變量；如果不滿足會(huì)導(dǎo)致結(jié)果失真。

? 自變量之間不存在多重共線性，即，一些自變量間存在較強(qiáng)的線性關(guān)系；如果不滿足會(huì)導(dǎo)致結(jié)論的不唯一性。

? 自變量與殘差獨(dú)立；如果不滿足說(shuō)明模型中缺少重要自變量。

? 殘差是隨機(jī)變量，且均值為零，方差為常數(shù)s2；如果不滿足會(huì)導(dǎo)致參數(shù)估計(jì)出現(xiàn)偏倚。

? 殘差ei之間相互獨(dú)立；如果不滿足會(huì)導(dǎo)致結(jié)果出現(xiàn)誤導(dǎo)。

? 殘差服從正態(tài)分布；如果不滿足會(huì)導(dǎo)致統(tǒng)計(jì)檢驗(yàn)結(jié)果出現(xiàn)偏倚。

（三）多元線性回歸分析的步驟

1. 估計(jì)參數(shù)

多元線性回歸模型的參數(shù)估計(jì)方法有普通最小二乘法、最大似然法和矩估計(jì)。一般情況下，采用的是最小二乘法，即使得殘差平方和最小的方法。令參數(shù)βj的估計(jì)值bj，bj為偏回歸系數(shù)。對(duì)于多元線性回歸分析，除了估計(jì)偏回歸系數(shù)外，還要判斷哪一個(gè)自變量對(duì)因變量的影響最大。由于各自變量的單位不同，因此不能直接用偏回歸系數(shù)來(lái)解釋各自變量的重要性。為了去年量綱的影響，可以應(yīng)用以下兩種方法將偏回歸系數(shù)標(biāo)準(zhǔn)化：

? 將原始變量標(biāo)準(zhǔn)化后再進(jìn)行回歸，得到的就是標(biāo)準(zhǔn)偏回歸系數(shù)；

? 將估計(jì)的bj偏回歸系數(shù)除以因變量y的標(biāo)準(zhǔn)差s，再乘以該系數(shù)對(duì)應(yīng)的自變量的標(biāo)準(zhǔn)差。

偏回歸系數(shù)沒(méi)有消除量綱的影響，在同一模型中的偏回歸系數(shù)估計(jì)值不能相互比較，在不同的模型中可以進(jìn)行比較；標(biāo)準(zhǔn)回歸系數(shù)估計(jì)值消除了量綱的影響，本身沒(méi)有實(shí)際意義，不能直接解釋自變量與因變量間的依存關(guān)系，也不能在不同模型中進(jìn)行比較，但是可以在同一模型中對(duì)參數(shù)估計(jì)值進(jìn)行比較。

2. 檢驗(yàn)參數(shù)

對(duì)于式11-2中k個(gè)自變量（j=1,2,…,k，），利用偏回歸系數(shù)估計(jì)值bj以及bj的標(biāo)準(zhǔn)誤，可以對(duì)所有模型參數(shù)進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)：

3. 檢驗(yàn)總體模型

多元線性回歸模型的總體檢驗(yàn)應(yīng)用方差分析，即因變量y的總體變異可以被分解為兩部分：一部分是由回歸引起的變異；另一部分是由殘差引起的變異，即不能由回歸模型解釋的部分。對(duì)模型總體檢驗(yàn)的統(tǒng)計(jì)假設(shè)：

多元線性回歸分析也可以得到擬合回歸模型的復(fù)確定系數(shù)R² ，它表示因變量y的總變異被所有自變量x所能解釋的總分占的比例，反映所有自變量與因變量的線性相關(guān)強(qiáng)度。

4.模型診斷

模型診斷是分析實(shí)際樣本數(shù)據(jù)與擬合的回歸模型之間的擬合情況，通過(guò)一些診斷統(tǒng)計(jì)量來(lái)檢測(cè)數(shù)據(jù)、模型與推斷過(guò)程中可能存在的不合理性，并提出相應(yīng)解決方案的過(guò)程。多元線性回歸分析的模型診斷一般包括以下幾個(gè)部分：

（1）自變量之間是否存在多重共線性

多元線性回歸模型的多重共線性可用容忍度(tolerance)、方差膨脹因子(variance inflation factor)和最大條件指數(shù)（condition number）進(jìn)行診斷。自變量x_j的容忍度tol=1-R²，其變化范圍是0到1之間，當(dāng)tol(x_j)=0，則該自變量x_j與其它的x變量有相當(dāng)嚴(yán)重的多重共線性；如果tol(x_j)=1，則該自變量x_j與其它的x變量完全獨(dú)立。

方差膨脹因子等容忍度的倒數(shù)，即vif(x_j)= 1/tol(x_j)，當(dāng)vif(x_j)=1時(shí)，則該自變量與其它的x變量完全獨(dú)立；當(dāng)vif(x_j)趨近于∞時(shí)，該自變量x_j與其它x變量有相當(dāng)嚴(yán)重的多重共線性。一般當(dāng)vif(x_j)≥10時(shí)，認(rèn)為x_j與其它x變量有嚴(yán)重的多重共線性。

最大條件指數(shù)記為f，當(dāng)f>10時(shí)，且當(dāng)該自變量的變異由每一個(gè)主成分解釋所占比例vp>0.5時(shí)，可能認(rèn)為這些自變量是嚴(yán)重相關(guān)的。

如果自變量性存在共線性，根據(jù)偏相關(guān)系數(shù)大小，去掉其中一個(gè)對(duì)因變量影響最小的自變量，或根據(jù)方差比例vp的大小，去掉vp值大的自變量，再重新作共線性診斷，直至多重共線性不存在為止。

（2）殘差的獨(dú)立性

多元線性回歸的殘差獨(dú)立性診斷等價(jià)于檢查數(shù)據(jù)是否受趨勢(shì)影響，可以繪制e*t散點(diǎn)圖或e_i*e_i-1散點(diǎn)圖；也可以用Durbin-Watson檢驗(yàn)方法，計(jì)算DW值來(lái)判斷隨機(jī)誤差項(xiàng)e_i是否一階自相關(guān)，DW值的聚會(huì)范圍在0~4之間，接近0或4，則可以認(rèn)為具有一階自相關(guān)。

如果殘差間存在一階自相關(guān)，則計(jì)算因變量的一階差商，以此為新的因變量進(jìn)行分析。這種情況通常多數(shù)出現(xiàn)在時(shí)間序列數(shù)據(jù)。

（3）殘差的均值為零，方差為常數(shù)

多元線性回歸的自變量與殘差的獨(dú)立性可通過(guò)繪制殘差和預(yù)測(cè)值的散點(diǎn)圖來(lái)檢驗(yàn)殘差的均值和方差的齊性。如果殘差隨機(jī)地分布在橫軸的上下兩側(cè)，形成一個(gè)很窄的條帶狀，則可以認(rèn)為殘差的均值為零，方差為常數(shù)。否則，說(shuō)明殘差的均值不為零，或殘差的變異不均勻。

如果殘差的均值不為零或方差不為常數(shù)，首先應(yīng)用學(xué)生化殘差Student或Cook的距離殘差Cook’s D應(yīng)檢查數(shù)據(jù)中是否存在異常點(diǎn)。如果Student>或D>0.5，可考慮異常點(diǎn)的存在。如果數(shù)據(jù)中不存在異常點(diǎn)，可以用加權(quán)回歸分析，消除方差的影響，或?qū)⒁蜃兞窟M(jìn)行變量變換再擬合回歸模型。

（4）殘差服從正態(tài)分布

多元線性回歸模型殘差的正態(tài)性可通過(guò)繪制殘差的直方圖和累積概率圖來(lái)檢驗(yàn)其正態(tài)性。如果不服從正態(tài)分布，可以對(duì)因變量進(jìn)行變量變換，使得因變量近似地服從正態(tài)分布。

另：上期的表11-2有個(gè)小錯(cuò)誤，在此作以糾正，向各位讀者道歉！更正后的表如下：

表11-2 研究因素間互依性常用的統(tǒng)計(jì)學(xué)方法及其SAS過(guò)程步