上一期介紹了多因素分析方法類型、用途、注意事項(xiàng)。今天我們開(kāi)始介紹多因素分析中最基本、最常用的方法——多元線性回歸分析。
(一)多元線性回歸的數(shù)學(xué)模型及其基本原理 26期我們介紹的簡(jiǎn)單線性回歸分析研究一個(gè)反應(yīng)變量與一個(gè)自變量之間的線性依存關(guān)系,而多元線性回歸分析是簡(jiǎn)單線性回歸分析的擴(kuò)展形式,是研究一個(gè)反應(yīng)變量與多個(gè)自變量之間的線性依存關(guān)系。如果應(yīng)變量y和自變量x1,x2,x3,…,xk有如下線性關(guān)系: 則稱式11-1為應(yīng)變量y在自變量上的k元線性回歸模型,式中β0為截距,βj(j=1,2,…,k)為偏回歸系數(shù),表示x1每改變一個(gè)單位時(shí),y的改變量;ε為誤差或殘差,模型假定誤差ε獨(dú)立且服從均值為0方差為σ2的正態(tài)分布。通過(guò)一組實(shí)際觀察數(shù)據(jù),可求出式11-1中的參數(shù)βj的估計(jì)值bj,從而建立經(jīng)驗(yàn)回歸方程: 式11-2中是在自變量x1,x2,x3,…,xk條件下對(duì)觀察值y的平均估計(jì)值,又稱平均值。 多元線性回歸分析是應(yīng)用一個(gè)數(shù)學(xué)模型來(lái)提示總體中若干個(gè)自變量與一個(gè)因變量之間的線性依存關(guān)系,并評(píng)估用這個(gè)數(shù)學(xué)模型模擬相關(guān)事物變化規(guī)律的準(zhǔn)確性。多元線性回歸分析可以從統(tǒng)計(jì)意義上確定在消除了其它自變量的影響后,每一個(gè)自變量對(duì)因變量的影響,并估計(jì)出在其他自變量固定不變的情況下,每一個(gè)自變量對(duì)因變量的數(shù)值影響大小。 對(duì)于多元線性回歸分析,要求觀察數(shù)據(jù)和模型的殘差滿足以下前提條件: ? 因變量y是連續(xù)型隨機(jī)變量,且服從正態(tài)分布;如果不滿足會(huì)導(dǎo)致統(tǒng)計(jì)檢驗(yàn)結(jié)果出現(xiàn)偏倚。 ? 自變量是固定變量,即非隨機(jī)變量或無(wú)度量誤差的變量;如果不滿足會(huì)導(dǎo)致結(jié)果失真。 ? 自變量之間不存在多重共線性,即,一些自變量間存在較強(qiáng)的線性關(guān)系;如果不滿足會(huì)導(dǎo)致結(jié)論的不唯一性。 ? 自變量與殘差獨(dú)立;如果不滿足說(shuō)明模型中缺少重要自變量。 ? 殘差是隨機(jī)變量,且均值為零,方差為常數(shù)s2;如果不滿足會(huì)導(dǎo)致參數(shù)估計(jì)出現(xiàn)偏倚。 ? 殘差ei之間相互獨(dú)立;如果不滿足會(huì)導(dǎo)致結(jié)果出現(xiàn)誤導(dǎo)。 ? 殘差服從正態(tài)分布;如果不滿足會(huì)導(dǎo)致統(tǒng)計(jì)檢驗(yàn)結(jié)果出現(xiàn)偏倚。 1. 估計(jì)參數(shù) 多元線性回歸模型的參數(shù)估計(jì)方法有普通最小二乘法、最大似然法和矩估計(jì)。一般情況下,采用的是最小二乘法,即使得殘差平方和最小的方法。令參數(shù)βj的估計(jì)值bj,bj為偏回歸系數(shù)。對(duì)于多元線性回歸分析,除了估計(jì)偏回歸系數(shù)外,還要判斷哪一個(gè)自變量對(duì)因變量的影響最大。由于各自變量的單位不同,因此不能直接用偏回歸系數(shù)來(lái)解釋各自變量的重要性。為了去年量綱的影響,可以應(yīng)用以下兩種方法將偏回歸系數(shù)標(biāo)準(zhǔn)化: ? 將原始變量標(biāo)準(zhǔn)化后再進(jìn)行回歸,得到的就是標(biāo)準(zhǔn)偏回歸系數(shù); ? 將估計(jì)的bj偏回歸系數(shù)除以因變量y的標(biāo)準(zhǔn)差s,再乘以該系數(shù)對(duì)應(yīng)的自變量的標(biāo)準(zhǔn)差。 偏回歸系數(shù)沒(méi)有消除量綱的影響,在同一模型中的偏回歸系數(shù)估計(jì)值不能相互比較,在不同的模型中可以進(jìn)行比較;標(biāo)準(zhǔn)回歸系數(shù)估計(jì)值消除了量綱的影響,本身沒(méi)有實(shí)際意義,不能直接解釋自變量與因變量間的依存關(guān)系,也不能在不同模型中進(jìn)行比較,但是可以在同一模型中對(duì)參數(shù)估計(jì)值進(jìn)行比較。 2. 檢驗(yàn)參數(shù) 對(duì)于式11-2中k個(gè)自變量(j=1,2,…,k,),利用偏回歸系數(shù)估計(jì)值bj以及bj的標(biāo)準(zhǔn)誤,可以對(duì)所有模型參數(shù)進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn): 3. 檢驗(yàn)總體模型 多元線性回歸模型的總體檢驗(yàn)應(yīng)用方差分析,即因變量y的總體變異可以被分解為兩部分:一部分是由回歸引起的變異;另一部分是由殘差引起的變異,即不能由回歸模型解釋的部分。對(duì)模型總體檢驗(yàn)的統(tǒng)計(jì)假設(shè): 多元線性回歸分析也可以得到擬合回歸模型的復(fù)確定系數(shù)R2 ,它表示因變量y的總變異被所有自變量x所能解釋的總分占的比例,反映所有自變量與因變量的線性相關(guān)強(qiáng)度。 4.模型診斷 模型診斷是分析實(shí)際樣本數(shù)據(jù)與擬合的回歸模型之間的擬合情況,通過(guò)一些診斷統(tǒng)計(jì)量來(lái)檢測(cè)數(shù)據(jù)、模型與推斷過(guò)程中可能存在的不合理性,并提出相應(yīng)解決方案的過(guò)程。多元線性回歸分析的模型診斷一般包括以下幾個(gè)部分: (1)自變量之間是否存在多重共線性 多元線性回歸模型的多重共線性可用容忍度(tolerance)、方差膨脹因子(variance inflation factor)和最大條件指數(shù)(condition number)進(jìn)行診斷。自變量xj的容忍度tol=1-R2,其變化范圍是0到1之間,當(dāng)tol(xj)=0,則該自變量xj與其它的x變量有相當(dāng)嚴(yán)重的多重共線性;如果tol(xj)=1,則該自變量xj與其它的x變量完全獨(dú)立。 方差膨脹因子等容忍度的倒數(shù),即vif(xj)= 1/tol(xj),當(dāng)vif(xj)=1時(shí),則該自變量與其它的x變量完全獨(dú)立;當(dāng)vif(xj)趨近于∞時(shí),該自變量xj與其它x變量有相當(dāng)嚴(yán)重的多重共線性。一般當(dāng)vif(xj)≥10時(shí),認(rèn)為xj與其它x變量有嚴(yán)重的多重共線性。 最大條件指數(shù)記為f,當(dāng)f>10時(shí),且當(dāng)該自變量的變異由每一個(gè)主成分解釋所占比例vp>0.5時(shí),可能認(rèn)為這些自變量是嚴(yán)重相關(guān)的。 如果自變量性存在共線性,根據(jù)偏相關(guān)系數(shù)大小,去掉其中一個(gè)對(duì)因變量影響最小的自變量,或根據(jù)方差比例vp的大小,去掉vp值大的自變量,再重新作共線性診斷,直至多重共線性不存在為止。 (2)殘差的獨(dú)立性 多元線性回歸的殘差獨(dú)立性診斷等價(jià)于檢查數(shù)據(jù)是否受趨勢(shì)影響,可以繪制e*t散點(diǎn)圖或ei*ei-1散點(diǎn)圖;也可以用Durbin-Watson檢驗(yàn)方法,計(jì)算DW值來(lái)判斷隨機(jī)誤差項(xiàng)ei是否一階自相關(guān),DW值的聚會(huì)范圍在0~4之間,接近0或4,則可以認(rèn)為具有一階自相關(guān)。 如果殘差間存在一階自相關(guān),則計(jì)算因變量的一階差商,以此為新的因變量進(jìn)行分析。這種情況通常多數(shù)出現(xiàn)在時(shí)間序列數(shù)據(jù)。 (3)殘差的均值為零,方差為常數(shù) 多元線性回歸的自變量與殘差的獨(dú)立性可通過(guò)繪制殘差和預(yù)測(cè)值的散點(diǎn)圖來(lái)檢驗(yàn)殘差的均值和方差的齊性。如果殘差隨機(jī)地分布在橫軸的上下兩側(cè),形成一個(gè)很窄的條帶狀,則可以認(rèn)為殘差的均值為零,方差為常數(shù)。否則,說(shuō)明殘差的均值不為零,或殘差的變異不均勻。 如果殘差的均值不為零或方差不為常數(shù),首先應(yīng)用學(xué)生化殘差Student或Cook的距離殘差Cook’s D應(yīng)檢查數(shù)據(jù)中是否存在異常點(diǎn)。如果Student>或D>0.5,可考慮異常點(diǎn)的存在。如果數(shù)據(jù)中不存在異常點(diǎn),可以用加權(quán)回歸分析,消除方差的影響,或?qū)⒁蜃兞窟M(jìn)行變量變換再擬合回歸模型。 (4)殘差服從正態(tài)分布 多元線性回歸模型殘差的正態(tài)性可通過(guò)繪制殘差的直方圖和累積概率圖來(lái)檢驗(yàn)其正態(tài)性。如果不服從正態(tài)分布,可以對(duì)因變量進(jìn)行變量變換,使得因變量近似地服從正態(tài)分布。 另:上期的表11-2有個(gè)小錯(cuò)誤,在此作以糾正,向各位讀者道歉!更正后的表如下: 表11-2 研究因素間互依性常用的統(tǒng)計(jì)學(xué)方法及其SAS過(guò)程步 整理不易,歡迎點(diǎn)亮再看哦!
參考文獻(xiàn): [1] 高惠璇. SAS系統(tǒng)SAS/STAT軟件使用手冊(cè)[M]. 北京:中國(guó)統(tǒng)計(jì)出版社, 1997. [2] 孫振球, 徐勇勇. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:人民衛(wèi)生出版社, 2014. [3] 張家放. 醫(yī)用多元統(tǒng)計(jì)方法[M]. 武漢:華中科技大學(xué)出版社, 2002.
|