在進(jìn)行線性回歸分析時(shí),容易出現(xiàn)自變量(解釋變量)之間彼此相關(guān),這種情況被稱作多重共線性問題。 適度的多重共線性不成問題,但當(dāng)出現(xiàn)嚴(yán)重共線性問題時(shí),可能導(dǎo)致分析結(jié)果不穩(wěn)定,出現(xiàn)回歸系數(shù)的符號(hào)與實(shí)際情況完全相反的情況。本應(yīng)該顯著的自變量不顯著,本不顯著的自變量卻呈現(xiàn)出顯著性,這種情況下就需要消除多重共線性的影響。 共線性出現(xiàn)的原因多重共線性問題就是說一個(gè)解釋變量的變化引起另一個(gè)解釋變量地變化。 原本自變量應(yīng)該是各自獨(dú)立的變量,這樣根據(jù)檢驗(yàn)結(jié)果,就能得知哪些因素對(duì)因變量Y有顯著影響,哪些沒有影響。如果各個(gè)自變量x之間有很強(qiáng)的線性關(guān)系,就無法固定其他變量,也就找不到x和y之間真實(shí)的關(guān)系了。 除此以外,多重共線性的原因還可能包括: 1、數(shù)據(jù)不足。在某些情況下,收集更多數(shù)據(jù)可以解決問題。 2、錯(cuò)誤地使用虛擬變量。(比如,同時(shí)將男、女兩個(gè)虛擬變量都放入模型,此時(shí)必定出現(xiàn)共線性,稱為完全共線性) 共線性的判別指標(biāo)1、方差膨脹因子(VIF) 有多種方法可以檢測(cè)多重共線性,較常使用的是回歸分析中的VIF值,VIF值越大,多重共線性越嚴(yán)重。一般認(rèn)為VIF大于10時(shí)(嚴(yán)格是5),代表模型存在嚴(yán)重的共線性問題。 2、容差值 也有時(shí)候會(huì)以容差值作為標(biāo)準(zhǔn),容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴(yán)格是大于0.2),VIF和容差值有邏輯對(duì)應(yīng)關(guān)系,兩個(gè)指標(biāo)任選其一即可。 3、相關(guān)系數(shù) 除此之外,直接對(duì)自變量進(jìn)行相關(guān)分析,查看相關(guān)系數(shù)和顯著性也是一種判斷方法。如果一個(gè)自變量和其他自變量之間的相關(guān)系數(shù)顯著,則代表可能存在多重共線性問題。 多重共線性處理方法多重共線性是普遍存在的,通常情況下,如果共線性情況不嚴(yán)重(VIF<5),不需要做特別的處理。如存在嚴(yán)重的多重共線性問題,可以考慮使用以下幾種方法處理: 1.手動(dòng)移除出共線性的變量 先做下相關(guān)分析,如果發(fā)現(xiàn)某兩個(gè)自變量X(解釋變量)的相關(guān)系數(shù)值大于0.7,則移除掉一個(gè)自變量(解釋變量),然后再做回歸分析。此方法是最直接的方法,但有的時(shí)候我們不希望把某個(gè)自變量從模型中剔除,這樣就要考慮使用其他方法。 2.逐步回歸法 讓軟件自動(dòng)進(jìn)行自變量的選擇剔除,逐步回歸會(huì)將共線性的自變量自動(dòng)剔除出去。此種解決辦法有個(gè)問題是,可能算法會(huì)剔除掉本不想剔除的自變量,如果有此類情況產(chǎn)生,此時(shí)最好是使用嶺回歸進(jìn)行分析。 使用路徑:SPSSAU>進(jìn)階方法>逐步回歸 3.增加樣本容量 增加樣本容量是解釋共線性問題的一種辦法,但在實(shí)際操作中可能并不太適合,原因是樣本量的收集需要成本時(shí)間等。 4.嶺回歸 上述第1和第2種解決辦法在實(shí)際研究中使用較多,但問題在于,如果實(shí)際研究中并不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時(shí)可能只有嶺回歸最為適合了。嶺回歸是當(dāng)前解決共線性問題最有效的解釋辦法。 使用路徑:SPSSAU>進(jìn)階方法>嶺回歸 其他說明1.多重共線性是普遍存在的,輕微的多重共線性問題可不采取措施,如果VIF值大于10說明共線性很嚴(yán)重,這種情況需要處理,如果VIF值在5以下不需要處理,如果VIF介于5~10之間視情況而定。 2.如果模型僅用于預(yù)測(cè),則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用于預(yù)測(cè)時(shí),往往不影響預(yù)測(cè)結(jié)果。 登錄SPSSAU官網(wǎng)體驗(yàn)在線數(shù)據(jù)分析。 |
|