在前期內(nèi)容中,我們介紹了如何對數(shù)據(jù)進行標準化處理,將原始的連續(xù)型變量轉(zhuǎn)化為一個無量綱的標準化數(shù)值,消除不同變量之間因性質(zhì)、量綱、數(shù)量級等屬性的差異而帶來的影響,從而使不同變量的效應大小具有可比性,因此數(shù)據(jù)的標準化處理在實際的統(tǒng)計分析中也得到了較為廣泛的應用。 那么,提到不同變量的效應大小,大家一定會聯(lián)想到在多因素回歸模型中所得到的回歸系數(shù)。例如,我們假設(shè)自變量分別為身高和體重,根據(jù)回歸系數(shù)很容易就知道每增加1cm的身高或每增加1kg的體重,引起的對因變量Y的影響大小,但是兩者相比之下,到底誰的作用大誰的作用小呢? 原始的回歸系數(shù)已經(jīng)無法回答這樣的問題,我們需要借助標準化回歸系數(shù)來進行判斷,今天我們就來向大家介紹一下,在回歸模型中這個標準化回歸系數(shù)到底是個什么鬼? 標準化回歸系數(shù) VS 未標準化回歸系數(shù) 1、未標準化回歸系數(shù) 通常我們在構(gòu)建多因素回歸模型時,方程中呈現(xiàn)的是未標準化回歸系數(shù),它是方程中不同自變量對應的原始的回歸系數(shù)。它反映了在其他因素不變的情況下,該自變量每變化一個單位對因變量的作用大小。通過未標準化回歸系數(shù)和常數(shù)項構(gòu)建的方程,便可以對因變量進行預測,并得出結(jié)論。 2、標準化回歸系數(shù) 而對于標準化回歸系數(shù),它是在對自變量和因變量同時進行標準化處理后所得到的回歸系數(shù),數(shù)據(jù)經(jīng)過標準化處理后消除了量綱、數(shù)量級等差異的影響,使得不同變量之間具有可比性,因此可以用標準化回歸系數(shù)來比較不同自變量對因變量的作用大小。 通常我們主要關(guān)注的是標準化回歸系數(shù)的絕對值大小,絕對值越大,可認為它對因變量的影響就越大。 3、兩者的區(qū)別 未標準化回歸系數(shù)體現(xiàn)的是自變量變化對因變量的絕對作用大小,而標準化回歸系數(shù)反映的是不同自變量對因變量的相對作用大小,可以顯示出不同自變量對因變量影響的重要性。 如果用標準化回歸系數(shù)構(gòu)建方程,得到的結(jié)論是有偏差的,因為此時自變量和因變量的數(shù)據(jù)都發(fā)生了轉(zhuǎn)化,成為了標準化數(shù)據(jù),因此標準化回歸系數(shù)不能用于構(gòu)建回歸方程。 標準化回歸系數(shù) VS 每變化1個標準差的回歸系數(shù) 我們在前期文章《回歸模型中引入連續(xù)變量,還有哪些玩法?》中,介紹到對于連續(xù)型變量,在納入多因素回歸模型中時,可以將其轉(zhuǎn)變?yōu)槊孔兓?個標準差的形式,具體的操作方法是對原始的自變量進行標準化處理,然后再帶入到回歸模型中,所得到的回歸系數(shù)即為該自變量每變化1個標準差對應的回歸系數(shù)。 那么,我們假設(shè)此時有兩個自變量,一個自變量的標準差為1,另一個自變量的標準差為100,兩者對因變量都具有一定的影響。如果用上述每增加1個標準差對應的回歸系數(shù),來判斷哪個自變量對因變量的影響更大的話,當同樣變化1個標準差時,第一個自變量只需要改變1個單位,而第二個自變量則需要改變100個單位,因此標準差大的自變量改變起來就顯得比較困難。此時,我們就需要用標準化回歸系數(shù)來救場。 每增加1個標準差對應的回歸系數(shù),反映的是自變量每變化1個標準差時對因變量原始值變化產(chǎn)生的影響。而標準化回歸系數(shù),它反映的是自變量每變化1個標準差時,對因變量變化1個標準差產(chǎn)生的影響。 在計算每增加1個標準差對應的回歸系數(shù)時,我們只需要對原始自變量進行標準化處理;而如果要計算標準化回歸系數(shù),則需要對原始的自變量和因變量同時進行標準化處理,標準化為標準正態(tài)分布對應的值后再構(gòu)建回歸模型。 SPSS操作 一、研究實例 某研究人員收集了100名研究對象的最大攝氧量(VO2 max),并記錄了他們的年齡、體重、心率等信息,擬探討年齡、體重、心率對VO2 max的作用大小,同時評價上述哪一個因素對VO2 max的影響作用更大。 二、操作步驟 1、多重線性回歸 (操作步驟參考文章《SPSS實例教程:多重線性回歸,你用對了么?》)
根據(jù)多重線性回歸分析的結(jié)果,回歸方程可寫為: VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate 其實不難發(fā)現(xiàn),在SPSS的回歸結(jié)果中,不僅展示了未標準化回歸系數(shù)(Unstandardized Coefficients),同時也得出了標準化回歸系數(shù)(Standardized Coefficients)。 注意,未標準化回歸系數(shù)更大的自變量,其標準化回歸系數(shù)不一定更大。例如本例中,age的未標準化回歸系數(shù)絕對值為0.188,大于weight的絕對值0.184,但是weight的標準化回歸系數(shù)絕對值為0.325,卻大于age的標準化回歸系數(shù)絕對值0.200,說明weight對于VO2 max的影響較age更大。 2、數(shù)據(jù)標準化處理 (操作步驟參考前期推送文章《你聽說過數(shù)據(jù)標準化處理嗎?》) 雖然SPSS在回歸結(jié)果中可以直接輸出標準化回歸系數(shù),但為了加深對它的理解,我們可以親自對數(shù)據(jù)進行一遍標準化處理,對上述結(jié)果進行一下驗證。 Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables 通過上述步驟分別生成4個標準化處理后的新變量。 3、標準化回歸系數(shù) 在進行多重線性回歸時,以VO2 max的標準化形式作為因變量,以age、 weight、 heart_rate的標準化形式作為自變量構(gòu)建模型。結(jié)果發(fā)現(xiàn),所得的結(jié)果與上述結(jié)果一致。 相互轉(zhuǎn)換關(guān)系 今天我們介紹了未標準化回歸系數(shù)、每變化1個標準差的回歸系數(shù)、以及標準化回歸系數(shù),最后再跟大家補充一下三者之間的相互轉(zhuǎn)換關(guān)系。 每變化1個標準差的回歸系數(shù) = 未標準化回歸系數(shù) * 該自變量的標準差 標準化回歸系數(shù) = 未標準化回歸系數(shù) * 該自變量的標準差 / 因變量的標準差 大家可以根據(jù)上述轉(zhuǎn)換關(guān)系自行進行驗證哈。 哦,對了,細心的同學會發(fā)現(xiàn),在SPSS中多重線性回歸可以直接輸出標準化回歸系數(shù),但是在logistic回歸中,SPSS只能輸出原始的未標準化的回歸系數(shù),如果我們想要計算logistic回歸的標準化回歸系數(shù),比較不同自變量對因變量的相對作用大小,應該怎么辦呢? 根據(jù)上述標準化回歸系數(shù)的轉(zhuǎn)換關(guān)系,在logistic回歸中隨機變量分布函數(shù)的標準差為π / √3 = 1.8138[1],故標準化回歸系數(shù) = 未標準化回歸系數(shù) * 該自變量的標準差 / 1.8138,即可計算logistic回歸的標準化回歸系數(shù)。 參考文獻 [1] 宋娜. 多元Logistic分布及其參數(shù)估計[D]. 北京工業(yè)大學, 2007. |
|