導(dǎo)語:影響關(guān)系研究是所有研究中最為常見的。我們都知道當(dāng)Y是定量數(shù)據(jù)時,線性回歸可以用來分析影響關(guān)系。如果現(xiàn)在想對某件事情發(fā)生的概率進行預(yù)估,比如一件衣服的是否有人想購買?這里的Y是“是否愿意購買”,屬于分類數(shù)據(jù),所以不能使用回歸分析。 如果Y為定類數(shù)據(jù),研究影響關(guān)系,正確做法是選擇Logistic回歸分析。 一、概念Logistic回歸分析也用于研究影響關(guān)系,即X對于Y的影響情況。Y為定量數(shù)據(jù),X可以是定量數(shù)據(jù)或定類數(shù)據(jù)。 Logistic回歸和線性回歸最大的區(qū)別在于,Y的數(shù)據(jù)類型。線性回歸分析的因變量Y屬于定量數(shù)據(jù),而Logistic回歸分析的因變量Y屬于分類數(shù)據(jù)。(還不理解什么是數(shù)據(jù)類型?戳鏈接:基本概念) 二、 Logistic回歸分類Logistic回歸在進一步細分,又可分為二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸。 如果Y值僅兩個選項,分別是有和無之類的分類數(shù)據(jù),選擇二元Logistic回歸分析。Y值的選項有多個,并且選項之間沒有大小對比關(guān)系,則可以使用多元Logistic回歸分析。Y值的選項有多個,并且選項之間可以對比大小關(guān)系,選項具有對比意義,應(yīng)該使用多元有序Logistic回歸分析。 三、Logistic回歸的使用場景Logistic回歸分析可用于估計某個事件發(fā)生的可能性,也可分析某個問題的影響因素有哪些。 醫(yī)學(xué)研究中,Logistic回歸常用于對某種疾病的危險因素分析。像是分析年齡、吸煙、飲酒、飲食情況等是否屬于2型糖尿病的危險因素。 問卷研究中,Logistic回歸常被用在分析非量表題上,像是將樣本基本背景信息作為X,購買意愿作為Y,分析性別、年齡、家庭條件是否會影響購買意愿。 其中,二元Logistic回歸分析的使用頻率最高,使用簡單方便容易理解和描述,下面以二元Logistic回歸為例,對操作步驟,及結(jié)果解讀進行說明。 四、案例應(yīng)用(1)背景 有一份關(guān)于大學(xué)生對某商品購買意愿的調(diào)查問卷。共收集到468份問卷數(shù)據(jù),研究者要將“性別”、“年齡”、“專業(yè)”、“月生活費”四個變量作為潛在的影響因素,購買意愿為Y,做二元Logistic回歸分析。 這些自變量中,性別和文化程度是定類數(shù)據(jù),需要設(shè)定對照參考項,這里將女生和醫(yī)學(xué)專業(yè)作為對比參照項。年齡和月收入為定量數(shù)據(jù)直接放入。 (2)分析步驟 ①數(shù)據(jù)預(yù)處理 首先將定類數(shù)據(jù)做啞變量處理,SPSSAU要求Logistic回歸Y值只可為1和0,不能取其他數(shù)字。所以在正式分析前,還要處理下Y值。操作示意圖如下: SPSSAU啞變量處理 Y值編碼 ②二元Logistic回歸分析 將全部分析項(設(shè)成啞變量的要少放一項)放入分析框內(nèi),點擊開始二元Logit回歸。 使用路徑:進階方法 > 二元Logit (3)結(jié)果分析 SPSSAU共輸出四個結(jié)果表格,分別是基本匯總表、似然比檢驗表、二元Logit回歸分析表、預(yù)測準(zhǔn)確率表。 ①基礎(chǔ)匯總表 表1 基本信息匯總 表1為基礎(chǔ)匯總表,主要用來匯總數(shù)據(jù)信息,查看Y值的分布比例以及是否有缺失數(shù)據(jù)。如果缺失數(shù)據(jù)過多,或者Y值分布非常不均勻,可能會導(dǎo)致模型質(zhì)量較差。 從上表可知,將性別, 年齡, 專業(yè), 月生活費作為自變量,而將new_購買意愿作為因變量進行二元Logit回歸分析,從上表可以看出,總共有468個樣本參加分析,并且沒有缺失數(shù)據(jù)。 ②似然比檢驗表 表2 二元Logit回歸模型似然比檢驗結(jié)果 表2為模型似然比檢驗結(jié)果,用于分析模型整體是否有效。主要關(guān)注P值,AIC和BIC值用于多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構(gòu)建的優(yōu)化過程。 從上表可知:此處模型檢驗的原定假設(shè)為:是否放入自變量(性別_男, 理工類, 文科類, 藝體類, 年齡, 月生活費)兩種情況時模型質(zhì)量均一樣;這里P值小于0.05,因而說明拒絕原定假設(shè),即說明本次構(gòu)建模型時,放入的自變量具有有效性,本次模型構(gòu)建有意義。 SPSSAU智能文字分析 ③回歸分析匯總表 表3 二元Logit回歸分析結(jié)果匯總 表3為二元Logistic回歸分析結(jié)果,用于分析模型整體情況,以及每個X對Y的影響情況(顯著性、影響程度等)。 其中主要關(guān)注P值,回歸系數(shù),OR值和R Pseudo R2。 P值:判斷X對Y是否呈現(xiàn)出顯著性的影響,P<0.05說明X會對Y產(chǎn)生影響關(guān)系。 回歸系數(shù):回歸系數(shù)值,當(dāng)P小于0.05時有意義。 OR值:優(yōu)勢比,值與1作比較,越接近1影響程度越小,反之影響程度越大。 Pseudo R2:用于說明模型整體情況。 從上表可知,模型偽R平方值(Pseudo R平方)為0.089,意味所有變量能解釋購買意愿的8.9%變化原因。根據(jù)P值及OR值取值可知,理工類、藝體類、年齡對購買意愿有顯著性的正向影響,意味著相比醫(yī)學(xué)專業(yè)學(xué)生,理工、藝體專業(yè)學(xué)生的購買意愿更大;以及購買意愿隨著年齡增長而提高。 ④模型預(yù)測準(zhǔn)確率匯總表 表4 二元Logit回歸預(yù)測準(zhǔn)確率匯總? 表4為二元Logit回歸預(yù)測準(zhǔn)確率表,用于在分析后對模型質(zhì)量進行判斷。 從上表可知:研究模型的整體預(yù)測準(zhǔn)確率為77.14%,模型擬合情況比較糟糕。當(dāng)真實值為不購買時,預(yù)測錯誤率為79.51%;另外當(dāng)真實值為購買時,預(yù)測錯誤率為2.89%。 如果實際研究中,數(shù)據(jù)預(yù)測準(zhǔn)確率很低,比如低于85%,此時可以考慮刪除部分X,也或者對X進行一些數(shù)據(jù)編碼組合處理,多次進行二元Logit回歸分析進行對比結(jié)果,選出最優(yōu)的模型結(jié)果。這里就不再繼續(xù)說明。 五、其他說明1、注意因變量的賦值和啞變量參考項的選擇。Y對應(yīng)的數(shù)字一定只能為0和1;如果不是,可以使用‘?dāng)?shù)據(jù)編碼’功能設(shè)置。啞變量選擇不同的選項作為參考項,其結(jié)果意義不相同。 2、如果X的個數(shù)非常多(比如超過10個),需要先進行甄別選擇出有意義的X,比如使用方差分析或者卡方分析,選出X與Y有顯著差異的X放入二元logit回歸模型中。 登錄SPSSAU官網(wǎng)體驗在線數(shù)據(jù)分析 |
|