【原】快速掌握Logistic回歸分析及應(yīng)用，SPSSAU文章

Mark_killua 2020-01-16

展開全文

導(dǎo)語：影響關(guān)系研究是所有研究中最為常見的。我們都知道當(dāng)Y是定量數(shù)據(jù)時，線性回歸可以用來分析影響關(guān)系。如果現(xiàn)在想對某件事情發(fā)生的概率進行預(yù)估，比如一件衣服的是否有人想購買？這里的Y是“是否愿意購買”，屬于分類數(shù)據(jù)，所以不能使用回歸分析。

如果Y為定類數(shù)據(jù)，研究影響關(guān)系，正確做法是選擇Logistic回歸分析。

一、概念

Logistic回歸分析也用于研究影響關(guān)系，即X對于Y的影響情況。Y為定量數(shù)據(jù)，X可以是定量數(shù)據(jù)或定類數(shù)據(jù)。

Logistic回歸和線性回歸最大的區(qū)別在于，Y的數(shù)據(jù)類型。線性回歸分析的因變量Y屬于定量數(shù)據(jù)，而Logistic回歸分析的因變量Y屬于分類數(shù)據(jù)。（還不理解什么是數(shù)據(jù)類型？戳鏈接：基本概念）

二、 Logistic回歸分類

Logistic回歸在進一步細分，又可分為二元Logit（Logistic）回歸、多分類Logit（Logistic）回歸，有序Logit（Logistic）回歸。

如果Y值僅兩個選項，分別是有和無之類的分類數(shù)據(jù)，選擇二元Logistic回歸分析。Y值的選項有多個，并且選項之間沒有大小對比關(guān)系，則可以使用多元Logistic回歸分析。Y值的選項有多個，并且選項之間可以對比大小關(guān)系，選項具有對比意義，應(yīng)該使用多元有序Logistic回歸分析。

三、Logistic回歸的使用場景

Logistic回歸分析可用于估計某個事件發(fā)生的可能性，也可分析某個問題的影響因素有哪些。

醫(yī)學(xué)研究中，Logistic回歸常用于對某種疾病的危險因素分析。像是分析年齡、吸煙、飲酒、飲食情況等是否屬于2型糖尿病的危險因素。

問卷研究中，Logistic回歸常被用在分析非量表題上，像是將樣本基本背景信息作為X，購買意愿作為Y，分析性別、年齡、家庭條件是否會影響購買意愿。

其中，二元Logistic回歸分析的使用頻率最高，使用簡單方便容易理解和描述，下面以二元Logistic回歸為例，對操作步驟，及結(jié)果解讀進行說明。

四、案例應(yīng)用

（1）背景

有一份關(guān)于大學(xué)生對某商品購買意愿的調(diào)查問卷。共收集到468份問卷數(shù)據(jù)，研究者要將“性別”、“年齡”、“專業(yè)”、“月生活費”四個變量作為潛在的影響因素，購買意愿為Y，做二元Logistic回歸分析。

這些自變量中，性別和文化程度是定類數(shù)據(jù)，需要設(shè)定對照參考項，這里將女生和醫(yī)學(xué)專業(yè)作為對比參照項。年齡和月收入為定量數(shù)據(jù)直接放入。

（2）分析步驟

①數(shù)據(jù)預(yù)處理

首先將定類數(shù)據(jù)做啞變量處理，SPSSAU要求Logistic回歸Y值只可為1和0，不能取其他數(shù)字。所以在正式分析前，還要處理下Y值。操作示意圖如下：

SPSSAU啞變量處理

Y值編碼

②二元Logistic回歸分析

將全部分析項（設(shè)成啞變量的要少放一項）放入分析框內(nèi)，點擊開始二元Logit回歸。

使用路徑：進階方法 > 二元Logit

（3）結(jié)果分析

SPSSAU共輸出四個結(jié)果表格，分別是基本匯總表、似然比檢驗表、二元Logit回歸分析表、預(yù)測準(zhǔn)確率表。

①基礎(chǔ)匯總表

表1 基本信息匯總

表1為基礎(chǔ)匯總表，主要用來匯總數(shù)據(jù)信息，查看Y值的分布比例以及是否有缺失數(shù)據(jù)。如果缺失數(shù)據(jù)過多，或者Y值分布非常不均勻，可能會導(dǎo)致模型質(zhì)量較差。

從上表可知，將性別, 年齡, 專業(yè), 月生活費作為自變量，而將new_購買意愿作為因變量進行二元Logit回歸分析，從上表可以看出，總共有468個樣本參加分析，并且沒有缺失數(shù)據(jù)。

②似然比檢驗表

表2 二元Logit回歸模型似然比檢驗結(jié)果

表2為模型似然比檢驗結(jié)果，用于分析模型整體是否有效。主要關(guān)注P值，AIC和BIC值用于多次分析時的對比；兩個值越低越好；如果多次進行分析，可對比此兩個值的變化情況，說明模型構(gòu)建的優(yōu)化過程。

從上表可知：此處模型檢驗的原定假設(shè)為：是否放入自變量（性別_男, 理工類, 文科類, 藝體類, 年齡, 月生活費）兩種情況時模型質(zhì)量均一樣；這里P值小于0.05，因而說明拒絕原定假設(shè)，即說明本次構(gòu)建模型時，放入的自變量具有有效性，本次模型構(gòu)建有意義。

SPSSAU智能文字分析

③回歸分析匯總表

表3 二元Logit回歸分析結(jié)果匯總

表3為二元Logistic回歸分析結(jié)果，用于分析模型整體情況，以及每個X對Y的影響情況（顯著性、影響程度等）。

其中主要關(guān)注P值，回歸系數(shù)，OR值和R Pseudo R2。

P值：判斷X對Y是否呈現(xiàn)出顯著性的影響，P<0.05說明X會對Y產(chǎn)生影響關(guān)系。

回歸系數(shù)：回歸系數(shù)值，當(dāng)P小于0.05時有意義。

OR值：優(yōu)勢比，值與1作比較，越接近1影響程度越小，反之影響程度越大。

Pseudo R2：用于說明模型整體情況。

從上表可知，模型偽R平方值（Pseudo R平方）為0.089，意味所有變量能解釋購買意愿的8.9%變化原因。根據(jù)P值及OR值取值可知，理工類、藝體類、年齡對購買意愿有顯著性的正向影響，意味著相比醫(yī)學(xué)專業(yè)學(xué)生，理工、藝體專業(yè)學(xué)生的購買意愿更大；以及購買意愿隨著年齡增長而提高。

④模型預(yù)測準(zhǔn)確率匯總表