上一期介紹了非條件Logistic回歸的SAS實現(xiàn),今天介紹條件Logistic回歸的SAS實現(xiàn)。 三、Logistic回歸模型的SAS實現(xiàn) 2. 條件Logistic回歸模型 某北方城市研究喉癌發(fā)病的危險因素,用1:2匹配的病例-對照研究方法進行了調查,現(xiàn)選取了6個可能的危險因素并節(jié)錄25對數(shù)據(jù)(數(shù)據(jù)來源于孫振球主編《醫(yī)學統(tǒng)計學》第四版)。各因素的賦值說明見表11-7。 表11-7 喉癌危險因素賦值表 /*PHREG沒有DES選擇項,將CASE轉換成對照為1,病例為0,這樣可以求出CASE=1的概率*/ DATA LOG2; SET LOG1; CASE=1-CASE; RUN; PROC PHREG DATA=LOG2; MODEL CASE=PHARYNGITIS SOMKING SOUND VEGE FCH/TIES=DISCRETE RISKLIMITS; STRATA CODE; RUN; 圖11-22 條件Logistic回歸模型檢驗結果 圖11-23 條件Logistic模型最大似然估計結果 條件Logistic回歸模型的過程步一般應用生存數(shù)據(jù)風險回歸分析的PROC PHREG過程步。該數(shù)據(jù)應用逐步回歸篩選了4個變量進入模型。圖11-11的回歸模型檢驗結果顯示:自變量吸煙、聲嘶史、攝食新鮮蔬菜、癌癥家庭史對喉部的影響有統(tǒng)計學意義,其中攝食新鮮蔬菜是保護因素。 數(shù)據(jù)必須來自于隨機樣本;因變量Yi與被假設為K個自變量xki的函數(shù);logistic回歸的多重共線性問題;logistic回歸的因變量是分類變量,自變量可以是連續(xù)變量,也可以是離散變量或虛擬變量;不要求自變量間存在多元正態(tài)分布,但是,自變量間存在多元正態(tài)分布能夠增加模型的功效。 Logistic回歸的所有統(tǒng)計推斷都建立在大樣本基礎上,因此要求有足夠的樣本含量。經(jīng)驗上來說,病例和對照人數(shù)應至少各有30~50例,模型中的自變量越多樣本量也越大。對于配對資料,樣本量應是納入模型中自變量個數(shù)的20倍以上。也有人提出,多元Logistic回歸模型的樣本含量應是模型中自變量個數(shù)的10~20倍。 當因變量是多個類別時,需要要對所擬合的模型進行平行性檢驗,即檢驗各個自變量在不同累計概率的回歸系數(shù)是否相同。SAS軟件采用似然比方法檢驗不同累計概率曲線是否平行。當平行性假設不能滿足時,說明資料不適合大序Logistic回歸模型,應采用多分類Logistic回歸模型。 研究者通常通過在模型中納入一系列自變量,再通過剔除統(tǒng)計學上無統(tǒng)計學意義的變量或系數(shù)接近于零或影響甚微的變量,從而找到最簡潔且能夠解釋因變量的模型。但是在刪減變量時一定要謹慎,刪減變量的好處在于節(jié)約了一個自由度,得到了更簡潔的模型,但其缺點是可能導致模型設定錯誤,從而影響回歸系數(shù)的解釋。因此,在樣本量很大時,節(jié)約幾個自由度帶來的統(tǒng)計力的提高就不那么重要了,而模型設定錯誤帶來的風險更需要重視,在這種情況下刪減變量必須十分謹慎。 分析非實驗數(shù)據(jù)時,在回歸模型中加入交互效應是一種常用的方法。在Logistic回歸模型中加入交互效應最常用的方法就是加入一個乘積項。當Logistic回歸中含有虛擬變量的交互項時,虛擬變量的系數(shù)就不再是傳統(tǒng)意義上的“主效應”,而是指當調節(jié)變量取值是0時,該虛擬變量中賦值為1的組與對照組的發(fā)生比值比,交互項系數(shù)的指數(shù)值則是兩個優(yōu)比的比值。 Logistic回歸模型在醫(yī)學研究中應用非常廣泛,常用于流行病學的病因學研究篩選危險因素,校正混雜因素,預測疾病或事件發(fā)生的概率,判別分類,分析藥物或毒物的劑量反應關系等。 整理不易,歡迎點亮再看哦!
參考文獻: [1] 高惠璇. SAS系統(tǒng)SAS/STAT軟件使用手冊[M]. 北京:中國統(tǒng)計出版社, 1997. [2] 孫振球, 徐勇勇. 醫(yī)學統(tǒng)計學[M].北京:人民衛(wèi)生出版社, 2014. [3] 張家放. 醫(yī)用多元統(tǒng)計方法[M]. 武漢:華中科技大學出版社, 2002. [4] 武松. SPSS實戰(zhàn)與統(tǒng)計思維[M]. 北京:清華大學出版社, 2017.
|