1、問題與數(shù)據(jù) 研究表明,運動有助于預(yù)防心臟病。一般來說,運動越多,心臟病的患病風險越小。其原因之一在于,運動可以降低血膽固醇濃度。近期研究顯示,一項久坐的生活指標—看電視時間,可能是罹患心臟病的預(yù)測因素。即看電視時間越長,心臟病的患病風險越大。 研究者擬在45-65歲健康男性人群中分析膽固醇濃度與看電視時間的關(guān)系。他們猜測可能存在正向相關(guān),即看電視時間越長,膽固醇濃度越高。同時,他們也希望預(yù)測膽固醇濃度,并計算看電視時間對膽固醇濃度的解釋能力。 研究者收集了受試者每天看電視時間(time_tv)和膽固醇濃度(cholesterol)等變量信息,部分數(shù)據(jù)如下: 2、對問題的分析 研究者想判斷兩個變量之間的關(guān)系,同時用其中一個變量(看電視時間)預(yù)測另一個變量(膽固醇濃度),并計算其中一個變量(看電視時間)對另一個變量(膽固醇濃度)變異的解釋程度。針對這種情況,我們可以使用簡單線性回歸分析,但需要先滿足7項假設(shè): 假設(shè)1:因變量是連續(xù)變量 假設(shè)2:自變量可以被定義為連續(xù)變量 假設(shè)3:因變量和自變量之間存在線性關(guān)系 假設(shè)4:具有相互獨立的觀測值 假設(shè)5:不存在顯著的異常值 假設(shè)6:等方差性 假設(shè)7:回歸殘差近似正態(tài)分布 那么,進行簡單線性回歸分析時,如何考慮和處理這7項假設(shè)呢? 3、思維導(dǎo)圖 (點擊圖片可查看清晰大圖) 4、對假設(shè)的判斷 因變量是連續(xù)變量,自變量可以被定義為連續(xù)變量。 舉例來說,我們平時測量的反應(yīng)時間(小時)、智力水平(IQ分數(shù))、考試成績(0到100分)以及體重(千克)都是連續(xù)變量。在線性回歸中,因變量(dependent variable)一般是指研究的成果、目標或者標準值;自變量(independent variable)一般被看作預(yù)測、解釋或者回歸變量。 假設(shè)1和假設(shè)2與研究設(shè)計有關(guān),需要根據(jù)實際情況判斷。 簡單線性回歸要求自變量和因變量之間存在線性關(guān)系,如要求看電視時間(time_tv)和膽固醇濃度(cholesterol)存在線性關(guān)系。 判斷變量之間是否存在線性關(guān)系的方法有很多,我們主要向大家介紹散點圖法,即通過因變量和自變量的散點圖進行直觀地判斷。如果散點趨向于構(gòu)成一條直線,那么因變量和自變量之間存在線性關(guān)系;如果構(gòu)成曲線,就不存在線性關(guān)系,舉例如下: 這樣的散點圖用SPSS怎么畫呢? (1) 在主菜單點擊Graphs→Chart Builder 出現(xiàn)下圖: (2) 在Chart Builder對話框下,從Choose from選擇Scatter/Dot (3) 在中下部的8種圖形中,選擇左上角的那一種(如果點擊這個圖標會出現(xiàn)“Simple Scatter”字樣),并拖拽到主對話框中 (4) 主對話框中會出現(xiàn)標記“Y-Axis?”和“X-Axis?”的方框 (5) 將看電視時間(time_tv)和膽固醇濃度(cholesterol)變量分別拖拽到“X-Axis?”和“Y-Axis?”方框內(nèi) (6) 在Element Properties框內(nèi)點擊Y-Axis1 (Point1) (7) 在Scale Range框內(nèi)取消對Minimum的勾選 (8) 點擊Apply→OK,完成散點圖 那么,我們應(yīng)該如何通過散點圖判斷是否存在線性關(guān)系呢? 我們可以通過簡單的視覺判斷散點分布是否構(gòu)成直線,舉例如下: 值得注意的是,你可能對右圖為什么沒有線性關(guān)系存在疑問。我們認為簡單線性回歸中因變量和自變量的線性關(guān)系是指因變量會隨自變量的變化而發(fā)生改變。而雖然右圖的散點分布可以構(gòu)成直線,但是這條直線與X軸平行,證明其因變量不隨自變量變化。因此我們認為右圖不存在線性關(guān)系。 從上文的結(jié)果散點圖可以看出,本研究中看電視時間和膽固醇濃度存在線性關(guān)系。同時也提示,他們之間的線性關(guān)系是正向的,即膽固醇濃度(Y)隨看電視時間(X)的增加而增加。但無論是正向的,還是負向的,只要因變量和自變量之間存在線性關(guān)系,我們就完成了對假設(shè)3的檢驗。 為了檢驗假設(shè)4-7,我們需要在SPSS中運行簡單線性回歸,并對結(jié)果進行一一分析。 (1) 點擊Analyze→ Regression→ Linear 出現(xiàn)下圖: (2) 將看電視時間(time_tv)和膽固醇濃度(cholesterol)分別放入Independent和Dependent欄 (3) 點擊Statistics,彈出下圖 (4) 在Regression Coefficient框內(nèi)點選Confidence intervals,并在Residuals框內(nèi)點選Durbin-Watson和Casewise diagnosis (5) 點擊Continue,回到主界面 (6) 點擊Plots,彈出下圖 (7) 分別在“Y:”和“X:”框內(nèi)添加“*ZRESID”和“*ZPRED” (8) 在Standardized Residual Plots中點選Histogram和Normal probability plot (9) 點擊Continue→OK 根據(jù)結(jié)果,我們將逐一對假設(shè)4-7進行檢驗。
經(jīng)過上述操作,SPSS輸出Durbin-Watson檢驗結(jié)果為: 本研究Durbin-Watson檢驗值為1.957。一般來說,Durbin-Watson檢驗值分布在0-4之間,越接近2,觀測值相互獨立的可能性越大。即,本研究中簡單線性回歸的觀測值具有相互獨立性,滿足假設(shè)4。 但不得不說,Durbin-Watson檢驗不是萬能的。它僅適用于對鄰近觀測值相關(guān)性的檢驗(1st-order autocorrelation)。舉例來說,我們一般按照調(diào)查順序錄入數(shù)據(jù),將第一位受試者錄入到第一行,再將第二位受試者錄入到第二行。在這種情況下,Durbin-Watson檢驗可以檢測出第一位受試者和第二位受試者之間的相關(guān)性。 但是如果我們亂序錄入數(shù)據(jù),將第一位受試者和可能與他存在自相關(guān)的第二位受試者離得很遠,Durbin-Watson檢驗的結(jié)果就不準確了。因此,我們需要慎重對待Durbin-Watson檢驗的結(jié)果。 其實,觀測值是否相互獨立與研究設(shè)計有關(guān)。如果研究者確信觀測值不會相互影響,我們甚至可以不進行Durbin-Watson檢驗,直接認定研究滿足假設(shè)4。
在簡單線性回歸中,異常值是指觀測值與預(yù)測值相差較大的數(shù)據(jù)。這些數(shù)據(jù)不僅影響回歸統(tǒng)計,還對殘差的變異度和預(yù)測值的準確性有負面作用,并阻礙模型的最佳擬合。因此,我們必須充分重視回歸的異常值。從看電視時間(time_tv)和膽固醇濃度(cholesterol)的散點圖可以看出,本研究存在潛在異常值,如下圖標記點: 但是,我們必須注意,由于橫縱坐標比例的影響,散點圖的直觀結(jié)果并不可靠。我們需要經(jīng)過Casewise Diagnostics檢驗進行客觀分析。 經(jīng)過上述操作,SPSS輸出Casewise Diagnostics檢驗結(jié)果為: 結(jié)果顯示,本研究的第91例數(shù)據(jù)是潛在異常值,標準殘差為4.059。一般來說,Casewise Diagnostics檢驗標準是上下3倍標準差,并標記超出此范圍的數(shù)據(jù)為潛在異常值。同時,該結(jié)果也顯示膽固醇濃度的實際值為7.98,而根據(jù)潛在異常值預(yù)測的膽固醇濃度為5.7977,差值為2.18233。根據(jù)這些指標,本研究直接剔除第91例數(shù)據(jù),重新進行檢驗和數(shù)據(jù)分析。 其實,Casewise Diagnostics檢驗檢測的異常值主要是離群值,如果大家對檢測別的異常值感興趣,可以看我們今后關(guān)于杠桿值和影響點的詳細介紹。
等方差性是簡單線性回歸的基本假設(shè),可以通過殘差與回歸擬合值或標準化殘差與標準化預(yù)測值之間的散點圖進行檢驗。經(jīng)過上述操作,SPSS輸出結(jié)果如下: 如果存在等方差性,不同擬合值對應(yīng)的殘差應(yīng)大致相同。即圖中各點均勻分布,不會出現(xiàn)特殊的分布形狀。 如果殘差點分布不均勻,形成漏斗或者扇形,那么回歸就不具有等方差性,如下圖: (注:increasing funnel, 上升漏斗;decreasing funnel, 下降漏斗;fan shaped, 扇形) 本研究結(jié)果顯示,標準化殘差與標準化預(yù)測值散點圖中各點均勻分布,雖然在中部相對集中,但不是十分嚴重。據(jù)此,我們認為該回歸符合等方差性的基本假設(shè),即滿足假設(shè)6。 當然,如果研究結(jié)果提示不滿足等方差性假設(shè),我們也可以通過一些統(tǒng)計手段進行矯正。比如,采用加權(quán)最小二乘法進行回歸,改用更加穩(wěn)健的回歸或者有穩(wěn)健標準差結(jié)果的回歸以及轉(zhuǎn)換數(shù)據(jù)等。(之后的文章我們會詳細介紹~)
(1) 柱狀圖 經(jīng)上述操作,SPSS輸出結(jié)果如下: 從圖中可以看出,該回歸的標準化殘差近似正態(tài)分布。但是由于橫縱坐標比例的影響,柱狀圖的結(jié)果可能不準確,我們需要繪制正態(tài)P-P圖進一步驗證。 (2) 正態(tài)P-P圖 正態(tài)P-P圖是專門檢驗數(shù)據(jù)正態(tài)性的工具,準確性較好。經(jīng)上述操作,SPSS輸出結(jié)果如下: 正態(tài)P-P圖各點分布離對角線越近,提示數(shù)據(jù)越接近于正態(tài)分布;如果各點剛好落在對角線上,那么數(shù)據(jù)就是正態(tài)分布。簡單線性回歸僅要求回歸殘差接近于正態(tài)分布,因此根據(jù)上圖,我們認為該研究滿足假設(shè)7。 同時,值得注意的是,相較于柱狀圖,正態(tài)P-P圖可以更加明顯、準確地判斷數(shù)據(jù)的正態(tài)性,具體對比如下。這提示,在判斷正態(tài)性時,應(yīng)謹慎對待柱狀圖的結(jié)果,結(jié)合正態(tài)P-P圖進行全面分析。 (注:positive skewness, 正偏;negative skewness, 負偏;positive kurtosis,正峰度;negative kurtosiss, 負峰度;Histogram, 柱狀圖;normal Q-Q Plot, 正態(tài)P-P圖) 5、結(jié)果解釋 簡單線性回歸可以得到3個主要結(jié)果: (1) 自變量解釋因變量變異的比例 (2) 根據(jù)新增的自變量預(yù)測因變量 (3)自變量改變一個單位,因變量的變化情況 為了更好地解釋和報告簡單線性回歸的結(jié)果,我們需要統(tǒng)計以下3個方面: (1) 線性回歸模型的擬合程度 (2) 回歸系數(shù) (3) 根據(jù)自變量預(yù)測因變量 判斷線性回模型擬合程度的指標有很多,我們主要向大家介紹變異的解釋程度、模型的統(tǒng)計學(xué)意義以及預(yù)測值的準確性(5.3節(jié))3個指標。 5.1.1 變異的解釋程度 SPSS簡單線性回歸輸出的結(jié)果中有Model Summary表格,如下。其中帶有字母“R”的指標(已標黃)與模型對變異的解釋程度有關(guān)。 第一個標黃的指標R是回歸的多重相關(guān)系數(shù)。當簡單線性回歸中只有一個自變量時,R值與因變量和自變量的Pearson相關(guān)系數(shù)相同,代表兩者之間的相關(guān)程度。如該研究中R=0.359,提示膽固醇濃度與看電視時間中等相關(guān)。但實際上,簡單線性回歸并不關(guān)注R值。 第二個標黃的指標R2(R Square)代表回歸模型中自變量對因變量變異的解釋程度,是分析回歸結(jié)果的開始。本研究中,R2=0.129,提示自變量(看電視時間)可以解釋12.9%的因變量(膽固醇濃度)變異。但是,R2是基于樣本數(shù)據(jù)計算出來的,會夸大自變量對因變量變異的解釋程度。 第三個標黃的指標adjusted R2(Adjusted R Square)。 與R2不同的是,它剔除了自變量個數(shù)的影響,準確性更好。本研究中,adjusted R2=0.120,小于R2=0.129,校正了R2對總體自變量對因變量變異解釋程度的夸大作用。同時,adjusted R2也是影響程度的評價指標。本研究中,adjusted R2=0.120,提示中等影響。 5.1.2 模型的統(tǒng)計學(xué)意義 SPSS的輸出結(jié)果中有ANOVA表格,如下: 該表中各指標的含義如下: 結(jié)果顯示,本研究回歸模型具有統(tǒng)計學(xué)意義,F(xiàn)(1, 97)=14.39,P<>P>0.05,則說明該回歸沒有統(tǒng)計學(xué)意義,因變量和自變量之間不存在線性相關(guān)。 本研究的回歸方程可以表示為: cholesterol= b0+(b1×time_tv) 其中,b0是截距,b1是斜率。如果可以得到這兩個指標,我們就可以根據(jù)自變量(看電視時間,time_tv)預(yù)測因變量(膽固醇濃度,cholesterol)了。SPSS對回歸截距和斜率的輸出結(jié)果如下: 在SPSS中,截距被稱為“Constant”,即-0.944,如下: 實際上,我們并不是關(guān)注回歸的截距指標。它是指當自變量為0時,因變量的值。在本研究中,回歸截距提示當看電視時間為0,即從來不看電視時,受調(diào)查者膽固醇濃度的平均值為-0.944mmol/L。這種分析方法是不對的,不僅因為它不符合客觀實際,還因為它存在對數(shù)據(jù)過度挖掘的風險。同時,我們也可以通過P值判斷截距的統(tǒng)計學(xué)意義,如下: 通過P值(P=0.575),我們也可以看出該研究的截距沒有統(tǒng)計學(xué)意義,即截距值(-0.944)與0的差異沒有統(tǒng)計學(xué)意義。必須強調(diào)的是,無論截距的統(tǒng)計檢驗結(jié)果如何,我們在進行簡單線性回歸時都不是十分關(guān)注這項指標。我們主要的關(guān)注指標是斜率,如下標黃的部分: 斜率代表的是自變量每改變一個單位因變量的變化值。在本研究中,看電視時間的斜率是0.037,表示每當看電視時間增加1分鐘,膽固醇濃度增加 0.037mmol/L。 舉例來說,如果某受調(diào)查者看電視時間從170分鐘/天增加到180分鐘/天(增加10分鐘/天),她/他的膽固醇濃度將增加0.037×10=0.370mmol/L。同樣地,我們也可以計算出每當看電視時間增加5、15、20分鐘/天時,對應(yīng)膽固醇濃度的增加值。但是,我們并不能無限制地改變看電視時間。 為了避免對數(shù)據(jù)的過度挖掘,我們一般要求在自變量觀測到的最大值和最小值之間進行計算。 根據(jù)SPSS結(jié)果,我們也可以得到斜率的可能范圍,如下標黃的部分: 從表中可以看出,斜率的95%置信區(qū)間在0.018-0.056mmol/L(Lower Bound,Upper Bound)。同時,在Sig欄可以得到斜率的統(tǒng)計學(xué)檢驗結(jié)果,如下: 斜率的P值為0.000(在報告中應(yīng)記為P<> 如果斜率的P值大于0.05,證明斜率沒有統(tǒng)計學(xué)意義,即斜率值與0的差異沒有統(tǒng)計學(xué)意義,說明因變量和自變量之間不存在線性關(guān)系。在這種情況下,我們不能通過自變量預(yù)測因變量。 將系數(shù)代入回歸方程,得: cholesterol= -0.944+(0.037×time_tv) 根據(jù)這個方程,我們可以計算合理范圍內(nèi)任意看電視時間對應(yīng)的膽固醇濃度。但針對這個例子,僅依靠看電視時間計算膽固醇濃度存在專業(yè)上的質(zhì)疑。因此,我們僅認為看電視時間是久坐生活習慣的一項指標,通過該模型可以對膽固醇濃度做出一些解釋。 簡單線性回歸的一個主要作用就是根據(jù)自變量預(yù)測因變量。正如5.2提到的,我們僅根據(jù)看電視時間預(yù)測膽固醇濃度存在專業(yè)質(zhì)疑,但是為了系統(tǒng)地向大家介紹簡單線性回歸的功能,我們?nèi)杂眠@個例子進行講解。 這一節(jié),我們從根據(jù)回歸方程預(yù)測因變量開始,逐步向大家介紹計算預(yù)測值和95%置信區(qū)間的SPSS操作方法及對預(yù)測結(jié)果的解釋。 5.3.1 根據(jù)回歸方程計算預(yù)測值 根據(jù)SPSS結(jié)果,我們得到本研究的線性回歸方程如下: cholesterol= -0.944+(0.037×time_tv) 我們僅需要將看電視時間代入方程就可以得到膽固醇濃度的預(yù)測值。舉例來說,如果某位受試者每天看電視的時間為180分鐘(3小時),帶入方程如下: 預(yù)測的膽固醇濃度= -0.944+(0.037×180)=5.72 mmol/L 即,當看電視時間為180分鐘/天時,預(yù)測膽固醇濃度為5.72 mmol/L。 這個預(yù)測值有兩種含義。第一,如果我們調(diào)查了目標人群中所有電視時間為180分鐘/天的人,他們膽固醇濃度的平均值應(yīng)為5.72 mmol/L。第二,如果某位受調(diào)查者看電視的時間為180分鐘/天,那么5.72 mmol/L是其膽固醇濃度的最佳估計值。 第二種含義比較難理解,在此我們向大家具體說明一下。大家都知道,即使兩個人看電視的時間相同,他們實際的膽固醇濃度也可能不同。我們用平均值描述他們的情況比用某一個人的實際值好。因此,我們認為用看電視時間為180分鐘/天的受調(diào)查者膽固醇濃度的平均值代表這個群體更好,即5.72 mmol/L是其膽固醇濃度的最佳估計值。 5.3.2 預(yù)測值和95%置信區(qū)間的SPSS操作方法 相較于5.3.1的計算方法,SPSS操作可以同時進行多個數(shù)據(jù)的計算,并估計預(yù)測值的95%置信區(qū)間。我們以看電視時間為160、170和180分鐘/天為例,向大家介紹預(yù)測值和95%置信區(qū)間的SPSS操作方法。 (1) 點擊Analyze→ General Linear Model→ Univariate,出現(xiàn)下圖: (2) 將因變量cholesterol放入Dependent Variable框內(nèi),自變量time_tv放入Covariate(s)框內(nèi) (3) 點擊Paste,出現(xiàn)IBM SPSS Statistics Syntax Editor窗口如下: (4) 在/DESIGN=time_tv.上方插入/LMATRIX=ALL 1 160,如下: 語法解釋:在只有一個自變量的簡單線性回歸中,LMATRIX命令允許加入自變量的數(shù)值。/LMATRIX=ALL 1 160語句中各部分的含義如下: ALL指同時運用斜率和自變量進行預(yù)測; 1 指納入截距; 160 指用來預(yù)測因變量的自變量值。 如果我們想同時進行多組預(yù)測,只需要在該語句后面加“;ALL 1 VALUE”。其中,VALUE是指用于預(yù)測因變量的自變量值。例如,我們要預(yù)測看電視時間為160、170和180分鐘/天時的膽固醇濃度,如下: (5) 點擊Run→ All,輸出結(jié)果 5.3.3 預(yù)測結(jié)果的解釋 預(yù)測結(jié)果在Contrast Results(K Matricx)中展示,如下: 我們是以看電視時間為160、170和180分鐘/天為例進行預(yù)測的,語法是 LMATRIX=ALL 1 160; ALL 1 170; ALL 1 180 結(jié)果也是按照語法順序進行排列的,即L1(紅框)是每天看電視時間為160分鐘的預(yù)測值,L2 是(藍框)是每天看電視時間為170分鐘的預(yù)測值,L3 是(綠框)是每天看電視時間為180分鐘的預(yù)測值。 我們以每天看電視時間為160分鐘為例解釋預(yù)測結(jié)果,如下圖紅框部分: 從Contrast Estimate可以看出,每天看電視160分鐘的膽固醇濃度預(yù)測值為4.98 mmol/L。我們根據(jù)回歸方程可以得到相同的結(jié)果 -0.944+0.037×160 =4.98 mmol/L。但是,SPSS操作還提供了其他結(jié)果。如,預(yù)測值的標準誤(Std. Error)是0.13 mmol/L,提示預(yù)測值的變異程度。再如,預(yù)測值的95%置信區(qū)間(Confidence Internal for Difference)為4.73-5.23 mmol/L。 但必須注意的是,我們這里提到的置信區(qū)間是預(yù)測平均值的置信區(qū)間,而不是單個預(yù)測值的置信區(qū)間。比如,我們可能希望根據(jù)某個受試者的看電視時間預(yù)測他的膽固醇濃度。在這個過程中,我們也可以使用回歸方程進行計算,但是我們得到的區(qū)間估計不是置信區(qū)間,而是預(yù)測區(qū)間。由于個體觀測值的不穩(wěn)定性,預(yù)測區(qū)間往往比置信區(qū)間大。同時,個體預(yù)測的預(yù)測區(qū)間不能通過SPSS自動計算得到。在本章節(jié),我們只需要記得個體預(yù)測的預(yù)測區(qū)間與樣本預(yù)測的置信區(qū)間不同即可。 6、撰寫結(jié)論 6.1 簡潔匯報 簡單線性回歸結(jié)果提示,看電視時間與膽固醇濃度之間存在線性關(guān)系F(1,97) = 14.395(P <> 膽固醇濃度= -0.944+(0.037×看電視時間) 6.2 統(tǒng)計結(jié)果報告 采用簡單線性回歸模型分析看電視時間對膽固醇濃度的影響。通過繪制散點圖,直觀判斷兩者之間存在線性關(guān)系,并通過繪制標準化殘差散點圖和帶正態(tài)曲線的柱狀圖或P-P圖,驗證數(shù)據(jù)具有等方差性和殘差正態(tài)性。同時為了保證數(shù)據(jù)的代表性,我們剔除了一項異常值(膽固醇濃度為7.98 mmol/L)?;貧w方程如下: 膽固醇濃度= -0.944+(0.037×看電視時間) 看電視時間對膽固醇濃度的影響有統(tǒng)計學(xué)意義,F(xiàn)(1,97)=14.395(P <>2= 12.0%)。每增加1分鐘/天看電視時間,膽固醇濃度增加0.037 (95% CI:0.018-0.056)mmol/L。此外,看電視時間為160分鐘/天、170分鐘/天和180分鐘/天的膽固醇濃度預(yù)測值分別為4.98 (95% CI:4.73-5.23)mmol/L、5.35 (95% CI:5.24-5.45)mmol/L和5.72 (95% CI:5.53-5.90)mmol/L。 6.3 散點圖 根據(jù)4.2的講解,我們已經(jīng)可以繪制出基本的散點圖,如下: 但是在匯報結(jié)果時,我們?nèi)孕枰黾幼罴褦M合線、置信區(qū)間和預(yù)測區(qū)間等指標。具體操作方法如下: (1) 雙擊散點圖,激活Chart Editor (2) 點擊Element→ Fit Line at Total 出現(xiàn)下圖: 同時,Properties對話框也會自動彈出 提示:如果只想做出最佳擬合線,到這一步就可以關(guān)閉Properties和Chart Editor窗口,Output Viewer窗口會自動出現(xiàn)下圖,完成操作。 如果需要繪制置信區(qū)間和預(yù)測區(qū)間,請繼續(xù)第(3)步的操作。 (3) 在Properties對話框中,點擊Confidence Intervals中的Mean (4) 點擊Apply,出現(xiàn)下圖 (5) 在Properties對話框中,點擊Confidence Intervals中的Individual (6) 點擊Apply,出現(xiàn)下圖 (7) 關(guān)閉Properties和Chart Editor窗口,Output Viewer窗口會彈出帶有置信區(qū)間和預(yù)測區(qū)間的散點圖 (8) 但是,一般學(xué)術(shù)報告都要求去除背景和邊框顏色,這應(yīng)該怎么做呢?雙擊散點圖,激活properties窗口,在Fill & Border窗口內(nèi)修改背景顏色 (9) 點擊Fill,選擇顏色框 (10) 點擊Apply,背景顏色從灰色變?yōu)闊o色 (11) 點擊Border,選擇顏色框 (12) 點擊Apply,邊框顏色從黑色變?yōu)闊o色,圖中上方和后側(cè)的邊框線消失 (13) 關(guān)閉Properties窗口 (14) 那如果想改變坐標軸數(shù)字的保留位數(shù),應(yīng)如何做呢?雙擊縱坐標軸上的任意數(shù)字(如6.00),激活縱坐標軸的Properties窗口 (15) 點擊Properties窗口內(nèi)的Number Format (16) 將Decimal Places框內(nèi)的“2”改成“1” (17) 點擊Apply,縱坐標數(shù)據(jù)由保留兩位小數(shù)變?yōu)楸A粢晃恍?shù)。但實際上,在本研究中膽固醇濃度保留兩位小數(shù)比較合理,所以我們?nèi)员A魞晌恍?shù) (18) 點擊Close,關(guān)閉Properties窗口 (19) 再進一步調(diào)整線型后,我們就可以得到學(xué)術(shù)出版要求的散點圖,如下 7、延伸閱讀 簡單線性回歸異常值的處理 數(shù)據(jù)異常值主要有以下三類: (1) 數(shù)據(jù)錄入錯誤 當出現(xiàn)異常值時,首先應(yīng)考慮是否存在錄入錯誤。這是最簡單的異常值類型,我們只需要查到原數(shù)據(jù),重新錄入即可。 (2) 數(shù)據(jù)測量錯誤 如果不存在錄入錯誤,我們就需要檢查異常值是不是由測量錯誤導(dǎo)致的。比如,用量程為0-100°C的測試儀器測量溫度,結(jié)果發(fā)現(xiàn)有些數(shù)據(jù)超過100°C,那么我們就推測這些數(shù)據(jù)是由于測量錯誤導(dǎo)致的。 在大多數(shù)情況下,測量錯誤都無法彌補,我們一般建議直接剔除這些數(shù)據(jù)。但如果我們知道這些異常值的方向,如上述的例子中,存在大于100°C的數(shù)據(jù),我們可以錄入為上限值100°C。雖然這樣會造成偏倚,但對數(shù)據(jù)的影響仍小于直接剔除異常值。 (3) 自然的數(shù)據(jù)異常值 如果異常值既不是錄入錯誤,也不是測量錯誤,是數(shù)據(jù)中自然存在的,那么我們就不能僅僅因為這些異常值影響了線性回歸的基本假設(shè)就直接剔除。針對這類異常值,既往研究沒有統(tǒng)一的處理意見,建議研究者按照自己的喜好處理。 處理異常值后需要重新進行檢驗和分析。同時,值得注意的是,如果數(shù)據(jù)中存在多于一個異常值,我們可以先處理其中比較嚴重的,并重新檢驗,可能其他潛在異常值就不再是異常值了。 發(fā)現(xiàn)異常值后,我們?nèi)绾巫瞿兀?/strong> 如果不希望或者不能剔除異常值,我們可以采取以下措施: (1) 對因變量進行數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換可以改變數(shù)據(jù)的分布比例,從而影響異常值的檢驗結(jié)果。但由于數(shù)據(jù)轉(zhuǎn)換,回歸系數(shù)會比較難解釋,增加了數(shù)據(jù)分析的難度。同時,我們也必須確定轉(zhuǎn)換后的數(shù)據(jù)滿足等方差性和殘差正態(tài)性,重新檢驗回歸假設(shè)。 (2) 分別運行納入和不納入異常值的回歸模型,若結(jié)果沒有差異,保留異常值 剔除或者處理異常值的目的是為了減小異常值對回歸結(jié)果的影響。如果能證明數(shù)據(jù)中的異常值對回歸結(jié)果(如回歸系數(shù)和置信區(qū)間)沒有明顯影響,我們就可以保留異常值。即分別運行納入和不納入異常值的回歸對比結(jié)果,分析異常值對回歸結(jié)果的影響程度,從而判斷異常值的去留。 (3) 選擇更穩(wěn)健的回歸模型 我們也可以通過調(diào)整標準誤,運行更穩(wěn)健的回歸模型,但是SPSS現(xiàn)在還沒有這項操作。 我們可以直接剔除異常值,但這往往是我們迫不得已的做法。因為我們進行數(shù)據(jù)分析是為了根據(jù)樣本結(jié)果推論總體,但直接剔除異常值就相當于不再考慮這部分人的信息,忽略了他們在總體人群中的作用。 如果一定要剔除異常值,我們就應(yīng)該在報告中描述被剔除者的信息(數(shù)據(jù)以及對研究結(jié)果的影響)。這樣讀者就可以清楚地了解到我們剔除異常值的原因以及這些異常值可能存在的影響,消除大家對研究結(jié)果的質(zhì)疑。 舉例來說,本研究中異常值的膽固醇濃度為7.98 mmol/L,遠高于普通人群的膽固醇濃度,提示存在心臟病風險。盡管我們希望了解人群膽固醇濃度的基本情況,但是我們并不想納入存在臨床指征或心臟病高危風險的患者。膽固醇濃度這么高的人不是我們的目標人群,所以本研究直接剔除該異常值。 |
|
來自: 醫(yī)學(xué)院的石頭 > 《meta》