回歸分析(Regression Analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。最早形式的回歸分析可以追溯到兩百多年前由德國數(shù)學家高斯提出的最小二乘法。而回歸分析也是研究時間最長和應用最廣泛的的方法。自從產(chǎn)生以來回歸分析一直都是統(tǒng)計學家研究的一個重點領域,直到近二十多年來還有很多對回歸分析提出的各種新的改進。回歸模型一般假設響應變量(response variable)也叫自變量和獨立變量(independent variables)也叫因變量,有具體的參數(shù)化(parametric)形式的關系,而這些參數(shù)有很多成熟的方法可以去估計(比如最小二乘法),誤差分析方法也有詳細的研究??偟膩碚f,回歸分析方法具有數(shù)據(jù)適應性強,模型估計穩(wěn)定,誤差容易分析等優(yōu)良特點,即使在機器學習方法發(fā)展如此多種多樣的今天,依然是各個領域中最常用的分析方法之一。 回歸分析中最常見的線性回歸假設響應和獨立變量間存在明顯的線性關系。如圖一所示,響應變量(黑點)的數(shù)值大致在一條直線周圍,除了每個點都有的隨機誤差。線性回歸模型看似極大的簡化了響應變量和獨立變量之間的關系,其實在實際分析中往往是最穩(wěn)定的模型。因為線性模型受到極端或者壞數(shù)據(jù)的影響最小。例如預測病人的住院成本,很可能出現(xiàn)其中一兩個病人會有很大的花費,這個可能是跟病理無關的,這種病人的數(shù)據(jù)就很可能影響整個模型對于一般病人住院成本的預測。所以一個統(tǒng)計模型的穩(wěn)定性是實際應用中的關鍵:對于相似的數(shù)據(jù)應該得出相似的分析結果。這種穩(wěn)定性一般統(tǒng)計里用模型的方差來表示,穩(wěn)定性越好,模型的方差越小。
圖1. 線性回歸示意圖 在統(tǒng)計學習中存在一個重要理論:方差權衡。一般常理認為模型建立得越復雜,分析和預測效果應該越好。而方差權衡恰恰指出了其中的弊端。復雜的模型一般對已知數(shù)據(jù)(training sample)的擬合(fitting)大過于簡單模型,但是復雜模型很容易對數(shù)據(jù)出現(xiàn)過度擬合(over-fitting)。因為所有實際數(shù)據(jù)都會有各種形式的誤差,過度擬合相當于把誤差也當做有用的信息進行學習。所以在未知數(shù)據(jù)(test sample)上的分析和預測效果會大大下降。圖二說明了方差權衡的結果。模型復雜度在最低的時候(比如線性回歸)預測的偏差比較大,但是方差很小。隨著模型復雜度的增大,對已知數(shù)據(jù)的預測誤差會一直下降(因為擬合度增大),而對未知數(shù)據(jù)卻出現(xiàn)拐點,一旦過于復雜,預測方差會變大,模型變得非常不穩(wěn)定。
因此在很多實際生活應用中,線性模型因為其預測方差小,參數(shù)估計穩(wěn)定可靠,仍然起著相當大的作用。正如上面的方差權衡所述,建立線性模型中一個重要的問題就是變量選擇(或者叫模型選擇),指的是選擇建立線性模型所用到的獨立變量的選擇。在實際問題例如疾病風險控制中,獨立變量一般會有200 ~ 300個之多。如果使用所有的變量,很可能會出現(xiàn)模型的過度擬合。所以對變量的選擇顯得尤為重要。 傳統(tǒng)的變量選擇是采用逐步回歸法(stepwise selection),其中又分為向前(forward)和向后(backward)的逐步回歸。向前逐步是從0個變量開始逐步加入變量,而向后逐步是從所有變量的集合開始逐次去掉變量。加入或去掉變量一般按照標準的統(tǒng)計信息量來決定。這種傳統(tǒng)的變量選擇的弊端是模型的方差一般會比較高,而且靈活性較差。近年來回歸分析中的一個重大突破是引入了正則化回歸(regularized regression)的概念, 而最受關注和廣泛應用的正則化回歸是1996年由現(xiàn)任斯坦福教授的Robert Tibshirani提出的LASSO回歸。LASSO回歸最突出的優(yōu)勢在于通過對所有變量系數(shù)進行回歸懲罰(penalized regression), 使得相對不重要的獨立變量系數(shù)變?yōu)?/span>0,從而排除在建模之外。 LASSO方法不同于傳統(tǒng)的逐步回歸的最大之處是它可以對所有獨立變量同時進行處理(圖三),而不是逐步處理。這一改進使得建模的穩(wěn)定性大大增加。除此以外,LASSO還具有計算速度快,模型容易解釋等很多優(yōu)點。而模型發(fā)明者Tibshirani教授也因此獲得當年的有統(tǒng)計學諾貝爾獎之稱的考普斯總統(tǒng)獎(COPSS award)。 圖3.Lasso 路徑圖 對于圖3簡要說明一下,橫軸代表模型系數(shù)比,縱軸代表系數(shù),圖中的每一條彩色實線代表一個變量,豎向的虛線代表一個懲罰值(后面會介紹),其篩選變量的過程,就是有一個指標(CV)最小時,其對應會有個懲罰值,用此懲罰值去畫一條虛線,與彩色線相交的即為篩選到的變量。諸如第二條虛線與兩條彩色線相交,即篩選到兩個變量。 說到這里不得不說說,與Lasso類似的嶺回歸,對于嶺回歸想必大家有所耳聞,其在線性回歸學習中,對出現(xiàn)多重共線性問題時,老師給出的意見是用嶺回歸。當多重共線性問題存在時,就連最基本的最小二乘估計都是有偏的,線性模型估計系數(shù)的方差將會很大,這表示分析結果可能遠遠偏離真實的水平。嶺回歸通過添加一種調整參數(shù)(也叫懲罰)對有偏的部分進行壓縮,使其盡可能的小,從而起到校正模型的作用。為了解決多重共線性問題,嶺回歸通過將調整參數(shù)λ引入模型,公式如下: 可以發(fā)現(xiàn),在該式中共有兩個組成部分,前者為基礎的最小二乘項,而后者則為調整參數(shù)λ與系數(shù)β平方總和的乘積。對目標函數(shù)這樣的補充主要用于收縮模型系數(shù),從而起到減小模型方差的作用。 類似于嶺回歸,Lasso(Least Absolute Shrinkage and Selection Operator)方法也對回歸系數(shù)的絕對規(guī)模采取了懲罰的形式。同時,它還能減少變異性并提高模型的精度。其目標函數(shù)如下所示: 由上式可見,Lasso回歸與嶺回歸的不同之處在于其在懲罰函數(shù)中使用了絕對值而非平方和的形式,這將導致在模型的參數(shù)估計過程中有些系數(shù)會因為懲罰項的存在從而直接減少到0。隨著懲罰力度的增強,越來越多的系數(shù)將會縮小并最終歸結為0,這意味著在模型構建的同時我們也對原本給定的多個變量進行了變量選擇。 這一方法在臨床醫(yī)學的應用,最早是由Tibshirani教授本人將其用于COX回歸中。在其文獻中,作者首先用Lasso篩選出有意義的變量,注意這里選出的變量會與COX本身用的Stepwise方法篩選的不一樣,進一步將篩選出的變量建立COX模型,看新的模型與原先Stepwise方法篩選建立的模型比對,發(fā)現(xiàn)新的模型更有意義,篩選的變量更貼近實際。 在臨床應用中,如果研究者在篩選變量時得不到自己想要的結果,或者說自變量間存在多重共線性時,這一方法會是個不錯的選擇。另有研究顯示這一方法用于高維度(變量個數(shù)遠大于樣本量)強相關、小樣本的生存資料分析非常有效。這種數(shù)據(jù)資料往往在基因數(shù)據(jù)中比較常見。 小編碩士課題一部分即為此方法,已經(jīng)掌握其全部實現(xiàn)過程。感興趣的朋友可一起討論交流學習。 |
|
來自: 生物_醫(yī)藥_科研 > 《待分類》