Lasso思想及算法統(tǒng)計 2010-11-25 21:47:59 閱讀843 評論2 字號:大中小 訂閱 1、只有這么幾個人在做LASSO,他們都是大牛,你可以直接GOOGLE他們的主頁,看他們在這塊發(fā)了什么文章。
yu bin, zhu ji, zhang tong, hui zou, yuan ming, Nicolai Meinshausen, Peter Bühlmann, Martin J. Wainwright, jianqing fan, Liza Levina, Peter Bickel,Tibshirani(Lasso的提出者) 2、統(tǒng)計和算法不是一回事的。舉個例子吧,下面這篇文章就是統(tǒng)計的人發(fā)的,其中討論到如何在GLM上運用SCAD -- LASSO衍生出來的一種懲罰函數(shù)項 -- 他們就做的很理論,他們很關(guān)心這個“算法”的理論性質(zhì),比如估計量是否趨近正太,如果是,lambda該以何種rate收斂。他們也討論算法,但是他們對算法的要求很簡單,能算出來就行。http://www.stat./~hzou/Papers/onestep.pdf 3、而如下這篇,討論的基本屬于同一個問題,如果將LASSO運用在GLM中的logistic回歸上。但是,他們關(guān)心的是,如何算得又快又好。你看,這個時候,統(tǒng)計學(xué)界所陌生的nestiov都出來了。這個算法非???,1000多個變量,也就幾十秒的事情。 4、variable selection 是一個熱點專題啊,特別是在high dimensional data analysis, 5、R的包lars 提供了LASSO 6、請教 lasso regression 和bridge logistic regression 7、LASSO有很多令人期待的問題沒有解決,所以還是有很多坑可以去填的。要想好好學(xué)習(xí)這塊的話,先讀那幾篇state-of-the-art的文章,如下: 最基本那篇 yuan ming 然后提出的 group lasso zou hui的elastic net,可以同時自動選取相關(guān)程度比較大的變量(LASSO不能) zou hui 提出的adative lasso,試圖避免lasso對參數(shù)的shrunkage jianqing fan 2001 年提出的另外一種 nonconvex的懲罰項 -- SCAD 其學(xué)生08年時接著解決了SCAD的算法問題 -- 實際上就是一種adaptive lasso 這方面文獻(xiàn)太多了,我給的這幾篇是影響比較大的,你可以看看08年這篇的reference,在里面可以找到一些有意思的線索。另外,LASSO還被廣泛應(yīng)用在graphical model上,有興趣可以看看這篇 http://www.stats./~meinshau/consistent.pdf 這三篇是目前文獻(xiàn)里公認(rèn)的里程碑式的文章--關(guān)于gaussian graphical model的。
研究內(nèi)容:< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 將Lasso應(yīng)用于回歸,可以在參數(shù)估計的同時實現(xiàn)變量的選擇,較好的解決回歸分析中的多重共線性問題,并且能夠很好的解釋結(jié)果。本項目注重對實際案例中的共線性問題利用Lasso的方法剔除變量,改進模型,并將其結(jié)果與以往變量選擇的方法比較,提出Lasso方法的優(yōu)勢。 將Lasso應(yīng)用于時間序列。將Lasso思想應(yīng)用于AR(p)、ARMA(p)等模型,利用Lasso方法對AR(p)、ARMA(p)等模型中的變量選擇,并給出具體的算法,隨后進行模擬計算,闡明AR(p) 、ARMA(p)等模型的Lasso方法定階的可行性。 嘗試將Lasso方法應(yīng)用到高維圖形的判別與選擇以及應(yīng)用于線性模型的變量選擇中,以提高模型選擇的準(zhǔn)確性。 研究意義: 隨著科技的進步,收集數(shù)據(jù)的技術(shù)也有了很大的發(fā)展。因此如何有效地從數(shù)據(jù)中挖掘出有用的信息也越來越受到人們的關(guān)注。統(tǒng)計建模無疑是目前處理這一問題的最有效的手段之一。在模型建立之初,為了盡量減小因缺少重要自變量而出現(xiàn)的模型偏差,人們通常會選擇盡可能多的自變量。但實際建模過程中通常需要尋找對響應(yīng)變量最具有解釋性的自變量子集—即模型選擇(或稱變量選擇、特征選擇),以提高模型的解釋性和預(yù)測精度。所以模型選擇在統(tǒng)計建模過程中是極其重要的問題。 Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996))方法是一種壓縮估計。它通過構(gòu)造一個罰函數(shù)得到一個較為精煉的模型,使得它壓縮一些系數(shù),同時設(shè)定一些系數(shù)為零。因此保留了子集收縮的優(yōu)點,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計。 研究意義: 一般地說,多元數(shù)據(jù)分析處理的對象是刻畫所研究問題的多個統(tǒng)計指標(biāo)在多次觀察中呈現(xiàn)的數(shù)據(jù),樣本數(shù)據(jù)具有離散且有限的特征。但是,現(xiàn)代的數(shù)據(jù)收集技術(shù)所收集的信息,不但包括傳統(tǒng)統(tǒng)計方法所處理的數(shù)據(jù),還包括具有函數(shù)形式的過程所產(chǎn)生的數(shù)據(jù)。在處理數(shù)據(jù)的時候我們就會遇到模型建立的問題,這時候我們就把一些多元數(shù)據(jù)分析模型應(yīng)用到函數(shù)型數(shù)據(jù)中(比如線性模型),那么在線性模型中變量的選擇問題就很重要了。 在分析這種模型的時候,人們根據(jù)問題本身的的專業(yè)理論及有關(guān)經(jīng)驗,常常把各種與因變量有關(guān)的自變量引進模型,其結(jié)果是把一些對因變量影響很小的,有些甚至沒有影響的自變量也選入模型中。這樣一來,不但計算量大,而且估計和預(yù)測的精度也會下降。此外,在一些情況下,某些自變量的觀測數(shù)據(jù)獲得代價昂貴,如果這些自變量本身對因變量的影響很小或根本沒有影響,但我們不加選擇都引到模型中,勢必造成觀測數(shù)據(jù)收集和模型應(yīng)用費用不必要的加大。 因此,本項目基于數(shù)據(jù)的普遍特征,在對數(shù)據(jù)分析時,必須對進入模型的自變量作精心的選擇。而Lasso以縮小變量集(降階)為思想,是一種收縮估計方法。Lasso方法可以將變量的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?/span>0,進而達(dá)到變量選擇的目的,可以廣泛的應(yīng)用于模型改進與選擇。我們通過選擇懲罰函數(shù),借用Lasso思想和方法實現(xiàn)變量選擇的目的。 國內(nèi)外研究現(xiàn)狀分析: Tibshirani,R.(1996)在Frank(1993)提出的“Bridge Regression”和Bireman(1995)提出的“Nonnegative Garrote”的啟發(fā)下提出了一種稱之為Lasso (Least absolute shrinkage and seleetion operator)的新的變量選擇方法并將其成功應(yīng)用于COX模型的變量選擇。該方法克服了傳統(tǒng)方法在選擇模型上的不足,因此該方法在統(tǒng)計領(lǐng)域受到了極大的重視。但是該方法缺乏有效的算法支撐。因此很多學(xué)者在這方面展開了研究。 Fu(1998)提出了“Shooting”算法,接著Osbome,M.R.等發(fā)現(xiàn)Lasso回歸的解的路徑是逐片線性的并提出相應(yīng)的同倫算法;Bradley Efron等(2004)提出的最小角回歸(Least Angle Regression)算法很好地解決Lasso的計算問題;Fan和Li(2001)指出Lasso估計對于絕對值較大的系數(shù)的壓縮過大,可能會造成不必要的模型偏差,并且推測Lasso估計不具有“哲人”性質(zhì)(“oracle properties”),還給出了一種被簡稱為SCAD新的懲罰函數(shù),并沿用GCv方法來選擇懲罰參數(shù)(或者叫“Tunning parameters”)。 Lasso這種方法使一些回歸系數(shù)變小,有些甚至被壓縮為0,但忽略了相鄰兩個回歸系數(shù)間的差異,使估計值波動性很大。在2005年,Tibshiralli和Sawnders又將此方法改進,又加入了約束條件,控制了回歸系數(shù)的波動性。 模型選擇本質(zhì)上是尋求模型稀疏表達(dá)的過程,而這種過程可以通過優(yōu)化一個“損失”十“懲罰”的函數(shù)問題來完成。 主要參考文獻(xiàn): [1] Jun Liu. Large-Scale Sparse Logistic Regression[J].KDD’09. [2] Hui Zou and Runze Li. One-step sparse estimates in nonconxave penalized[J].The Annals of Statistics,2008,11. [3] Tibshirani,R.Regression Shrinkage and Selection Via the Lasso[J].Journal of the Royal Statical Society.Series B.58,267-288. [4] Wang Zhanfeng. A LASSO-Type Approach to Variable Selection and Estimation for Censored Regression Model[J].2010,02. [5] 邱南南.基于Lasso 改進的一般因果關(guān)系檢驗[J].統(tǒng)計與信息論壇,2008,02. [6] 趙婷婷.AR(p)模型的Lasso方法定階[D].東北師范大學(xué)碩士論文,2008,05. [7] 宋國棟.線性不等式約束下的變量選擇[D].東北師范大學(xué)碩士論文,2007,05. [8] 孫麗麗.工具變量回歸模型中的變量選擇[D].東北師范大學(xué)碩士論文,2008,05. [9] 劉小明.數(shù)據(jù)降維及分類中的流行學(xué)習(xí)研究[J].浙江大學(xué)博士學(xué)位論文,2007,4. [10] 楊威.函數(shù)型回歸模型的成分選取[D].東北師范大學(xué)碩士論文,2009,05. 技術(shù)路線: 根據(jù)已發(fā)表論文中遇到的違反估計的情況進行總結(jié)研究,提出補救方案,進而根據(jù)不同參數(shù)估計方法的優(yōu)劣,針對實際問題給出相應(yīng)的參數(shù)估計方法或是方法的組合。 實驗方案及可行性分析 第一年主要從事理論研究,通過閱讀相關(guān)的書籍和學(xué)術(shù)論文,對Lasso的最新成果刻苦鉆研,找出著手點,并嘗試算法的改進,對不同的模型嘗試借用Lasso實現(xiàn)變量的篩選。 后半年主要從事Lasso在變量選擇中的應(yīng)用。 作者從研一開始就閱讀Lasso的相關(guān)論文,通過閱讀與Lasso相關(guān)的近期論文,有了一定的想法和思考,并嘗試著懲罰項的添加和模擬。 2.本項目的創(chuàng)新之處及預(yù)期成果 創(chuàng)新之處: 試圖將Lasso應(yīng)用于現(xiàn)在未涉及的模型,通過添加懲罰項,利用AIC準(zhǔn)則和BIC準(zhǔn)則給統(tǒng)計模型的變量做一個截斷,進而達(dá)到降維的目的。并將結(jié)合實例分析與其他模型中變量選擇的方法進行比較,突出Lasso方法在多元統(tǒng)計分析問題中的優(yōu)點。 預(yù)期成果: (1)給出Lasso思想應(yīng)用在部分模型的優(yōu)劣,并在借用懲罰函數(shù)達(dá)到剔除部分變量的基礎(chǔ)上,降低研究成本和提高模型成果的解釋力度。并與傳統(tǒng)的變量選擇方法比較,突出Lasso在實際分析應(yīng)用中的優(yōu)勢。 (2)針對實際問題和數(shù)據(jù)特征,給出相應(yīng)的Lasso模型變量的選擇,并與其他變量方法選擇進行比較優(yōu)勢。 (3)預(yù)期成果:在核心期刊發(fā)表論文1-2篇。 3.與本項目有關(guān)的研究工作積累和已取得的研究成果 工作積累: (1)通過學(xué)習(xí)多元統(tǒng)計分析,對變量的選擇和相關(guān)的理論知識有了深入的研究。 (2)通過閱讀與Lasso相關(guān)的論文,有了一定的想法和思考,并開始理論改進和案例分析。
|
|
來自: weicat > 《research》