一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)嗨客 | 第2期:線性回歸

 東西二王 2016-05-06

數(shù)據(jù)嗨客 | 第2期:線性回歸

2016-05-05 19:12

普林大數(shù)據(jù)學(xué)院——“機器學(xué)習(xí)”系列

普林大數(shù)據(jù)學(xué)院依托北京大數(shù)據(jù)研究院和北京大學(xué),為有需求的企業(yè)和用戶提供線上線下結(jié)合大數(shù)據(jù)培訓(xùn)服務(wù)。

線上:國內(nèi)首家大數(shù)據(jù)在線成長平臺——數(shù)據(jù)嗨客,包括實戰(zhàn)、學(xué)習(xí)、群組、培訓(xùn)、競賽、工作六大功能模塊。旨在幫助大數(shù)據(jù)人才在理論知識、業(yè)務(wù)能力和實戰(zhàn)技能方面全面發(fā)展,成長為真正的數(shù)據(jù)科學(xué)家。

線下:專業(yè)的數(shù)據(jù)科學(xué)家授課,權(quán)威的課程體系(北大授課體系)。

1.引子

這一期我們討論機器學(xué)習(xí)中的回歸問題。

認真看過上一期的同學(xué)應(yīng)該記得,回歸屬于監(jiān)督學(xué)習(xí)中的一類方法。

簡單來講,回歸就是通過數(shù)據(jù)學(xué)習(xí)數(shù)量關(guān)系,然后利用這個數(shù)量關(guān)系去做預(yù)測。

作為人類,我們能輕而易舉地學(xué)習(xí)并理解現(xiàn)實中的簡單數(shù)量關(guān)系。隔壁老王的SUV每100公里耗油10升,出門往返200公里,老王就知道該給車加至少20升油。

why?

因為連他8歲的兒子都知道這就是個簡單的正比例關(guān)系。

然而數(shù)量關(guān)系并不都是那么簡單。

老王昨天一人食點了個9寸海鮮披薩,剛剛飽。這次他心血來潮帶老婆一塊去吃,掐指一算點了個18寸的。最后的結(jié)局當(dāng)然是撐得生無可戀,雙雙扶墻回家。

數(shù)據(jù)嗨客 | 第2期:線性回歸

看,通過邏輯思考總結(jié)數(shù)量關(guān)系,在不同情境下我們需要調(diào)用不同的思考邏輯,因而容易出錯。

為此,我們很難給計算機講道理,告訴它為什么SUV的耗油量和里程數(shù)之間是正比關(guān)系,披薩的尺寸和食用人數(shù)之間卻又不是了。

更何況還有像“南半球的一只蝴蝶扇了扇翅膀,北半球的納斯達克就崩盤”這種超出人類邏輯理解范圍的復(fù)雜關(guān)系??咳祟惪偨Y(jié)規(guī)律再教給計算機,就更不可能了。

數(shù)據(jù)嗨客 | 第2期:線性回歸

所以,回歸的策略是跳過邏輯分析,讓計算機直接從數(shù)據(jù)中學(xué)習(xí)數(shù)量關(guān)系。這正是機器學(xué)習(xí)(統(tǒng)計學(xué)習(xí))的核心思想。

因此回歸除了作為一種機器學(xué)習(xí)算法,也是一個超出描述層面統(tǒng)計分析,關(guān)注現(xiàn)象解釋和預(yù)測的統(tǒng)計模型。

回歸這個名詞看上去頗為不接地氣。其實說來有趣,追根溯源,回歸(Regression)這一概念最早是由英國生物統(tǒng)計學(xué)家高爾頓和他的學(xué)生皮爾遜在研究父母親和子女的身高遺傳特性時提出的。

他們的研究揭示了關(guān)于身高的一個有趣的遺傳特性:若父母個子高,其子代身高高于平均值的概率很大,但一般不會比父母更高。

即身高到一定程度后會往平均身高方向發(fā)生“回歸”。這種效應(yīng)被稱為“趨中回歸(Regression Toward the Mean)”。

如今,所討論的“回歸”和這種趨中效應(yīng)已經(jīng)沒有任何瓜葛了,它只是指源于高爾頓工作的那樣一整套建立變量間數(shù)量關(guān)系模型的方法和程序。然而回歸這個朗朗上口的名字卻歪打正著一直流傳至今。

在一個回歸模型中,我們需要關(guān)注或預(yù)測的變量叫做因變量(響應(yīng)變量或結(jié)果變量),我們選取的用來解釋因變量變化的變量叫做自變量(解釋變量或預(yù)測變量)。

做回歸分析,確定變量后我們還需要根據(jù)具體問題選擇一個合適的回歸模型,通俗地說就是把自變量映到因變量的函數(shù)的大體樣子。

常用的回歸模型有線性回歸,多項式回歸,邏輯回歸等等。

考慮到線性關(guān)系是自然界最普遍,最本質(zhì)的數(shù)量關(guān)系,所以毋庸置疑線性回歸是最簡單實用的一類回歸模型,也是其他回歸模型研究的基礎(chǔ)。

下面我們討論線性回歸(前方干貨,高能預(yù)警)。

2.線性回歸的數(shù)學(xué)基礎(chǔ)

從最簡單的一元線性回歸說起?,F(xiàn)有自變量X,因變量Y,對具體問題,我們拿到的觀測值是數(shù)據(jù)嗨客 | 第2期:線性回歸回歸方程為
數(shù)據(jù)嗨客 | 第2期:線性回歸

其中k,b是是待學(xué)習(xí)的參數(shù),ε為殘差。

我們的目標是找到一條直線y=kx+b,使得所有樣本點盡可能落在它的附近。

之所以這樣做,是因為我們相信X和Y之間就應(yīng)該差不多滿足這個簡單的關(guān)系。

若確實有這么個一次函數(shù)讓所有數(shù)據(jù)都滿足條件,那這就成了SUV耗油問題,隔壁老王的兒子也能一眼看出來。

我們面臨的真正挑戰(zhàn)在于,來自現(xiàn)實的數(shù)據(jù)是有誤差的,一般來說無法保證所有的樣本點都精確滿足回歸方程。

所以我們只能退而求其次,給計算機安排的學(xué)習(xí)策略就是在某種意義上讓誤差ε取到極小,以期望得到最可能接近真實規(guī)律的模型。

在高中我們就熟知這個問題的解法——求解使得εi(i=1,2,…,n)的平方和極小化的k,b:

數(shù)據(jù)嗨客 | 第2期:線性回歸以上關(guān)于(k,b)的無約束二次優(yōu)化問題,其解析解是容易得到的。這就是大名鼎鼎的最小二乘法(Ordinary Least Square, OLS)。

直觀上,這個算法給出了描述X,Y兩個變量線性關(guān)系的最優(yōu)近似。

多元線性回歸本質(zhì)也是一樣,只是自變量和參數(shù)的個數(shù)變?yōu)槎鄠€。我們的目標仍是在最小二乘的意義下找到讓殘差平方和取極小的參數(shù)。模型為

數(shù)據(jù)嗨客 | 第2期:線性回歸其中Y=(y1,...,yn)T為因變量,有n個觀測值,X=(xij)n×k為nxk個矩陣,其k個列分別表示k個自變量的k×n個觀測值;β=(β1,...,βk)為自變量的回歸系數(shù),ε為殘差。

若考慮截距項,可在X中加入一列常數(shù),出于簡單起見暫不考慮。 這個問題在OLS意義下的解為

數(shù)據(jù)嗨客 | 第2期:線性回歸上式稱作法方程(Normal Equation)。

不難看出,回歸模型訓(xùn)練的關(guān)鍵在于確定一個殘差極小化準則,數(shù)學(xué)上講,就是指定一個損失函數(shù)(Loss Function)。

一般來講我們所說的線性回歸都是在最小二乘(OLS)準則下得到的模型。

其他的選擇也是有的,如最小一乘模型(殘差絕對值之和極?。?,以及在損失函數(shù)中加入對模型復(fù)雜度的懲罰項后得到的各種帶正則化的回歸模型(嶺回歸,LASSO等)。

這些高端方法有興趣的讀者可以自行了解。

3.線性回歸的數(shù)學(xué)本質(zhì)

深入理解線性回歸的鑰匙在于最小二乘條件。

1829年高斯提出最小二乘法,但早在1760年波斯科維奇就提出了最小一乘法。

最小一乘在數(shù)學(xué)上更簡單也更符合人們的直覺,但為什么人們卻對最小二乘法如此青睞呢?我看來有以下兩個原因:

  1. 從線性代數(shù)的角度來看,多元回歸是一個典型的最佳逼近問題。 即在X的列向量所張成的k維線性空間Vk中找一個元素Yk=Xβ,使得Yk∈Vk與Y∈Vn在某種度量的意義下距離最短。于是自然地,我們選取歐氏距離作 為度量,這就是OLS中殘差平方和的由來。 具體來講,選取歐氏距離的好處在于使得線性空間Vn及其子空間Vk成為內(nèi)積空間,從而具備了良好的幾何性質(zhì)。在歐氏度量的意義下,Y在Vk中的最佳逼近元 Yk正是Y在Vk上的正交投影,于是我們有
    數(shù)據(jù)嗨客 | 第2期:線性回歸
    數(shù)據(jù)嗨客 | 第2期:線性回歸這樣一來,在回歸方程的兩邊同時左乘
    數(shù)據(jù)嗨客 | 第2期:線性回歸立即解得
    數(shù)據(jù)嗨客 | 第2期:線性回歸這就是法方程的由來。

  2. 從數(shù)理統(tǒng)計的角度來看,多元回歸是一個典型的參數(shù)估計問題。OLS的好處在于,在一定條件條件下由它得到的估計量擁有諸多統(tǒng)計學(xué)上的優(yōu)良性質(zhì)。嚴格來說,需對模型提以下條件:

    ①誤差ε是一個期望0的隨機向量;

    ②對于解釋變量的所有觀測值,ε的各個分量有相同的方差,且彼此不相關(guān);

    ③解釋變量與隨機誤差項彼此相互獨立;

    ④解釋變量之間不存在精確的線性關(guān)系;

    ⑤隨機誤差項服從正態(tài)分布。

    在條件1,2,3,4成立的前提下,我們有著名的高斯-馬爾科夫定理:最小二乘估計是最小方差線性無偏估計。在5個條件全部成立的前提下,還不難證明最小二乘估計是極大似然估計。

    理論上第5個條件并不是硬性的,但實際問題中我們一般希望它能夠滿足。

    畢竟,若只要模型足夠好以至于選取的自變量確實與因變量線性相關(guān),那么殘差與預(yù)測值就應(yīng)該沒有任何系統(tǒng)關(guān)聯(lián),于是當(dāng)數(shù)據(jù)量足夠大時它理應(yīng)服從正態(tài)分布。

    此外,殘差滿足正態(tài)分布的假設(shè)還有助于我們在做回歸結(jié)果診斷時對模型參數(shù)進行顯著性檢驗。

4.回歸模型的有效性

事實上,無論數(shù)據(jù)是否滿足模型基本假設(shè),理論上都是可以通過最小二乘法得到模型參數(shù)的。

只不過此時模型的有效性就要打問號了(最小二乘君:怪我咯)。

為此我們來看一個著名例子(Anscombe's quartet,圖片來自維基百科):

數(shù)據(jù)嗨客 | 第2期:線性回歸

對這四組觀測數(shù)據(jù),我們用線性回歸將得到完全相同的模型,但它們的解釋力顯然大相徑庭。

最小二乘君是冤枉的,問題出在數(shù)據(jù)上!

上一期我們提到過,模型是火箭,數(shù)據(jù)是燃料。

燃料兌了水火箭還能升空,最小二乘君已經(jīng)盡力了有木有。

對燃料進行提純,濃縮,也就是數(shù)據(jù)預(yù)處理的工作,應(yīng)當(dāng)落在數(shù)據(jù)科學(xué)家的頭上。

具體來講,在接受一個回歸模型之前需要對數(shù)據(jù)進行的檢驗包括但不僅限于下面幾條:

1. 殘差是否近似滿足均值為0的正態(tài)分布; 2. 因變量值是否獨立; 3. 是否存在離群點,高杠桿值點或強影響點。

當(dāng)預(yù)處理后的數(shù)據(jù)基本滿足模型假設(shè),我們可以接受回歸模型的結(jié)果之后,還需要設(shè)計一些指標去衡量它的效果。

常見的如衡量模型擬合優(yōu)度的R2

值,衡量擬合方程的顯著性的F值以及衡量各個變量擬合系數(shù)的顯著性的t值等。這些也都是數(shù)據(jù)科學(xué)家要做的具體工作,細節(jié)就不贅述了。

所有檢驗通過之后,我們總算得到了一個看上去靠譜的回歸模型。

但還不夠!

計算機只是客觀告訴我們一堆數(shù)據(jù)中極有可能隱藏著某個數(shù)量關(guān)系;而回答為什么有這種關(guān)系,并不是它的長項。

所以,解釋模型的艱巨任務(wù)自然也落到了數(shù)據(jù)科學(xué)家頭上。

數(shù)據(jù)科學(xué)家需要結(jié)合業(yè)務(wù)實際和常識,告訴人們?yōu)槭裁催@些回歸系數(shù)理應(yīng)是模型推算出來的那個樣子。

可不要小看模型解釋哦,很多時候一個模型是否能在實際中發(fā)揮作用,很大程度上在于能不能賦予它一個合乎邏輯的解釋。

想想轉(zhuǎn)基因食品吧,所有的數(shù)據(jù)都一邊倒地證明轉(zhuǎn)基因無害沒有任何卵用,只要一天科學(xué)家給不出鐵板釘釘?shù)睦碚撝С?,就總有人視其為洪水猛獸,唯恐避之不及。

這也無可厚非,畢竟生命不比程序,可以隨時推倒重來。

統(tǒng)計學(xué)大牛George Box曾經(jīng)曰過:All models are wrong, but some are useful.最后用這句話來總結(jié)線性回歸再恰當(dāng)不過。

自然界錯綜復(fù)雜,但大部分現(xiàn)象都能用最最簡潔優(yōu)美的線性關(guān)系來描述。

線性回歸作為一個粗糙暴力的模型,誤差在所難免,但對我們理解這個世界已然實現(xiàn)了從0到1的跨越。

這一期的科普就到這里。下一期我們講樸素貝葉斯。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日本不卡在线一区二区三区| 欧美日韩亚洲国产精品| 国产精品日韩欧美一区二区| 日本 一区二区 在线| 国产免费一区二区三区av大片| 九九热视频经典在线观看| 中文字幕中文字幕在线十八区| 亚洲中文字幕日韩在线| 欧美熟妇喷浆一区二区| 男女一进一出午夜视频| 91欧美日韩一区人妻少妇| 搡老熟女老女人一区二区| 国产精品福利一级久久| 欧美精品一区二区水蜜桃| 偷拍偷窥女厕一区二区视频| 亚洲少妇一区二区三区懂色| 国产成人亚洲精品青草天美| 精品午夜福利无人区乱码| 91人妻人人澡人人人人精品| 91亚洲国产—区=区a| 亚洲熟女熟妇乱色一区| 黑鬼糟蹋少妇资源在线观看| 久久国产亚洲精品赲碰热| 国产一区一一一区麻豆| 国产精品一区二区有码| 手机在线不卡国产视频| 亚洲国产成人久久一区二区三区| 在线观看视频日韩精品| 日韩在线视频精品视频| 欧美日韩一级黄片免费观看| 99久久精品一区二区国产| 夫妻性生活一级黄色录像| av在线免费观看在线免费观看| 日本高清一区免费不卡| 亚洲一区二区福利在线| 欧美日韩精品综合一区| 国产高清一区二区不卡| 亚洲中文字幕高清视频在线观看| 国产麻豆精品福利在线| 在线免费视频你懂的观看| 欧美国产日产综合精品|