一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

單變量線性回歸模型與結(jié)果解讀

 昵稱A4812 2019-02-25

模型一般形式

    統(tǒng)計(jì)模型的一般形式是Y=m(X)+e。其中Y為輸出變量、響應(yīng)變量、因變量、被解釋變量;m為均值;e為不可控因子,可以理解為噪聲。故模型等式右邊是用X組成的函數(shù)去描述Y的均值,即模型是在平均的意義下去描述自變量與因變量間的關(guān)系,所以在解讀模型的時(shí)候,我不會(huì)將模型說死。

    模型中不同形式的m(X)會(huì)幻化為不同的模型體系,一般可以將模型分為兩大類:

1、m(X)可以幻化為數(shù)學(xué)公式,即公式模型,一般比較成熟的都是公式模型,例如回歸模型的理論與底蘊(yùn)就比較完善,模型的假定都是可以進(jìn)行檢驗(yàn)的;

2、m(X)過于復(fù)雜,用公式無法描述,需要用算法去描述,即算法模型,例如決策樹模型

    其實(shí),建模的作用就是將看上去不太可能的事情聯(lián)系到一起,同時(shí)又能將事情的來龍去脈解釋清楚。模型構(gòu)建之前都有假定,模型構(gòu)建的好不好、是否合適都取決于模型是否符合假定,當(dāng)然更核心的還是要關(guān)注模型在業(yè)務(wù)場(chǎng)景的應(yīng)用,這才是建模的最主要的目的。

回歸的基本思路

    在模型領(lǐng)域,解釋性較好的模型毋庸置疑就是回歸?;貧w模型主要能做兩件事情,一是用模型去體現(xiàn)事物間的關(guān)系,即解釋模型變量間的關(guān)系;二是用模型進(jìn)行預(yù)測(cè)。

    如下圖所示,回歸建模的工作流程即 將客觀現(xiàn)實(shí)轉(zhuǎn)化為數(shù)據(jù)后進(jìn)行建模,終極目標(biāo)是用數(shù)學(xué)模型將事物的來龍去脈解釋清楚,作為數(shù)據(jù)分析師,講故事的能力真的非常重要。

回歸模型里的坑

    構(gòu)建回歸模型時(shí)經(jīng)常需要對(duì)變量進(jìn)行變換,在調(diào)整量綱的過程中不怕數(shù)據(jù)長(zhǎng)度發(fā)生變化的是數(shù)據(jù)的相對(duì)長(zhǎng)度發(fā)生變化,因?yàn)檠劬δ芸吹降目臻g為歐式空間,歐式空間的弱點(diǎn)是數(shù)據(jù)很容易受到量綱的影響,所以在構(gòu)建模型進(jìn)行數(shù)據(jù)變換的時(shí)候并不能隨心所欲的變換。

    數(shù)據(jù)變換過程中我經(jīng)常會(huì)使用BOX-COX變換,這種變換的方法為:

1、λ不等于0的時(shí)候, 

2、λ等于0的時(shí)候, 

    這種BOX-COX的數(shù)據(jù)變換方式有幾個(gè)特點(diǎn):

1、這種變換可以改變分布形狀,使數(shù)據(jù)成為對(duì)稱甚至正態(tài)分布,至少,這種變換能將數(shù)據(jù)分布往正態(tài)分布方向拉一拉

2、這種變換能保持原數(shù)據(jù)的大小次序;

3、這種變換對(duì)變換結(jié)果有比較好的解釋。例如:

λ=2的時(shí)候變換變?yōu)榱?img doc360img-src='http://image109.360doc.com/DownloadImg/2019/02/2510/155025609_5_20190225104214506' src="http://image109.360doc.com/DownloadImg/2019/02/2510/155025609_5_20190225104214506"/>,可以叫做平方變換;

λ=1的時(shí)候變換變?yōu)榱?img doc360img-src='http://image109.360doc.com/DownloadImg/2019/02/2510/155025609_6_20190225104214537' src="http://image109.360doc.com/DownloadImg/2019/02/2510/155025609_6_20190225104214537"/>,可以叫做恒等變換;

λ=0.5的時(shí)候變換變?yōu)?img doc360img-src='http://image109.360doc.com/DownloadImg/2019/02/2510/155025609_7_20190225104214568' src="http://image109.360doc.com/DownloadImg/2019/02/2510/155025609_7_20190225104214568"/>,可以叫做平方根變換;

λ=0的時(shí)候可以叫做對(duì)數(shù)變換;

λ=-0.5的時(shí)候,y可以叫做平方根倒數(shù)變換;

4、變換需要y的最大值和y的最小值的比值要大于2,即原始數(shù)據(jù)Y的最大值和最小值的變化范圍不能太小使用BOX-COX變換才是有效的,如果變化范圍過小則數(shù)據(jù)不敏感。但是實(shí)際工作中我還沒有遇到過比值小于2的情況。

怎樣衡量模型好壞

    建模過程中首先應(yīng)該考慮檢驗(yàn)能否通過,如果檢驗(yàn)通過,則需要考慮模型好不好、行不行,即必須要進(jìn)行模型診斷,任何一個(gè)模型都有一個(gè)正常、期待的樣子,即假定,模型建好后都應(yīng)該看下模型擬合的結(jié)果是否符合假定,建模不是很難的過程,困難的點(diǎn)在于數(shù)據(jù)是否符合假定的衡量。

簡(jiǎn)單線性回歸模型的假定

    簡(jiǎn)單線性回歸模型有下面幾個(gè)假定:

1、線性假定

所謂線性假定指構(gòu)建模型時(shí)需將模型構(gòu)建成線性的模式,例如Y=b0+b1x2+e,雖然是x2的形式,但可將x2的整體看做X。即在進(jìn)行參數(shù)估計(jì)的時(shí)候,自變量X可以采用任何形式,但是模型整體需要保證是類線性的模式;

2、正交假定

X和e之間不相關(guān);

3、獨(dú)立同分布

殘差間相互獨(dú)立,方差需齊性,即相等;

4、Y服從正態(tài)分布

一般直接檢驗(yàn)因變量Y是不是正態(tài)分布比較麻煩,實(shí)際檢驗(yàn)的是殘差。

單變量線性回歸模型SAS示例

    單變量線性回歸模型一般形式為:Y=b0+b1X1+e。其中Y為因變量,X為自變量或預(yù)測(cè)變量,e為擾動(dòng)項(xiàng),b為模型的系數(shù)。如下示例建模背景為針對(duì)消費(fèi)與收入構(gòu)建單變量線性回歸模型,下面為SAS實(shí)現(xiàn)代碼以及我對(duì)模型結(jié)果的解讀思路:

PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;

        Linear_Regression_Model: 

                  MODEL cost=income/dw spec;

OUTPUT OUT=result

PREDICTED=predicted_cost 

RESIDUAL=residual_cost 

STUDENT=student_cost 

RSTUDENT=rstudent_cost;

RUN;

QUIT;

結(jié)果解讀:

1、看F檢驗(yàn)結(jié)果與調(diào)整R方:

F檢驗(yàn),如果P值小則為合理;

調(diào)整R方,這里調(diào)整R方過小,說明這個(gè)一元回歸模型可能僅僅一個(gè)自變量是不夠的;

2、看DW與spc:

DW為自相關(guān)衡量指標(biāo),靠近2沒有自相關(guān),靠近4和0有自相關(guān),這里DW為1.42有點(diǎn)靠近未判定區(qū)。一般,DW只能檢驗(yàn)一階自相關(guān),更復(fù)雜的情況無法檢驗(yàn);

spc為異方差檢驗(yàn)指標(biāo),即懷特檢驗(yàn),即下方第一和第二距制定的檢驗(yàn),P值小表明沒有異方差。

    其實(shí),DW檢驗(yàn)也好、懷特檢驗(yàn)也好,都屬于弱檢驗(yàn),他們的檢驗(yàn)結(jié)果的可靠性和實(shí)用性不大,只能作為參考,一般實(shí)際中我還是會(huì)去看殘差圖再次進(jìn)行檢驗(yàn)。

3、看分布,類似鐘型,如果不是鐘型可以對(duì)Y做Box-Cox變換。

4、利用預(yù)測(cè)值殘差圖查看模型是否符合假定

    如果模型符合假定,那么模型的殘差均值為0、方差為常數(shù),圖形中方差用范圍去體現(xiàn),比較期望的狀態(tài)應(yīng)該是以均值為中心、區(qū)間保持穩(wěn)定。這里殘差圖的形態(tài)說明出現(xiàn)了異方差,即消費(fèi)越大花錢的方差越大,需要進(jìn)行變換,這個(gè)地方我不太喜歡用最小二乘的方法進(jìn)行處理,一般我會(huì)想去用合適的方法對(duì)變量進(jìn)行變換。

5、擬合診斷圖

    第一列圖形用于判斷數(shù)據(jù)是否是正態(tài),右上角的四張圖用于判斷強(qiáng)影響點(diǎn)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    欧美日韩国产综合特黄| 欧美丝袜诱惑一区二区| 99久久国产精品亚洲| 精品一区二区三区不卡少妇av| 欧美大黄片在线免费观看| 成人午夜视频在线播放| 亚洲人妻av中文字幕| 国产精品一区二区日韩新区| 久久精品国产亚洲av麻豆| 欧美日韩精品综合在线| 国产乱人伦精品一区二区三区四区| 麻豆一区二区三区精品视频| 草草视频精品在线观看| 麻豆tv传媒在线观看| 亚洲一区二区福利在线| 日韩免费国产91在线| 国产肥女老熟女激情视频一区| 自拍偷拍福利视频在线观看| 午夜福利视频偷拍91| 激情丁香激情五月婷婷| 日本亚洲欧美男人的天堂| 国产精品99一区二区三区| 国产肥妇一区二区熟女精品| 国产级别精品一区二区视频| 亚洲最新的黄色录像在线| 亚洲国产精品久久琪琪| 男人大臿蕉香蕉大视频| 男人和女人草逼免费视频| 日韩欧美一区二区黄色 | 亚洲一区二区三区四区性色av| 婷婷色网视频在线播放| 国产亚洲二区精品美女久久| 亚洲免费黄色高清在线观看| 成人午夜在线视频观看| 亚洲精品中文字幕无限乱码| 国产日韩在线一二三区| 日本高清视频在线观看不卡| 欧美日韩国产黑人一区| 人妻久久一区二区三区精品99| 国产午夜福利不卡片在线观看| 日韩国产亚洲一区二区三区|