一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

回歸模型的基礎(chǔ)是相關(guān)

 昵稱A4812 2019-02-25
    相關(guān)是隨機理論的基礎(chǔ)。田徑賽中百米運動員想跑得快,需要大步幅與高步頻,但步幅和步卻是一對相互矛盾的存在,只有步幅和步頻達到最優(yōu)平衡點時,人才可以跑的更快,所以任何運動員都需要建立步幅和步頻之間的平衡模型

    相關(guān)關(guān)系是數(shù)據(jù)分析的基石,統(tǒng)計關(guān)系可以理解為兩大類,,:

1、函數(shù)關(guān)系:即確定性關(guān)系、確定的對應(yīng)關(guān)系,反映著現(xiàn)象之間存在著嚴格的依存關(guān)系,這種關(guān)系可以用數(shù)學表達式Y=f(x)表達。例如由于價格因素,羅森某天的營業(yè)總額和商品銷量之間就存在著嚴格的依存關(guān)系,再例如圓與半徑之間也存在著嚴格的依存關(guān)系;

2、隨機關(guān)系:即相關(guān)關(guān)系,變量間不能用函數(shù)關(guān)系精確的表達,點不能被函數(shù)完全刻畫,X與Y間誰決定并誰不知道。例如銷量和收入的關(guān)系。


相關(guān)關(guān)系一般有如下三種:

一對一相關(guān):一個Y對一個X,即簡單相關(guān),生活中用的最多;

一對多相關(guān):一個Y對多個X,即復(fù)相關(guān),例如R方就是復(fù)相關(guān)系數(shù);

多對多相關(guān):多個Y對多個X,這涉及到了典型相關(guān)分析。


    統(tǒng)計中能被稱為相關(guān)系數(shù)的參數(shù)有四十多個,大部分統(tǒng)計軟件只能提供spearman、pearson、kendall這幾個相關(guān)系數(shù),SAS除了這三個相關(guān)系數(shù)外,還能提供hoeffman相關(guān)系數(shù),信用評分中一般會使用hoeffding相關(guān)系數(shù),所以fico信用評分的代碼一般會用SAS來寫,相較于其他語言,我也更喜歡用SAS去建立信用評分模型。

    此外,pearson、spearman、kendall與hoeffman相關(guān)系數(shù)要求數(shù)據(jù)起碼為定序數(shù)據(jù),如果數(shù)據(jù)為定類數(shù)據(jù),則只能進行列聯(lián)相關(guān)了。


    模型中一般需要Y和X間要相關(guān),但是X之間最好不要相關(guān)。相關(guān)有統(tǒng)計意義上的相關(guān)和實際業(yè)務(wù)中的相關(guān)之分,有些數(shù)據(jù)變量間在統(tǒng)計上相關(guān)性很強,但是實際業(yè)務(wù)中卻并沒有關(guān)系,這種情況就需要關(guān)注數(shù)據(jù)是否出了問題。

    一般會用相關(guān)系數(shù)去衡量數(shù)據(jù)的相關(guān)性。相關(guān)性具有如下特點:

1、相關(guān)性取值還是取決于分子協(xié)方差;

2、相關(guān)性的絕對值在0與1之間;

3、相關(guān)性絕對值的大小可以說明事物之間相關(guān)關(guān)系的緊密程度。

    一般相關(guān)系數(shù)的衡量標準為:

1、相關(guān)性絕對值<0.3表明事物間沒有關(guān)系;

2、0.3<=相關(guān)性絕對值<0.5表明事物間相關(guān);

3、0.5<=相關(guān)性絕對值<0.8表明事物間顯著相關(guān);

4、相關(guān)性絕對值>=0.8表明事物間高度相關(guān)。

    一般,相關(guān)系數(shù)非常高如0.85的情況只會出現(xiàn)在書本上,實際工作中我還沒有遇到,如果出現(xiàn)這么高的相關(guān)系數(shù),可能是遇到了偽相關(guān)悖論。我舉一個例子來說明偽相關(guān)悖論是什么:例如張三是我在東北上大學時的大學同學,李四是我在北京工作的同事,張三來北京看我,我們?nèi)吮阌辛岁P(guān)聯(lián),但是如果沒有我,我的北京同事和的大學同學這輩子都不會有什么人生交集,所以張三和李四間因為便產(chǎn)生了偽相關(guān)。偽相關(guān)沒有辦法進行檢驗,所以如果計算出的相關(guān)系數(shù)很高,一定要小心的判斷下這兩個變量在業(yè)務(wù)中是否合理。


    例如場景為下班路上,數(shù)據(jù)涉及變量為上班耗時time、年齡age、體重weight、身體狀態(tài)performance、以及耗費精力energy。目的為計算分析變量間的相關(guān)關(guān)系。

    下面的兩段代碼分別為指定固定變量與非指定固定變量兩種情況下 實現(xiàn)相關(guān)系數(shù)計算的 SAS代碼:

1、 利用with參數(shù)指定固定變量為energy,得到的結(jié)果為每個變量與energy變量的散點圖:

proc corr data=XUHUI pearson spearman kendall hoeffding               rank plots(only)=scatter(nvar=all ellipse=none);

          var time age weight performance;

          with energy;

          id name;

          title 'Correlations and Scatter Plots with energy';

run;

2、這種寫法中沒有指定with參數(shù),除了得到四個相關(guān)系數(shù)的計算結(jié)果外,還會得到變量之間的散點矩陣,即所有變量 兩兩之間的相互關(guān)系:

proc corr data=XUHUI pearson spearman kendall hoeffding              nosimple  plots=matrix(nvar=all histogram);

          var time age weight performance;

          title 'Correlations and Scatter Plot Matrix of Predictors';

run;


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲视频在线观看免费中文字幕| 五月婷婷综合缴情六月| 日韩中文字幕欧美亚洲| 中文字幕日韩无套内射| 久久精品欧美一区二区三不卡 | 亚洲欧美日产综合在线网| 日韩成人午夜福利免费视频| 国产一区二区三区丝袜不卡| 少妇特黄av一区二区三区| 精品推荐久久久国产av| 国产精品欧美一级免费| 亚洲精选91福利在线观看| 国产精品视频久久一区| 色综合久久中文综合网| 午夜精品福利视频观看 | 国产美女精品午夜福利视频| 亚洲视频在线观看你懂的| 日本理论片午夜在线观看| 青青草草免费在线视频| 国产亚洲不卡一区二区| 久久精品中文字幕人妻中文| 在线免费国产一区二区| 初尝人妻少妇中文字幕在线| 男女午夜视频在线观看免费| 亚洲欧美精品伊人久久| 好吊日在线视频免费观看| 日韩黄片大全免费在线看| 欧美精品女同一区二区| 午夜福利精品视频视频| 欧美不卡午夜中文字幕| 亚洲中文字幕一区三区| 激情综合五月开心久久| 好吊日在线观看免费视频| 久久免费精品拍拍一区二区| 精产国品一二三区麻豆| 日韩欧美亚洲综合在线| 色婷婷成人精品综合一区| 毛片在线观看免费日韩| 久久大香蕉一区二区三区| 欧美精品一区二区水蜜桃| 精品日韩av一区二区三区|