相關(guān)關(guān)系是數(shù)據(jù)分析的基石,統(tǒng)計關(guān)系可以理解為兩大類,,: 1、函數(shù)關(guān)系:即確定性關(guān)系、確定的對應(yīng)關(guān)系,反映著現(xiàn)象之間存在著嚴格的依存關(guān)系,這種關(guān)系可以用數(shù)學表達式Y=f(x)表達。例如由于價格因素,羅森某天的營業(yè)總額和商品銷量之間就存在著嚴格的依存關(guān)系,再例如圓與半徑之間也存在著嚴格的依存關(guān)系; 2、隨機關(guān)系:即相關(guān)關(guān)系,變量間不能用函數(shù)關(guān)系精確的表達,點不能被函數(shù)完全刻畫,X與Y間誰決定并誰不知道。例如銷量和收入的關(guān)系。 相關(guān)關(guān)系一般有如下三種: 一對一相關(guān):一個Y對一個X,即簡單相關(guān),生活中用的最多; 一對多相關(guān):一個Y對多個X,即復(fù)相關(guān),例如R方就是復(fù)相關(guān)系數(shù); 多對多相關(guān):多個Y對多個X,這涉及到了典型相關(guān)分析。 統(tǒng)計中能被稱為相關(guān)系數(shù)的參數(shù)有四十多個,大部分統(tǒng)計軟件只能提供spearman、pearson、kendall這幾個相關(guān)系數(shù),SAS除了這三個相關(guān)系數(shù)外,還能提供hoeffman相關(guān)系數(shù),信用評分中一般會使用hoeffding相關(guān)系數(shù),所以fico信用評分的代碼一般會用SAS來寫,相較于其他語言,我也更喜歡用SAS去建立信用評分模型。 此外,pearson、spearman、kendall與hoeffman相關(guān)系數(shù)要求數(shù)據(jù)起碼為定序數(shù)據(jù),如果數(shù)據(jù)為定類數(shù)據(jù),則只能進行列聯(lián)相關(guān)了。 模型中一般需要Y和X間要相關(guān),但是X之間最好不要相關(guān)。相關(guān)有統(tǒng)計意義上的相關(guān)和實際業(yè)務(wù)中的相關(guān)之分,有些數(shù)據(jù)變量間在統(tǒng)計上相關(guān)性很強,但是實際業(yè)務(wù)中卻并沒有關(guān)系,這種情況就需要關(guān)注數(shù)據(jù)是否出了問題。 一般會用相關(guān)系數(shù)去衡量數(shù)據(jù)的相關(guān)性。相關(guān)性具有如下特點: 1、相關(guān)性取正值還是負值取決于分子協(xié)方差; 2、相關(guān)性的絕對值在0與1之間; 3、相關(guān)性絕對值的大小可以說明事物之間相關(guān)關(guān)系的緊密程度。 一般相關(guān)系數(shù)的衡量標準為: 1、相關(guān)性絕對值<0.3表明事物間沒有關(guān)系; 2、0.3<=相關(guān)性絕對值<0.5表明事物間低相關(guān); 3、0.5<=相關(guān)性絕對值<0.8表明事物間顯著相關(guān); 4、相關(guān)性絕對值>=0.8表明事物間高度相關(guān)。 一般,相關(guān)系數(shù)非常高如0.85的情況只會出現(xiàn)在書本上,實際工作中我還沒有遇到,如果出現(xiàn)這么高的相關(guān)系數(shù),可能是遇到了偽相關(guān)悖論。我舉一個例子來說明偽相關(guān)悖論是什么:例如張三是我在東北上大學時的大學同學,李四是我在北京工作的同事,張三來北京看我,我們?nèi)吮阌辛岁P(guān)聯(lián),但是如果沒有我,我的北京同事和我的大學同學這輩子都不會有什么人生交集,所以張三和李四間因為我便產(chǎn)生了偽相關(guān)。偽相關(guān)沒有辦法進行檢驗,所以如果計算出的相關(guān)系數(shù)很高,一定要小心的判斷下這兩個變量在業(yè)務(wù)中是否合理。 例如場景為下班路上,數(shù)據(jù)涉及變量為上班耗時time、年齡age、體重weight、身體狀態(tài)performance、以及耗費精力energy。目的為計算分析變量間的相關(guān)關(guān)系。 下面的兩段代碼分別為指定固定變量與非指定固定變量兩種情況下 實現(xiàn)相關(guān)系數(shù)計算的 SAS代碼: 1、 利用with參數(shù)指定固定變量為energy,得到的結(jié)果為每個變量與energy變量的散點圖: proc corr data=XUHUI pearson spearman kendall hoeffding rank plots(only)=scatter(nvar=all ellipse=none); var time age weight performance; with energy; id name; title 'Correlations and Scatter Plots with energy'; run; 2、這種寫法中沒有指定with參數(shù),除了得到四個相關(guān)系數(shù)的計算結(jié)果外,還會得到變量之間的散點矩陣圖,即所有變量 兩兩之間的相互關(guān)系: proc corr data=XUHUI pearson spearman kendall hoeffding nosimple plots=matrix(nvar=all histogram); var time age weight performance; title 'Correlations and Scatter Plot Matrix of Predictors'; run; |
|
來自: 昵稱A4812 > 《統(tǒng)計》