解鎖數(shù)據(jù)分析的正確姿勢(shì)：描述統(tǒng)計(jì)

半夏陌涼 2017-03-13

展開全文

本文是《如何七周成為數(shù)據(jù)分析師》的第十二篇教程，如果想要了解寫作初衷，可以先行閱讀七周指南。溫馨提示：如果您已經(jīng)熟悉統(tǒng)計(jì)學(xué)，大可不必再看這篇文章，或只挑選部分。

當(dāng)獲得一份數(shù)據(jù)集時(shí)，你會(huì)怎么做？

立馬撩起袖管進(jìn)行分析么？這不是一個(gè)好建議。無數(shù)的經(jīng)驗(yàn)告訴我們，如果分析師不先行了解數(shù)據(jù)集的質(zhì)量，后續(xù)的推斷分析是事倍功半的。

正確的處理方法是先使用描述統(tǒng)計(jì)。

什么是描述統(tǒng)計(jì)學(xué)

它是一種綜合概括數(shù)據(jù)集的方式，包括數(shù)據(jù)的加工和顯示，數(shù)據(jù)集的分布特征等。它與推斷統(tǒng)計(jì)相呼應(yīng)。

在進(jìn)入統(tǒng)計(jì)學(xué)習(xí)前，先明確基礎(chǔ)概念。

數(shù)據(jù)可以分為分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù)。分類型數(shù)據(jù)是識(shí)別變量的類型，比如男女、地區(qū)、各種類別；數(shù)值型數(shù)據(jù)是表示數(shù)值的大小和多少，比如年齡中的18、19、20歲。

最明顯的區(qū)分是，分類型數(shù)據(jù)不能使用加減法，而數(shù)值型數(shù)據(jù)可以。兩者在一定程度可以互相轉(zhuǎn)換。比如年齡，18歲是數(shù)值型數(shù)據(jù)，但它也可以轉(zhuǎn)換成分類數(shù)據(jù)「青少年」。我們也能用數(shù)值表示分類數(shù)據(jù)，比如0代表女，1代表男，它依舊沒有計(jì)算意義，更多是方便計(jì)算機(jī)存儲(chǔ)而已。

分類數(shù)據(jù)和數(shù)值數(shù)據(jù)的具體應(yīng)用，會(huì)在往后的學(xué)習(xí)中繼續(xù)深入，本文先將主要精力放在數(shù)值型數(shù)據(jù)。

數(shù)據(jù)的度量

平均數(shù)是一種數(shù)據(jù)位置的度量，用以了解整體數(shù)據(jù)，這是小學(xué)就學(xué)到的內(nèi)容?？墒瞧骄鶖?shù)并不是一個(gè)權(quán)威的衡量指標(biāo)，當(dāng)我們提到全國平均工資的時(shí)候，我們都是被馬云爸爸王健林爸爸平均的普通人。

平均數(shù)容易受到極值的影響，因?yàn)閿?shù)據(jù)集并不能保證「干凈」，各類運(yùn)營數(shù)據(jù)經(jīng)常受到擾動(dòng)，比如薅羊毛黨就會(huì)拉高營銷活動(dòng)的平均值。一般而言，可以用調(diào)整平均數(shù)（trimmed mean）消除異常波動(dòng)，在數(shù)據(jù)集中刪除一定比例的極大值和極小值，比如5%，然后重新計(jì)算平均數(shù)。

它既然不靠譜，我們便請(qǐng)出中位數(shù)。將所有數(shù)據(jù)按升序排列后，位于中間的數(shù)值即中位數(shù)。當(dāng)數(shù)據(jù)集是奇數(shù)，中位數(shù)是中間的數(shù)值，當(dāng)數(shù)據(jù)集是偶數(shù)，中位數(shù)是中間兩個(gè)數(shù)的平均值。這也是小學(xué)的內(nèi)容。

另外一種度量是眾數(shù)，它是數(shù)據(jù)集出現(xiàn)頻次最多的數(shù)據(jù)，當(dāng)有多個(gè)眾數(shù)時(shí)，稱為多眾數(shù)。眾數(shù)使用的頻率低于前兩者，更多用于分類數(shù)據(jù)。

平均數(shù)、中位數(shù)、眾數(shù)構(gòu)成了標(biāo)準(zhǔn)的衡量方法。但是還不夠。

數(shù)據(jù)分析師常將數(shù)據(jù)劃分為四個(gè)部分，每一部分包含25%的數(shù)據(jù)集，劃分的分割點(diǎn)叫做四分位數(shù)。

依次將數(shù)據(jù)升序排列，位于第25%位置的叫做第一四分位數(shù)Q1，位于第50%位置的叫做第二四分位數(shù)Q2，即中位數(shù)，位于第75%的叫做第三分位數(shù)Q3。這三個(gè)點(diǎn)，能輔助衡量數(shù)據(jù)的分布狀態(tài)。

數(shù)據(jù)的離散和變異

我們考慮一個(gè)新的問題，現(xiàn)在一家電商公司要賣兩個(gè)同類型的商品，它們的一周銷量（單位：個(gè)）如下：

商品A：10，10，10，11，12，12，12

商品B：3，5，6，11，16，17，19

它們的平均數(shù)一樣，中位數(shù)也一樣，可它們的真實(shí)情況呢？當(dāng)然不。作為商品，我們更喜歡銷量穩(wěn)定的。

方差是一種可以衡量數(shù)據(jù)「穩(wěn)定性」的度量，更通俗的解釋是衡量數(shù)據(jù)的變異性，從圖形上說，也叫離散程度。

方差的計(jì)算公式是各個(gè)數(shù)據(jù)分別與其平均數(shù)之差的平方和的平均數(shù)。

上述公式是總體數(shù)據(jù)集的方差計(jì)算，當(dāng)數(shù)據(jù)近為部分抽樣樣本時(shí)，n應(yīng)該改為n-1。數(shù)據(jù)集足夠大時(shí)，兩者的誤差也可以忽略不計(jì)。

現(xiàn)在計(jì)算上文商品的方差。Excel中的方差公式為VARP( )，如果是樣本數(shù)據(jù)，則為VAR( )。不同Excel版本，函數(shù)會(huì)有微小差異。

方差越大，說明數(shù)據(jù)集的離散程度越大，商品A的銷量波動(dòng)明顯比商品B穩(wěn)定。方差的計(jì)算中，因?yàn)樯婕暗搅似椒胶?，所以單位的量綱是平方（商品A和B的方差，單位為個(gè)^2），它很難有直觀的詮釋。于是我們又引入標(biāo)準(zhǔn)差。

標(biāo)準(zhǔn)差是方差的開平方:

Excel中，標(biāo)準(zhǔn)差的計(jì)算函數(shù)為stdevp( )，如果是樣本數(shù)據(jù)，則為stdev( )。

方差和標(biāo)準(zhǔn)差的意義是相同的，但是標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位量綱相同，它更容易與平均數(shù)等度量比較。比如商品A的平均銷量為11個(gè)，標(biāo)準(zhǔn)差為0.85個(gè)，于是我們知道這個(gè)商品賣的比較穩(wěn)。

切比雪夫定理指出，至少有75%的數(shù)據(jù)值與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差以內(nèi)，至少有89%的數(shù)據(jù)與平均數(shù)在3個(gè)標(biāo)準(zhǔn)差之內(nèi)，至少有94%的數(shù)據(jù)與平均數(shù)在4個(gè)標(biāo)準(zhǔn)差以內(nèi)。這是一個(gè)非常方便的定理，能快速掌握數(shù)據(jù)包含的范圍。

假設(shè)上海地區(qū)的平均薪資是20k，標(biāo)準(zhǔn)差是5K，那么大約有90%的薪資，都在5k～35k的區(qū)間內(nèi)。

如果數(shù)據(jù)本身符合正態(tài)（鐘形）分布，那么切比雪夫定理的估算將進(jìn)一步準(zhǔn)確：68%的數(shù)據(jù)落在距離平均數(shù)一個(gè)標(biāo)準(zhǔn)差內(nèi)，95%的數(shù)據(jù)值落在距離平均數(shù)2個(gè)標(biāo)準(zhǔn)差之內(nèi)，幾乎所有的數(shù)據(jù)落在三個(gè)標(biāo)準(zhǔn)差內(nèi)。

在Excel中，有一個(gè)重要的工具叫數(shù)據(jù)分析庫（部分Excel版本需要安裝，自行搜索），里面封裝了大量的統(tǒng)計(jì)工具。

點(diǎn)擊描述統(tǒng)計(jì)，選擇需要計(jì)算的區(qū)域，設(shè)置為逐列，輸出區(qū)域選擇旁邊U2區(qū)塊。輸出計(jì)算結(jié)果。

列1的所有內(nèi)容，均屬于描述統(tǒng)計(jì)中的各類度量。我們不用一個(gè)個(gè)函數(shù)去計(jì)算了。

方差和標(biāo)準(zhǔn)差是重要的概念，在后續(xù)的統(tǒng)計(jì)學(xué)中將繼續(xù)出現(xiàn)。

數(shù)據(jù)的箱線圖

回到度量，上文提到的內(nèi)容，都屬于數(shù)值類的方法，可它們還是不夠直觀。

先匯總五類數(shù)據(jù)：最小值、第一四分位數(shù)Q1、中位數(shù)、第三四分位數(shù)Q3、最大值。

拿數(shù)據(jù)分析師的薪資數(shù)據(jù)作案例。

以上是清洗后的數(shù)據(jù)。我們用Excel函數(shù)計(jì)算這五個(gè)度量。分別是median( )、max( )、min( )、quartile( )。按城市區(qū)分。

通過數(shù)據(jù)，現(xiàn)在可以了解各城市的數(shù)據(jù)分析師薪資分布了，接下來把它們加工成箱線圖，它是最常用的描述統(tǒng)計(jì)圖表。

箱線圖通過我們求出的五個(gè)數(shù)據(jù)確定位置。

箱線圖的上下邊緣分別是最大值和最小值（實(shí)際不是，這里為了方便，先這樣理解），箱體的上下邊界則是25%分位數(shù)和75分位數(shù)。箱內(nèi)橫線是中位數(shù)。異常值是箱線邊緣外的數(shù)值，需要直接排除。

Excel2016可以直接繪制箱線圖，如果是早期版本，有兩種作圖思路。

第一種，是利用股價(jià)圖。將圖表按25%分位數(shù)、最大值、最小值、75%分位數(shù)的順序排列。

然后直接生成圖表:

這個(gè)圖表是沒有中位數(shù)的，中位數(shù)需要添加上去。數(shù)據(jù)源新建一個(gè)系列，該系列應(yīng)該調(diào)整到位于數(shù)據(jù)源的中間位置。

選擇中位數(shù)的數(shù)據(jù)系列格式，更改標(biāo)記為「-」，大小為12榜，顏色為黑色。此時(shí)就有箱線圖的雛形了。

另外一種思路是利用散點(diǎn)圖的誤差線繪制，和甘特圖的原理一樣，大家自己練習(xí)吧。

其實(shí)從圖表中看到，雖然我們描繪出了箱線圖，但是不同城市的數(shù)據(jù)區(qū)別并不直觀，因?yàn)樽畲笾祿胃吡讼渚€圖的邊緣。我們經(jīng)常會(huì)遇到這些影響分析質(zhì)量的異常值（過于異常的數(shù)值雖然存在合理性，但是很多分析必須移除掉它們）。我們需要清洗掉這批異常值。

定義四分位差I(lǐng)QR=Q3（75%分位數(shù)）—Q1（25%分位數(shù)），箱線圖的界限在（Q1-1.5IQR，Q3 1.5個(gè)IQR）處。界限外部所有值均為異常值。

bottom和top就是新的界限，對(duì)于在界限外部的數(shù)據(jù)，均認(rèn)為是異常值。界限內(nèi)部的數(shù)據(jù)則是箱線圖的主體，接下來找出界限內(nèi)的最大值和最小值。比如上海的界限是-5～39之間，而界限內(nèi)的數(shù)據(jù)實(shí)際范圍為1.5～37.5，那么就以1.5~37.5繪制箱形。

現(xiàn)在大家求出了真正的五個(gè)度量，可以重新繪制箱線圖（我們要用bottom和top求出范圍內(nèi)新的最大值和最小值）。為了方便演示，我直接以Python生成（以前教過的BI也行，更好看）。

比Excel繪制的圖直觀多了。紅線位置，是各個(gè)城市中游水平的數(shù)據(jù)分析師能夠獲得的薪資標(biāo)準(zhǔn)，上邊的藍(lán)線區(qū)間為中上游，下邊的藍(lán)線區(qū)間為中下游，以此類推。簡而言之，人群被四等分了。

我們解讀一下：上海、北京、深圳的數(shù)據(jù)分析師，薪資范圍接近，但是中上游水平的人，北京地區(qū)能獲得更高的薪資，因?yàn)橹形粩?shù)的位置更高。西安、長沙、天津則不利于數(shù)據(jù)分析師的發(fā)展。杭州的水平接近北上深，但是薪資上限受到一定限制。

這張圖能一眼看出不少內(nèi)容，想必大家已經(jīng)明白箱線圖的作用了，它能讀出數(shù)據(jù)的整體分布和傾斜趨勢(shì)（偏態(tài)）。

通過圖表（直方圖、散點(diǎn)圖也算描述統(tǒng)計(jì)）快速解讀數(shù)據(jù)，是數(shù)據(jù)分析師的基礎(chǔ)能力之一。

大家想一下，如果是O2O的數(shù)據(jù)分析，能不能快速判斷各城市的業(yè)務(wù)狀況？如果是金融，能不能劃分人群看它們業(yè)務(wù)之間不同的分布？如果是電商，不同類目的營銷數(shù)據(jù)會(huì)有大的差異嗎？再配合不同的維度細(xì)分，發(fā)揮的價(jià)值大著呢。

箱線圖是一種非常優(yōu)秀的圖表。雖然在Excel中會(huì)繁瑣一些（趕緊更新到2016），但是在Python和R語言，也就是十秒鐘的操作時(shí)間。

——————

下一章，講解數(shù)據(jù)的頻數(shù)和分布

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：半夏陌涼 > 《數(shù)據(jù)分析》

舉報(bào)/認(rèn)領(lǐng)