讓我們的腦海里浮現(xiàn)這么一幅畫面: 經(jīng)過一番艱(bu)苦(kan)卓(hui)絕(shou)的努力—— 也許是焚膏繼晷與小白鼠的斗智斗勇, 也許是分子實驗室里寂寞的離心和電泳, 也許是對病人的軟磨硬泡, 也許是病例故紙堆里的上下求索—— 反正莫問出處吧,現(xiàn)在你的數(shù)據(jù)已經(jīng)收集完畢,乖乖地呆在電腦硬盤的一個Excel文件里了,那么, 請問你接下來要做什么呢? 也許你正覺得自己像個躊躇滿志的統(tǒng)帥,手下那可是一眾精兵強將,比如說什么t檢驗將軍啦、線性回歸元帥啦,營帳里還坐著互相有點不太待見、但都身懷絕技的費希爾和貝葉斯兩位軍師(戳這里回顧上一集《貝葉斯vs頻率派:武功到底哪家強?》),個個磨刀霍霍,就只等著你大手一揮,一擁而上把你的Science文章手到擒來? 這時請容我在你耳邊幽幽地說一句: 且慢且慢。 孫子有云:“知己知彼,百戰(zhàn)不殆。”在大戰(zhàn)三百回合之前,千萬別忘了先打量打量你的數(shù)據(jù)到底長什么樣子??刹灰】催@似乎沒啥技術(shù)含量的一步,要是缺了它,十次里有九次咱們可是要陰溝翻船的。今天我們就來聊一聊為什么需要它,以及具體有哪些需要關(guān)注的地方。 在正式地對數(shù)據(jù)進行嚴格的統(tǒng)計學檢驗之前,獲取和檢查數(shù)據(jù)基本信息的步驟,統(tǒng)稱為“探索性數(shù)據(jù)分析”(exploratory data analysis),也有人把它叫做“預處理”(pre-processing)。 這里的“探索性”,意思是說,此時的分析并不是為了驗證某個特定的假說或者擬合具體的模型,而是要對數(shù)據(jù)的總體情況有一個基本的了解。 為什么說探索性數(shù)據(jù)分析是必不可少的呢? 它主要可以實現(xiàn)下面幾個目標: 一、發(fā)現(xiàn)數(shù)據(jù)中可能存在的錯誤和遺漏。大家都知道,數(shù)據(jù)的收集和整理是一件繁雜的工作,有時這個過程可能耗時很長,又或者是團隊合作的結(jié)果。在這樣的情況下,出現(xiàn)各種各樣的錯誤、紕漏在所難免。我們除了在數(shù)據(jù)收集過程中要采取預防措施、盡量減少錯誤以外,還需要通過探索性數(shù)據(jù)分析進行最后的把關(guān)。 二、掌握數(shù)據(jù)的基本情況,獲得進一步分析的靈感。通過探索性數(shù)據(jù)分析,我們可以初步了解數(shù)據(jù)的面貌,比如取值范圍、中值、分散程度等。這些信息還可以提示我們數(shù)據(jù)中也許存在的關(guān)聯(lián),讓我們發(fā)現(xiàn)也許之前未曾考慮過的有趣的現(xiàn)象,指引我們形成具體的科學假設(shè)。 三、檢查我們想要執(zhí)行的統(tǒng)計檢驗的假設(shè)是否成立。許多統(tǒng)計檢驗對數(shù)據(jù)本身有一定的要求(尤其是它們的分布形態(tài)),只有當我們的數(shù)據(jù)滿足這些假設(shè)時,統(tǒng)計檢驗的結(jié)果才有意義。探索性數(shù)據(jù)分析可以幫助我們做出初步的判斷,排除不適用的統(tǒng)計檢驗。 ? 上面說了探索性數(shù)據(jù)分析的重要性,我知道你也許還有些云里霧里。別著急,我們馬上就會講到探索性數(shù)據(jù)分析的具體方法,到那時我們就能更清楚地了解其作用了。 不過,我們需要先講一講數(shù)據(jù)可以分為哪些類型,因為不同類型的數(shù)據(jù)需要用到不同的探索性分析方法。 最簡單、但又最重要的數(shù)據(jù)類型有兩種,離散型數(shù)據(jù)(discrete data)和連續(xù)型數(shù)據(jù)(continuous data)。 離散型數(shù)據(jù)本質(zhì)上是一種分類。最典型的例子,就是性別、種族、職業(yè)、教育程度等。在多數(shù)情況下,離散型數(shù)據(jù)并沒有具體的數(shù)值(比如性別中的男和女),或者雖然形式上由數(shù)值表示,但數(shù)值本身并沒有明確的意義(比如用郵政編碼來記錄受試者居住的地域)。 你也許會意識到,對于有些離散變量來說,不同的分類是有某種順序關(guān)系的,比如說教育程度可以從低到高排列,而有些離散變量并沒有這種順序,比如說某個基因的基因型。這兩種情況分別稱為有序變量(ordinal variable)和名義變量(nominal variable)。 那么連續(xù)型數(shù)據(jù)呢?顧名思義,連續(xù)型數(shù)據(jù)的數(shù)值有具體的科學意義,并且可以在數(shù)軸上的某個范圍連續(xù)取值。如果不受測量精度的限制,它在理論上可能的取值是無限多的。比如身高、體重、血糖濃度、腎小球濾過率等。有些數(shù)據(jù)理論上并沒有無限多的取值(比如人口只能取整數(shù),商品的價格最高的精度只能是最小幣值),嚴格來說應該是有序離散變量,但由于它們可能的取值足夠繁多,因此在實際處理時當成連續(xù)型數(shù)據(jù)更加方便。 要對離散型數(shù)據(jù)進行探索性分析,最簡單、最有效的方法是算出一個包含所有情況的頻數(shù)(或頻率)表。 用性別來做一個最簡單的例子,我們可以用軟件很容易地算出數(shù)據(jù)中“性別”這個變量的所有不同情況的數(shù)量以及百分比。這能夠給我們提供哪些信息? 首先,我們可以很快了解數(shù)據(jù)中男女性的比例,還可以看到是否有異常的數(shù)據(jù)點出現(xiàn)。假設(shè)我們都用中文“男”“女”來標注受試者的性別,那么性別變量應該只有這兩種情況。如果我們不清楚部分受試者的性別,則還會有第三種情況。但是,如果你在頻數(shù)表中發(fā)現(xiàn)了還有一個類別“M”,那么很可能是在錄入個別受試者的數(shù)據(jù)時不小心打了英文。 其次,如果我們的研究中需要對男女性受試者進行比較,根據(jù)頻數(shù)的信息,我們還可以考慮當前數(shù)據(jù)是否能夠滿足我們的需要(男、女性的數(shù)量是否都足夠多,兩者數(shù)量比例如何等)。 如果你自認為是一個視覺動物,也可以選擇繪制餅狀圖(pie chart,如下圖),它展示的信息與頻數(shù)(頻率)表是完全相同的。 相比起離散型數(shù)據(jù),連續(xù)型數(shù)據(jù)往往能提供更多的信息,因此探索性數(shù)據(jù)分析的內(nèi)容和方法也更復雜一些。對于一個連續(xù)性變量,每一個數(shù)據(jù)點可能都有不同的取值。在這些紛繁復雜之中,我們首先想知道的自然是大勢所趨——我們感興趣的整個群體平均而言是多大一個數(shù)?用高大上的統(tǒng)計學術(shù)語來說,這叫做集中趨勢(central tendency)。 不必被術(shù)語嚇到,回想一下初中甚至小學時學過的最初級的統(tǒng)計學知識,其實不就是平均數(shù)(mean)嘛! 不錯,算術(shù)平均數(shù)(arithmatic mean)是對集中趨勢的最常用的描述。但是,別忘了平均數(shù)還有一個兄弟,叫做中位數(shù)(median)。中位數(shù)的計算,是把該變量所有取值從小到大(或從大到小)排序,取最中間的一個(例如總共有21個數(shù),則取排行第11的)。如果樣本量是偶數(shù),則取中間兩個數(shù)的平均。換句話說,在數(shù)據(jù)集里,恰好有一半的數(shù)據(jù)點比中位數(shù)大,而另一半的數(shù)據(jù)點比它小。 許多人都會對中位數(shù)有些嫌棄,因為它不像算術(shù)平均數(shù)那樣有一個固定又簡單的式子。為什么我們還需要它?相比起算術(shù)平均數(shù),中位數(shù)有一個突出的優(yōu)點:根據(jù)它的定義,它就是所有數(shù)據(jù)點里最中不溜秋的一個,所以它有一種穩(wěn)如泰山的性格(統(tǒng)計學中稱為穩(wěn)健性,robustness)。 比如說,如果有人算了算現(xiàn)任上海籍全國政協(xié)委員的身高平均值,很可能會得到一個比一般人的身高要大的一個數(shù)。難道長得高更容易當選全國政協(xié)委員?不是。這個平均值只是個假象,因為全國政協(xié)委員里面的上海人里有個姚明。在存在極端值的情況下,中位數(shù)比算術(shù)平均值更能反映樣本的普遍水平,因為算術(shù)平均值很容易受到極端值的影響,而中位數(shù)則不然。 與此類似的是,如果我們感興趣的變量分布不對稱時,中位數(shù)和算術(shù)平均數(shù)也會有比較大的差別。最經(jīng)典的例子是個人收入,這個數(shù)字是有下限的(零),然而卻是上不封頂(幾天前的那個晚上廣大剁手黨又給馬云同志做了多少貢獻?),所以算術(shù)平均往往會被最大的那一小撮數(shù)據(jù)點拉高。因此,我們?nèi)绻霃娜司杖肜锿茢嘁粋€國家或地區(qū)普通居民的經(jīng)濟情況,可能就不太準確了。這個時候該找誰?不錯,就是中位數(shù)! 集中趨勢只是數(shù)據(jù)中所蘊含信息的一個部分,要得到進一步的知識我們還需要知道數(shù)據(jù)的波動或發(fā)散程度,也稱為展布(spread)。 我們?yōu)槭裁匆P(guān)心數(shù)據(jù)的波動程度呢?集中趨勢能讓我們靠近表面以下的本質(zhì)規(guī)律,但是展布卻告訴我們這一本質(zhì)表現(xiàn)得有多穩(wěn)定。設(shè)想一下,兩個程度相當?shù)膶W生,一個四平八穩(wěn),另一個則是一把神經(jīng)刀,一會兒超常發(fā)揮一會兒大跌眼鏡,他們倆進高考考場時的心態(tài)必然不一樣吧? 展布有幾種常見的表示方式。其一是樣本方差(variance),它的公式是 也就是說,取每個數(shù)據(jù)點與平均值之差的平方(可以將其視為各數(shù)據(jù)點到平均值的“距離”),并把它們都加起來然后除以n-1。 這個定義并不難理解,無非只是把各個數(shù)據(jù)點與中心的偏離程度匯總起來而已。至于為什么除的是n-1而不是n,涉及到稍微復雜一些的理論,我們暫時先不深究。由于平方的存在,方差的量綱也帶上了平方(例如血壓的方差的單位就成了毫米平方汞柱)。為了讓量綱和原來的數(shù)據(jù)一致,我們可以給樣本方差開個根號,這也就是大家常見的標準差(standard deviation)了。 聰明的你一定會想到,方差和標準差都有和算術(shù)平均數(shù)一樣的毛病,就是容易被極端值帶跑。那么有沒有像中位數(shù)那樣的穩(wěn)健的表示展布的量呢?沿用尋找中位數(shù)的思路,我們把所有數(shù)據(jù)點從小到大排列,并且分成樣本量相等的四塊。那么,這四塊之間就會產(chǎn)生三個分界點(稱為四分位點,quartile),從小到大分別用Q1, Q2, Q3表示(見下表)。 如果我們?nèi)3和Q1之差,那么這就是四分位差(interquartile range),也稱為內(nèi)距。由于四分位差不考慮首尾兩端的數(shù)據(jù)點,因此,它是一個不容易受極端值干擾的表示展布的統(tǒng)計量。 上面討論的這些統(tǒng)計量,可以很方便地用圖形來表示。其中一種選擇是箱線圖(boxplot),它匯集了中位數(shù)、四分位差以及一些其他信息,能夠使我們對樣本的分布有一個直觀的了解,也可以讓我們快速發(fā)現(xiàn)數(shù)據(jù)中可能存在的錯誤(例如因為數(shù)據(jù)錄入或單位錯誤導致的異常值)。 它之所以被稱為箱線圖,是因為它用一個“箱子”來表示我們的數(shù)據(jù)中最靠中間的一半(即Q1和Q3之間的所有數(shù)據(jù)點),而用箱子上下的兩根“胡須”來表示數(shù)據(jù)的上下限范圍。箱線圖的畫法以及含義見下圖。 不難看到,箱線圖提供了相當豐富的信息,但仍然不是全部。比如說,箱子里那50%的數(shù)據(jù)是怎樣分布的?我們無法在箱線圖上得知。這時,我們需要請出探索性數(shù)據(jù)分析的最大殺器——頻率直方圖(histogram)。 頻率直方圖是對樣本數(shù)據(jù)分布狀況的一種可視化的展現(xiàn)方式。它最初來源于大家在中學都聽說過的高爾頓釘板(下圖)。 我們可以把我們的每一個數(shù)據(jù)點想象成一個從上方以某種規(guī)律落下的小球(當然不一定像高爾頓釘板那樣),那么頻率直方圖描繪的就是落到下方不同區(qū)域的球的數(shù)量。 要畫出一張頻率直方圖,首先要將變量的整個取值范圍劃出若干區(qū)間(通常等距)。比如說,我們有一個樣本,其中受試者體重的最小值和最大值分別是48公斤到73公斤,如果以5公斤作為組距(bin),那么我們可以把整個體重的范圍分成[48,53], [53, 58], [58,63], [63, 68], [68,73]這些區(qū)間。然后以體重為橫坐標,受試者的數(shù)量除以組距為縱坐標(這樣每個矩形的面積就是該區(qū)間內(nèi)受試者的數(shù)量),畫出受試者在這些區(qū)間中的分布。 頻率直方圖可以讓我們對樣本的整體分布一目了然,得到分布形態(tài)、對稱程度等關(guān)鍵信息(見下圖)。頻率直方圖一個關(guān)鍵的地方,在于區(qū)間數(shù)量的確定:區(qū)間數(shù)量太少的話,頻率直方圖過于粗略,會掩蓋真實的分布;區(qū)間數(shù)量太多,則變得過于瑣碎,不容易看出分布的大趨勢。區(qū)間數(shù)量多少合適,取決于樣本量的大小和數(shù)據(jù)的具體分布情況,在實際應用時一般都要通過反復嘗試才能獲得比較好的選擇。 要注意,千萬不要把頻率直方圖和另一種常見的統(tǒng)計圖——條形圖(bar plot,或稱柱狀圖)混為一談。頻率直方圖呈現(xiàn)的是某個連續(xù)變量的整體分布情況(在不同取值范圍里出現(xiàn)的次數(shù)多少),而柱狀圖描繪的是不同組別或個體的某一種用連續(xù)變量來表示的性質(zhì)。因此,頻率直方圖(下圖右)的橫軸必然是該變量本身,而且必須覆蓋這個變量取值的整個范圍,矩形的高度表示的是落在對應區(qū)間的數(shù)據(jù)點的個數(shù)(或個數(shù)除以區(qū)間寬度);而條形圖(下圖左)的橫軸則是某個分類(如組別、個體、年份等),矩形的高度則是這些分類各自的某個連續(xù)變量的值。 探索性數(shù)據(jù)分析的方法很多,這里介紹的只是其中最常用、最重要的一小部分。但是,萬變不離其宗,不論用哪種方法,我們的目的都是要管中窺豹,盡可能全面地了解手上數(shù)據(jù)的情況。千里之行,始于足下,不管你要做怎樣的數(shù)據(jù)分析,都別忘了這關(guān)鍵的第一步哦! ? 參考文獻:Seltman, H. J. (2012). Experimental design and analysis. Online at: http://www. stat. cmu. edu/, hseltman/309/Book/Book. pdf 回復「說人話的統(tǒng)計學」查看本系列全部文章。 作者:張之昊 編輯:燈盞細辛 |
|