作者:徐晟 來(lái)源:華章科技 有人曾統(tǒng)計(jì)了某家互聯(lián)網(wǎng)公司的季度財(cái)報(bào)。結(jié)果顯示,該公司員工平均月薪是其他同行的3~4倍。消息一出,立即引起人們熱議。雖然后來(lái)這家公司出來(lái)辟謠,表明公開的酬金成本包括員工培訓(xùn)、福利開支、繳納稅金、商業(yè)保險(xiǎn)、年終獎(jiǎng),但這并沒(méi)能讓大眾信服。人們關(guān)心的問(wèn)題是:統(tǒng)計(jì)平均工資的方法是否合理? 如果把一個(gè)普通員工和世界首富的工資放在一塊取平均值,那么可以想象,普通人的工資幾乎可以忽略不計(jì)。在一個(gè)企業(yè)中,20%的人占據(jù)了80%的工資總額。高收入的人比例偏少,但對(duì)平均工資的影響很大。 平均工資僅僅是經(jīng)濟(jì)領(lǐng)域的一個(gè)例子。生活中,我們會(huì)接觸到各式各樣的數(shù)據(jù),它們以不同的形態(tài)展現(xiàn)。在處理一組數(shù)據(jù)時(shí),平均值可以很好地代表這組數(shù)據(jù)的平均水平,但由于削峰填谷,它也勢(shì)必會(huì)損失一部分信息,只能反映總體特征的一個(gè)方面。 想要掌握數(shù)據(jù)的全貌,就要了解數(shù)據(jù)的屬性和性質(zhì)。對(duì)于一組數(shù)據(jù),我們首先要知道大部分?jǐn)?shù)值落在哪里?也就是說(shuō),我們通常選擇數(shù)據(jù)的“中間位置”,即反映數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量,來(lái)表示數(shù)據(jù)的中心。這里的度量方法有平均數(shù)、中位數(shù)、眾數(shù)等。 01 平均數(shù)平均數(shù)也叫平均值、均值,是統(tǒng)計(jì)學(xué)中最基本、最常用的一種定義一組數(shù)據(jù)特征的指標(biāo),用來(lái)描述數(shù)據(jù)的平均水平。計(jì)算平均數(shù)可以把所有數(shù)據(jù)相加再除以數(shù)據(jù)個(gè)數(shù),比如{1,2,3,4,5}的平均數(shù)就是3。 盡管平均數(shù)是描述數(shù)據(jù)集最有用的一個(gè)統(tǒng)計(jì)量,但是它并非總是度量數(shù)據(jù)中心的最佳方法。最主要問(wèn)題是平均數(shù)對(duì)極端值(比如離群點(diǎn))很敏感,會(huì)被少數(shù)很低或很高的數(shù)值明顯影響。為了抵消這種影響,可以使用截尾均值,即丟棄一部分高低極端值后計(jì)算均值。比如跳水比賽,就采用去掉最高分和最低分的截尾均值計(jì)分法。 02 中位數(shù)中位數(shù)是將數(shù)據(jù)按大小順序排列后處在中間位置的數(shù),描述數(shù)據(jù)的中等水平。如果有奇數(shù)個(gè)數(shù),則中位數(shù)是中間值;如果是偶數(shù)個(gè)數(shù),則中位數(shù)一般取兩個(gè)最中間值的平均值。它適用于對(duì)傾斜(非對(duì)稱)數(shù)據(jù)的度量。 03 眾數(shù)眾數(shù)是集合中出現(xiàn)頻率最高的數(shù)值,描述數(shù)據(jù)的一般水平。眾數(shù)的個(gè)數(shù)不一定是唯一的。一組數(shù)據(jù)中,可能會(huì)存在多個(gè)眾數(shù),也可能不存在眾數(shù)。眾數(shù)不僅適用于數(shù)值型的數(shù)據(jù),對(duì)于非數(shù)值型的數(shù)據(jù)也同樣適用。例如,{蘋果,蘋果,蘋果,香蕉,梨,梨}這組數(shù)據(jù)中,沒(méi)有均值和中位數(shù),但是存在眾數(shù)—蘋果。 04 眾數(shù)、中位數(shù)、均值的關(guān)系如果一組數(shù)據(jù)的平均值、中位數(shù)、眾數(shù)是同一個(gè)數(shù),則說(shuō)明它的數(shù)據(jù)分布是對(duì)稱的。但這種情況不常見,更多情況下,數(shù)據(jù)是正傾斜或負(fù)傾斜,如圖2-1所示。 ▲圖2-1 眾數(shù)、中位數(shù)、均值的關(guān)系 收入數(shù)據(jù)就是典型的偏斜數(shù)據(jù),大多數(shù)人是工薪階層或退休老人,只有少數(shù)幾個(gè)億萬(wàn)富翁。收入數(shù)據(jù)如圖2-1中的正傾斜數(shù)據(jù),大多數(shù)人的收入集中在左側(cè),右側(cè)有一條長(zhǎng)長(zhǎng)的尾巴,表示少數(shù)人的收入。這種分布不適合用平均數(shù)來(lái)描述。因?yàn)?strong>平均數(shù)對(duì)極端數(shù)據(jù)非常敏感,一兩個(gè)億萬(wàn)富翁,會(huì)拉高整個(gè)人群的收入水平線,使得收入均值比人們認(rèn)知中的平均收入高出很多。 平均工資消除了大量低收入人群和少數(shù)巨額收入人群之間的差異。但如果換成眾數(shù)也不合適,因?yàn)榈褪杖肴巳赫剂斯べY比例的大多數(shù)區(qū)間。統(tǒng)計(jì)工資時(shí)的合理選擇是統(tǒng)計(jì)中位數(shù),它揭示了一半人和另一半人收入的分界線。 當(dāng)然,并不是說(shuō)中位數(shù)就是一個(gè)比平均數(shù)更好的統(tǒng)計(jì)量,只是它更適合工資統(tǒng)計(jì)。 引入統(tǒng)計(jì)量的意義就在于簡(jiǎn)化。比如老師告訴你說(shuō),孩子考試的排名處于班級(jí)里面的后10%,你就應(yīng)該意識(shí)到他的學(xué)習(xí)成績(jī)不太好,學(xué)習(xí)上要加把勁。在這個(gè)過(guò)程中,你不需要知道任何關(guān)于考試本身的內(nèi)容,或孩子在考試中到底答對(duì)了多少題。一個(gè)排名數(shù)字,就能讓你了解孩子的學(xué)習(xí)水平。 不過(guò)也正是由于統(tǒng)計(jì)量的簡(jiǎn)化,它不可避免地會(huì)丟失一些信息,其優(yōu)點(diǎn)也是缺點(diǎn)。許多現(xiàn)象是無(wú)法只用一個(gè)數(shù)字來(lái)解釋的。如果單憑一個(gè)統(tǒng)計(jì)量描述對(duì)象具有局限性,我們就應(yīng)該嘗試獲得更多的數(shù)據(jù),以及更多的細(xì)節(jié)。 |
|