統(tǒng)計學是數(shù)據(jù)分析的基礎,很多人只會用平均數(shù)去分析這往往是粗糙的,不準確的。如果掌握了統(tǒng)計學,那么我們就能以更多更科學的維度去分析數(shù)據(jù)。本文將圍繞統(tǒng)計學的幾大特性進行簡單介紹,希望對大家的工作有所幫助。 統(tǒng)計量的描述方式 集中性 1.平均數(shù):Mean 是表示一組數(shù)據(jù)集中趨勢的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)。 2.眾數(shù):Mode 是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有時眾數(shù)在一組數(shù)中有好幾個。 3.中位數(shù):Median 把所有數(shù)據(jù)按順序進行排列,分布在最中間的值。 樣本總數(shù)為奇數(shù)時,中位數(shù)為第(n+1)/2個位置對應的值; 樣本總數(shù)為偶數(shù)時,中位數(shù)是第n/2個,第(n/2)+1個值的平均數(shù)。 4.四分位數(shù):Quartile 把所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的數(shù)值。 第一四分位數(shù) (Q1),指該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字; 第二四分位數(shù) (Q2),又稱“中位數(shù)”,指該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字; 第三四分位數(shù) (Q3),指該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。 四分位數(shù) 離散性 1.四分位距 :Interquartile range 第三四分位數(shù)與第一四分位數(shù)的差距稱四分位距,IQR=Q3-Q1。 四分位距 2.異常值:Outlier 小于Q1-1.5(IQR)或者大于Q3+1.5(IQR)的值,處理數(shù)據(jù)環(huán)節(jié)我們需要將異常值剔除。 3.極差:Range 一組數(shù)據(jù)中最大值與最小值之間的差值,R=Xmax-Xmin。 4.方差:Variance 每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。 5.標準差:Standard Deviation 總體各單位標準值與其平均數(shù)離差平方的算術平均數(shù)的平方根。它反映組內(nèi)個體間的離散程度。 分布形態(tài) 1.概率分布:Probability distribution 用于表述隨機變量取值的概率規(guī)律。事件的概率表示了一次試驗中某一個結(jié)果發(fā)生的可能性大小。若要全面了解試驗,則必須知道試驗的全部可能結(jié)果及各種可能結(jié)果發(fā)生的概率,即隨機試驗的概率分布。 2.置信區(qū)間:Confidence interval 指由樣本統(tǒng)計量所構造的總體參數(shù)的估計區(qū)間,置信區(qū)間展現(xiàn)的是這個參數(shù)的真實值有一定概率落在測量結(jié)果的周圍的程度,其給出的是被測量參數(shù)的測量值的可信程度,一般較為常用的是95%的置信區(qū)間。 3.正態(tài)分布:Normal distribution 隨機變量X服從一個數(shù)學期望為μ,方差為σ2的正態(tài)分布,記為N(μ,σ2;) 隨機取一個樣本,有68.26%的概率位于距離均值μ有1個標準差σ內(nèi); 有95.45%的概率位于距離均值μ有2個標準差σ內(nèi); 有99.73%的概率位于距離均值μ有3個標準差σ內(nèi)。 正態(tài)分布概率分布圖 |
|
來自: blackhappy > 《技術積累》