在之前的推送中,我們已經了解了正態(tài)分布、標準分數及其應用,以及中心極限定理。 在介紹中心極限定理時,我們知道:在大樣本情況下,如果已知總體的標準差σ,那么樣本均值分布的標準差為σ/√n,稱為樣本均值的標準差(StandardDeviation)。 因此,我們可以用總體的標準差σ估計樣本均值分布的標準差。 但,現實生活中考察的總體通常都會很大,調查總體中的每一個個體不太現實,并且成本巨大。因此,我們很少能知道真實的總體均值μ和總體標準差σ,而且還考慮通過樣本的均值和標準差來估算總體的均值。 我們可以很容易地在總體中抽取到一個樣本,但它并不能完全代表總體。如果進行隨機抽樣模擬實驗會發(fā)現,在總體和樣本量相同的情況下,每次抽取得到的樣本都可能不同;樣本均值雖然與總體均值近似,但樣本均值與總體均值不同。 閱讀下方的“正態(tài)總體與其樣本均值的抽樣分布圖”,中間紫色的正態(tài)分布表示的是從總體中抽取的樣本均值的分布,總體均值可能落在紫色正態(tài)分布圖中的任意一點。 正態(tài)總體與其樣本均值的抽樣分布 在σ未知的情況下,可以用樣本的標準差來估計樣本均值分布的標準差: 稱為樣本均值的標準誤(Standard Error)。 但用樣本均值估計總體均值會存在一定的誤差,所以我們下一步就是計算誤差的范圍,以及構建置信區(qū)間——區(qū)間估計。 根據正態(tài)分布的性質,與90%,95%,99%的概率區(qū)間對應的標準差倍數分別應該為:1.645, 1.96, 2.575。其中,大約有95%的數值落在距均值1.96個標準差的區(qū)間內。 正態(tài)分布的3σ原則 因此,當用樣本均值作為總體均值的估計時,95%的置信區(qū)間是: 我們估計,所有可能的樣本中,95%的樣本均值都在總體均值約2個標準差以內。因此,如果多次重復抽樣以及構建置信區(qū)間,那么95%的置信區(qū)間將會包含總體均值,而5%的則不包含。 上圖很好的描述了樣本均值95%的置信區(qū)間的含義。在大部分的情況下,總體真實的均值都是落在樣本均值的置信區(qū)間內的,只有少數的樣本均值的置信區(qū)間沒有包含總體真實的均值。 小案例: 根據上述對標準誤和置信區(qū)間的解釋,我們來分析一個與中國家庭收入調查有關的數據: 在2013年進行了中國家庭收入調查,總共調查了n=16907個家庭,數據顯示:2013年家庭收入的平均值為55329.19元,標準差為s=53794.82。請基于此數據估計全國居民家庭收入的平均值。 閱讀完整篇文章后,我們可以輕松地根據樣本均值和樣本量計算出樣本的標準誤; 再根據,95%的置信區(qū)間公式, 計算得到2013年全國居民的家庭平均收入95%的置信區(qū)間為[54518.30, 56140.08]。 在這篇推文中,我們重點需要了解的知識點是標準誤和標準差的區(qū)別,如何計算樣本均值的誤差范圍,以及如何構建置信區(qū)間。 如果之前對正態(tài)分布、標準分布和中心極限定理等知識點了解得不夠透徹,可能會被繞暈,建議大家先回過頭去補補課。 我之前的推文中已經積累了很多有關統計學的基礎介紹,大家可以翻閱。我發(fā)布的內容主要參考了松鼠的《妙趣橫生的統計學》課程,你也可以和我一樣,直接學習視聽課程,學習會更系統更高效。 |
|