近期看了一些關(guān)于MCMC方面的書,其中有一部分是關(guān)于貝葉斯統(tǒng)計的。本人對其比較感興趣,加上最近疫情賦閑在家,便總結(jié)了一些貝葉斯統(tǒng)計的內(nèi)容。 談到貝葉斯統(tǒng)計,自然少不了大名鼎鼎的貝葉斯定理。設(shè)事件A1,A2,...,An為樣本空間Ω的一個劃分,那么對任意事件B,有以下公式成立: 該定理基本上可以視為整個貝葉斯學(xué)派的起源了,而且在實際應(yīng)用中也非常廣泛。比如在根據(jù)檢測結(jié)果計算某人患某種病的概率時,貝葉斯定理便可以發(fā)揮很大的作用。 貝葉斯定理是由英國的一位牧師托馬斯·貝葉斯提出的,不過在當時提出后很長一段時間內(nèi)都沒有受到重視,后來大數(shù)學(xué)家拉普拉斯讓它重新受到科學(xué)界的關(guān)注,并且逐漸形成了數(shù)理統(tǒng)計學(xué)中的重要派別——貝葉斯學(xué)派。時至今日,該學(xué)派影響日益擴大。 接下來筆者將給出該文的核心內(nèi)容:貝葉斯統(tǒng)計學(xué)中的參數(shù)估計。設(shè)X為一隨機變量,其概率密度函數(shù)為f(x),θ為基于該隨機變量的我們感興趣的一個參數(shù),那么如何對其進行估計呢? 頻率學(xué)派是將視為一個固定值,將隨機變量X作為總體,從中抽取一定量的樣本,構(gòu)造一個基于此樣本的函數(shù)(統(tǒng)計學(xué)中稱之為統(tǒng)計量),然后利用該統(tǒng)計量對θ進行估計。而貝葉斯學(xué)派又是怎么做的呢? 與頻率學(xué)派不同,貝葉斯學(xué)派將θ看作一個隨機變量,并且先天我們對θ有一定的認知,我們可以根據(jù)先天的經(jīng)驗給出一個θ的概率分布,稱之為先驗分布,而現(xiàn)在所要做的工作就是根據(jù)后天采集到的樣本對θ的概率分布進行調(diào)整,調(diào)整后的分布我們稱之為后驗分布。我們記采集到的樣本為X=(x1,x2,...,xn),進而對先驗分布和后驗分布有如下等式成立: 這里,p(θ|X)是我們的后驗分布,π(θ)是我們的先驗分布,f(X|θ)是關(guān)于的條件樣本概率密度函數(shù)(由于θ是基于隨機變量X的一個參數(shù),頻率學(xué)派中的全概率密度f(x)在這里都變成了條件概率密度f(x|θ)),利用條件概率公式很容易導(dǎo)出該等式,這里不再贅述。 可以說,整個貝葉斯統(tǒng)計學(xué)的核心便是這個后驗分布,參數(shù)估計自然也不例外。而且相比于傳統(tǒng)的參數(shù)估計只能給出一個估計值外,貝葉斯統(tǒng)計學(xué)有更多的估計值可選,譬如期望,中位數(shù),眾數(shù)等,這些估計值沒有具體的好壞之分,需要哪個就用哪個。不過單就期望來說,可以證明在給定樣本X=x下,E(θ|X=x)是所有統(tǒng)計量中的最小均方誤差估計。證明過程如下: 下面我們通過一個模擬具體來看后驗分布的更新。 假定隨機變量滿足兩點分布Ber(p),p為我們感興趣的參數(shù),這里我們要先給一個先驗分布,由于我們只知道0≤p≤1,不妨假定其為(0,1)區(qū)間上的均勻分布。然后我們通過獲取的樣本量來觀察其后驗分布的變化。 可以看到,隨著樣本量的增多,后驗分布概率密度逐漸在p=0.5附近擺動。這說明隨著樣本信息的增加,利用后驗分布對原始參數(shù)進行估計是可行的。 |
|
來自: taotao_2016 > 《概率》