1.從貝葉斯定理到貝葉斯統(tǒng)計推斷 (1)貝葉斯統(tǒng)計簡史 貝葉斯統(tǒng)計緣起于托馬斯.貝葉斯(1702-1761),一位英國長老會牧師和業(yè)余數學家。在他去世后發(fā)表的論文“論有關機遇問題的求解”中, 貝葉斯定理的現代形式實際上歸因于拉普拉斯(1812)。拉普拉斯重新發(fā)現了貝葉斯定理,并把它用來解決天體力學、醫(yī)學甚至法學的問題。但自19世紀中葉起,隨著頻率學派(在下文有時也稱作經典統(tǒng)計)的興起,概率的貝葉斯解釋逐漸被統(tǒng)計學主流所拒絕。 現代貝葉斯統(tǒng)計學的復興肇始于Jeffreys(1939),在1950年代,經過Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,貝葉斯統(tǒng)計學逐漸發(fā)展壯大,并發(fā)展出了貝葉斯統(tǒng)計決策理論這個新分支。特別是到1990年代以后,隨著計算方法MCMC在貝葉斯統(tǒng)計領域的廣泛應用,解決了貝葉斯統(tǒng)計學長期存在的計算困難的問題,從而推動了貝葉斯統(tǒng)計在理論和應用領域的長足發(fā)展。 貝葉斯統(tǒng)計學廣泛應用于各個學科。就本書的主題而言,從認知學科、政治學到從自然語言處理和社會網絡分析,貝葉斯方法都起到了舉足輕重的作用。 (2)貝葉斯定理 貝葉斯統(tǒng)計方法是基于貝葉斯定理而發(fā)展起來的系統(tǒng)闡述和解決統(tǒng)計問題的方法。 貝葉斯定理,也稱為貝葉斯法則現在是概率論教科書的重要內容。一般我們習慣于它的離散(事件)形式: p(Ai∣B)=p(B∣Ai)p(Ai)∑p(B∣Aj)p(Aj) 其中p(Ai)被稱為先驗概率,表示在對樣本觀測前我們關于這個問題已經具有的知識。而p(Ai∣B)稱為后驗概率,是在進行了新觀測之后對原有知識的更新。貝葉斯定理作為一種概率計算可用于多個領域內進行概率推理。今天,我們用貝葉斯法則過濾垃圾郵件,為網站用戶推薦唱片、電影和書籍。它滲透到了互聯網、語言和語言處理、人工智能、機器學習、金融、天文學和物理學乃至國家安全等各個領域。 案例:法庭證據;郵件過濾。 那么,用來描述事件的貝葉斯法則是如何和統(tǒng)計推斷建立聯系,并擴展為貝葉斯統(tǒng)計學的呢? 我們從一個簡單的例子開始討論。假設有方形和圓形的兩種盒子,盒子內有紅、黃、白三種顏色的球。方盒有3個,每個里邊有紅球70只、黃球10只、白球20只;圓盒有5個,每個里邊有紅球20只、黃球75只、白球5只?,F在先任取一個盒子,再從盒中任取一球,能不能通過求得顏色推斷它最有可能取自哪個盒子?為表示方便,記方盒=A,圓盒=B,紅球=R,黃球=Y,白球=W 使用貝葉斯定理進行計算: p(A∣R)=38×7010038×70100+58×20100=2131 同樣可求出p(B∣R)=1031,p(A∣Y)=227,p(B∣Y)=2527 p(A∣W)=1217,p(B∣W)=517 按照發(fā)生的可能性最大,我們可以得到這樣的推斷: 紅$\rightarrow$方,黃$\rightarrow$ 圓,白$\rightarrow$方 由此我們知道各種情況下如何回答盒子的形狀,這就是一個完整的統(tǒng)計推斷。我們把它一般化:球的顏色就是樣本X,觀測到的球的顏色記為x,盒子就是參數,記為$\theta。記:\theta(A)=1,\theta(B)=2$,X(R )=1,X(Y)=2,X(W)=3, 那么我們上邊所述的就是一個參數估計問題,得到的參數的估計值為: \hat{\theta (x=1)}=1,\hat{\theta (x=2)}=2,\hat{\theta (x=3)}=1 貝葉斯公式說明了在具體的樣本下我們對參數$\theta$能了解到何種程度,這并不取決于所用的是什么樣的統(tǒng)計推斷方法;相反,由它可產生種種推斷方法。這是因為這里的參數$\theta$是一個隨機變量,而且我們知道了參數$\theta$的分布: p(θ(A))=3/8,p(θ(B))=5/8 (3)先驗分布和后驗分布 上面我們使用的是離散形式的貝葉斯定理。很多時候,我們更關心連續(xù)的參數,因此我們把定理的形式修正為連續(xù)的形式: h(θ∣x)=f(x,θ)h(θ)/∫θf(x,φ)dφ 因為分母的積分結果是一個常數,因此更常用的形式是把它簡記為:h(θ∣x)∝f(x,θ)h(θ) 其中符號\propto表示“正比于” 這個式子是貝葉斯統(tǒng)計推斷的基礎。下面我們來解釋一下其中各個部分的含義。 設樣本X有分布為Fθ(x),其中θ是分布參數,要由X推斷θ。這個F可以稱為模型,它提供了關于所研究問題的一種知識(不是關于θ的知識,但是對推斷θ有用)。樣本X也提供了一種知識,包含了有關θ的信息。在經典統(tǒng)計中,統(tǒng)計推斷是利用這兩種知識進行的。在貝葉斯統(tǒng)計中,還需要關于參數的先驗知識。θ要看做隨機變量,θ的分布為H(θ)(密度是h(θ)),在對X進行觀察之前就已知。這個H(θ)就稱為θ的先驗分布(先驗,就是抽樣之前)。 #關于先驗分布解釋的例子 有了于θ的分布及給定于θ的條件下X的條件分布(這個分布叫做x的邊緣分布,也稱之為似然),就可以得到(X,θ)的聯合概率分布。貝葉斯推斷就是有一個隨機變量(X,θ),其聯合分布已知,能觀察到X而不能觀察θ時,由X去推斷θ。 對樣本觀測之后,給定X=x條件下,θ的條件分布叫做θ的后驗分布(后驗,抽樣之后)。 后驗分布綜合了關于θ的先驗信息(先驗分布)和樣本x中關于θ的信息。因此,如果說先驗分布是抽樣前關于θ的認識,則對X抽樣后,關于θ有了新的認識,體現在后驗分布中,樣本的作用在于使我們對θ的知識更新起到了這樣一個轉化。 后驗分布對貝葉斯統(tǒng)計至關重要,對θ所做的任何推斷(估計,假設檢驗等)必須且只能基于θ的后驗分布,這就是貝葉斯統(tǒng)計推斷的原則。 (4)幾種不同的先驗分布 如何利用之前的經驗和資料來提出先驗分布,是貝葉斯統(tǒng)計推斷中一個重要的問題。這就涉及到了貝葉斯統(tǒng)計的“主觀概率”問題。在貝葉斯統(tǒng)計里,概率并不需要頻率解釋,而是根據經驗對隨機現象的發(fā)生可能性的一種看法或者信念。只要滿足概率公理三個條件的主觀概率也是概率。統(tǒng)計學家薩維奇曾給出過一個著名的女士品茶的例子:一位常喝牛奶加茶的女士說她可以分辨在杯中先加入的是茶還是奶。連續(xù)做了十次實驗,她都說對了。顯然這來自于她的經驗而非猜測。我們在日常生活中也經常使用基于經驗或者信念的主觀的概率陳述。比如說,天氣預報里說明天(8月3日)降水概率30%,就是關于“明日降水”這個事件的一種信念,因為作為8月3日的明天是不可重復的,自然也就沒有頻率意義。再比如說,醫(yī)生認為對某位病人進行手術的成功可能性為80%,也是根據自己的經驗而具有的的信念,而非在這位病人身上反復進行試驗的頻率結果。 把θ看做隨機變量,進而提出先驗分布,在許多情況下是合理的。比如工廠產品的合格率每一天都有波動,可以看做隨機變量;明天的降水概率雖然是幾乎不動的,但這是基于經驗和規(guī)律提出來的概率陳述,也可以看做隨機變量。 盡管我們使用后驗分布來進行推理,但先驗分布的選取也是很重要的。下面我們來討論一些常用的先驗分布的形式。 i.無信息先驗(Noninformative Priors) 無信息先驗只包含了參數的模糊的或者一般的信息,是對后驗分布影響最小的先驗分布。很多人愿意選取無信息先驗,因為這種先驗與其它“主觀”的先驗相比更接近“客觀”。通常,我們把均勻分布作為無信息先驗來使用,這相當于在參數所有的可能值上邊指派了相同的似然。但是無先驗信息的使用也要慎重,比如有些情況下會導致不恰當的后驗分布(如不可積分的后驗概率密度)。 iiJeffreys先驗(Jeffreys’ Prior) Jeffreys提出的選取先驗分布的原則是一種不變原理,采用Fisher信息陣的平方根作為θ的無信息先驗分布。較好地解決了無信息先驗中的一個矛盾,即若對參數θ選用均勻分布,則其函數g(θ)往往不是均勻分布。 iii.信息先驗(Informative Priors) 根據以前的經驗、研究或專家經驗得到的先驗分布。 iv.共軛先驗(Conjugate Priors) 共軛先驗是指先驗分布和后驗分布來自同一個分布族的情況,就是說先驗和后驗有相同的分布形式(當然,參數是不同的)。這些共軛先驗是結合似然的形式推導出來的。常見的共軛先驗形式如下表所示。共軛先驗是經常被使用的一種先驗分布形式,原因在于數學處理和計算上的方便性,同時后驗分布的一些參數也可以有很好的解釋。 常見的共軛先驗分布 似然是二項分布$L(p)\propto {p}^{r}{1-p}^{n-r}$,參數為p(比例),p的先驗分布是貝塔分布beta(α,β),后驗分布是beta(α+r,β+n?r),后驗均值是α+r,β+n?r。 似然是泊松分布$L(\lambda )\propto {\lambda }^{\sum {x}_{i}}{e}^{-n\lambda }$,參數是λ,先驗是伽馬分布Gamma(α,β), 后驗分布是Gamma(∑xi+α,n+β), 后驗均值是∑xi+αn+β。 似然是正態(tài)分布N(μ,σ2),參數是μ(σ2已知),先驗是正態(tài)分布N(μ0,τ2), 后驗分布正態(tài)分布,后驗均值是nτ2xˉ+μσ2nτ2+σ2 似然是正態(tài)分布N(μσ2),參數是σ2(μ 已知),先驗是逆伽馬分布inverse-Gamma(α,β), 后驗是inverse-Gamma(α+n2,β+∑(xi?μ)22),后驗均值是(β+∑(xi?μ)22)/(α+n2+1) 似然是多項分布Mk(n,θ1,...,θk),先驗是Dirichlet分布D(α1,...,αk),后驗分布是D(α1+c1,...,αk+ck) 后驗均值是E(Xi)=αi∑αk 更多先驗分布請參考:http://en./wiki/Conjugate_prior 關于先驗分布的選取。如果是離散的情況,根據經驗或者專家意見形成主觀概率就可以得到先驗分布。在信息充分的情況下,利用分參數密度估計(如直方圖)尋找先驗分布,判斷似然分布的形式選擇共軛先驗分布也是一種比較方便的方法。如果沒有先驗信息,或者先驗信息很模糊的情況下,選擇無信息先驗分布,也可以根據似然函數的形式選擇共軛先驗分布。 先驗分布的選取應以合理性為首要原則。 (5)使用R做后驗分布的計算 下邊我們采用R的貢獻包LearnBayes來進行一些基本的貝葉斯計算。LearnBayes這個R包包括一系列的函數來計算后驗分布,MCMC抽樣方法,貝葉斯回歸模型和層次模型。 例:嗜睡者研究 一位研究者想研究大學生的睡眠情況。他走訪了30名學生,其中12名可以保證8小時的充分睡眠,而其它18名學生的睡眠時間則不足8小時。這位學者感興趣的是大學生這個群體中充足睡眠者的比例p。作為比例的p其似然函數是二項分布,可以把它寫為:L(p)∝ps(1?p)n?s,其中n是走訪的學生總數,s是充分睡眠的學生數。 下面我們采用兩種方法來取先驗分布并計算后驗分布。 一種方法是假設有關于大學生群體睡眠狀況的比較充分信息,p值可能取.05, .15, .25, .35, .45, .55, .65, .75, .85, .95這些值,相對應的權重的可以取為1, 5, 8, 7, 4.5, 2, 1, 0.7, 0.5, 0.2,那么通過對這些權重值的歸一化可以得到p的離散形式的先驗概率。對具有離散先驗的比例參數,計算后驗概率使用函數pdisc()。然后我們可以用繪圖包ggplot2把先驗和后驗分布畫出來。計算過程如下: # 使用離散先驗 library(LearnBayes) library(ggplot2) p <- seq(0.05, 0.95, by = 0.1) prior <- c(1, 5, 8, 7, 4.5, 2, 1, 0.7, 0.5, 0.2) prior <- prior/sum(prior) data <- c(12, 18) post <- pdisc(p, prior, data) prob <- c(prior, post) type <- factor(rep(c("prior", "posterior"), each = 10)) n <- as.numeric(rep(1:10, times = 2)) d.prior <- data.frame(prob, type, n) ggplot(d.prior, aes(x = n, y = prob, fill = type)) + geom_bar(stat = "identity", position = "dodge") 另一種方式是取共軛先驗分布。因為似然是二項分布,共軛先驗分布就是beta分布。假設我們對先驗分布有一定了解,其50%分位數對應的比例值為0.3,90%分位數對應的比例值為0.5。利用beta.select()函數可以得到完整的先驗分布。然后利用ggplot2包繪制先驗和后驗分布的圖形: # 使用beta分布作為共軛先驗 quantile2 = list(p = 0.9, x = 0.5) #p代表分位數,x代表比例 quantile1 = list(p = 0.5, x = 0.3) beta.prior <- beta.select(quantile1, quantile2) #利用分位數生成先驗分布 a <- beta.prior[1] b <- beta.prior[2] print(c(a, b)) ## [1] 3.26 7.19 s = 12 f = 18 ggplot(data.frame(x = c(0, 1)), aes(x = x)) + stat_function(fun = dbeta, args = list(shape1 = a, shape2 = b), geom = "area", fill = "blue", alpha = 0.3, colour = "blue", lwd = 1) + stat_function(fun = dbeta, args = list(shape1 = s + a, shape2 = f + b), geom = "area", fill = "red", alpha = 0.3, , colour = "red", lwd = 1) + annotate("text", x = 0.25, y = 3, label = "prior") + annotate("text", x = 0.37, y = 5.3, label = "posterior") 2.貝葉斯統(tǒng)計推斷 (1)點估計 點估計就是估計θ的取值。貝葉斯統(tǒng)計中的點估計是利用后驗分布的某個有代表性的特征數字來估計θ,比如后驗分布的均值(后驗期望估計)、中位數(后驗中位數估計)或使后驗密度最大的θ的估計值(后驗最大估計)。這里有個問題,既然在貝葉斯統(tǒng)計里θ看做隨機變量,那么對θ的估計是什么含義呢?這個點估計表示的是θ在一個特定場景下所取的特定值。那么這個時候的后驗分布就可以理解成在抽樣得到樣本x后,盡管無法確定得到參數值,但是可以給出關于參數取值可能性的概率分布。 三種不同的點估計一般是不同的,只有當后驗密度是對稱的分布時三者才重合。存在三種不同估計量的原因是取不同的損失函數可以得到不同的估計量,使用時根據不同的需要選擇合適的估計量。 上面充分睡眠的例子中,在取共軛分布為beta分布的情況下,取后驗分布的均值作為估計量,得p?=α+sα+β+n=3.26+123.26+7.19+30=0.377 (2)區(qū)間估計 得到后驗分布之后,尋找一個區(qū)間(A(x),B(x)),使$p(A(x)\ll \theta \ll B(x))=1-\alpha ,這個區(qū)間叫做\theta$的覆蓋概率(有的文獻直接叫做可信水平)為1?α的貝葉斯可信區(qū)間。 可信區(qū)間這個概念和頻率統(tǒng)計中置信區(qū)間雖然是同類型的概念,含義卻相去甚遠。對貝葉斯可信區(qū)間來說,給定樣本計算出可信區(qū)間之后,它的意義可以理解為θ以概率1?α落在這個區(qū)間里;而在頻率統(tǒng)計里這樣的說法沒有意義,因為頻率統(tǒng)計中θ是一個常量,我們只能說在100次試驗中,θ有1001?α次落入這個置信區(qū)間。 一般情況下可以得到多個貝葉斯可信區(qū)間,那么選擇其中長度最短的區(qū)間。只要使區(qū)間外的后驗概率密度值都小于區(qū)間內的后驗概率密度值就可以得到這樣的區(qū)間,我們稱它為最大后驗密度可信區(qū)間(HPD) 下面我們用計算beta分布分位數值的qbeta()函數來計算取beta(3.19,7.26) 為先驗分布時,后驗分布95%的置信區(qū)間。 qbeta(c(0.25, 0.75), a + s, b + f) ## [1] 0.3246 0.4277 這個置信區(qū)間是等尾置信區(qū)間,也就是說分布密度左右兩個尾部的面積是相等的。 (3)假設檢驗 貝葉斯統(tǒng)計的假設檢驗是很直接的。 首先建立假設:H0:θ∈Θ0?H1:θ∈Θ1 在得到θ的后驗分布之后,計算原假設和備選假設的后驗概率: αi=P(Θi∣x)dθ,i=0,1,然后比較α0,α1的大小,如果α0>α1,則接受原假設:H0,否則反之。(如果這個比值為1,則需要進一步抽樣或者搜集先驗信息)。 3.貝葉斯學派與頻率學派 (1) 貝葉斯學派和頻率學派的論戰(zhàn)是二十世紀統(tǒng)計學發(fā)展中一個非常重要的組成部分。在貝葉斯統(tǒng)計學已得到廣泛接受和使用的今天,依然有必要簡述一下兩派學者各自的觀點,這有助于理解貝葉斯統(tǒng)計的一些基本概念以便更好的應用。 ## ## +-------------------------------------------------------------------------------+ ## | 頻率學派 | ## +===============================================================================+ ## | (1)概率的概念基于頻率。方法的性質可由試驗的多次重復來解釋 | ## +-------------------------------------------------------------------------------+ ## | (2)除非包括先驗概率在內的所有概率都有頻率解釋,不把貝葉斯定理作為推斷的手段 | ## +-------------------------------------------------------------------------------+ ## | (3)使用樣本數據進行推斷 | ## +-------------------------------------------------------------------------------+ ## | (4)參數是固定未知的常量 | ## +-------------------------------------------------------------------------------+ ## | (5)方法中起決定作用的是統(tǒng)計量及其分布 | ## +-------------------------------------------------------------------------------+ ## ## Table: 頻率學派觀點 ## ## ## +-------------------------------------------------------------+ ## | 貝葉斯學派 | ## +=============================================================+ ## | (1)概率是“主觀”的,反映了在唯一的給定狀況下研究者的信念 | ## +-------------------------------------------------------------+ ## | (2)貝葉斯定理是進行推斷的關鍵 | ## +-------------------------------------------------------------+ ## | (3)利用所有能用的知識進行推斷,包括樣本知識和先驗知識 | ## +-------------------------------------------------------------+ ## | (4)參數是隨機變量 | ## +-------------------------------------------------------------+ ## | (5)方法中起決定作用的是后驗分布 | ## +-------------------------------------------------------------+ ## ## Table: 貝葉斯學派觀點 盡管存在爭議,現在越來越多的人認為貝葉斯統(tǒng)計和經典統(tǒng)計各有其適用的場合。什么情況下,選擇貝葉斯統(tǒng)計能得到更好的結果呢? 一般來說,如果存在明顯的先驗信息或便于使用貝葉斯計算方法(如共軛先驗、MCMC等)處理的復雜的數據結構,這時使用貝葉斯方法會有很好的效果。如果存在大量重復試驗的數據或者只有很弱的先驗信息,則沒有必要過份強調貝葉斯方法。 下面的例子來說明如何針對不同的問題選擇貝葉斯方法還是經典方法:http://site.douban.com/182577/widget/notes/10567181/note/278503359/ (2)為什么選擇貝葉斯方法 貝葉斯統(tǒng)計方法的廣泛應用在于它在概念和使用上的優(yōu)點:不依賴于重復抽樣的推斷思想,適用于更多樣的情況;后驗概率是在觀察數據之后信念的完整特征,包含進行統(tǒng)計推斷所需的一切信息,利用后驗分布進行統(tǒng)計推斷,實現概念的簡化;現代計算方法的采用讓貝葉斯統(tǒng)計方法更加簡單實用。 |
|