頻率主義(Frequentism)與貝葉斯主義(Bayesianism)的哲學(xué)辨異與實踐(Python仿真) 從 Beta_Binomial共軛分布開始說起: 一個小小的特例為: Beta(p|1,1) BinomCount(α?1,β?1)=Beta(p|α,β)而 Beta(p|1,1)恰好正是均勻分布U[0,1](概率密度恒等于1,且與p無關(guān)) 計算得到的后驗分布正好是 Beta(p|m1 1,m2 1) 文本建模中的頻率學(xué)派與貝葉斯學(xué)派頻率學(xué)派:上帝只有一個骰子,這個骰子有 V個面,每個面對應(yīng)一個詞,各個面的概率不一;每拋一次,拋出的面就對應(yīng)產(chǎn)生一個詞,如果一篇文檔有 N個詞(也即詞頻),上帝就是獨立的拋 n次以產(chǎn)生這 N個詞(可見有重復(fù)); 詞頻為 N時,如果我們關(guān)注每個詞 vi的發(fā)生次數(shù) ni,那么→n=(n1,n2,…,nV)恰好是一個多項分布: 其中 ∑Vk=1pk=1,∑Vk=1nk=N 此時,一個很重要的任務(wù)即是估計模型中的參數(shù) →p=(p1,p2,…,pV),也就是問上帝擁有的這個骰子的各個面的概率分別是多大,按照統(tǒng)計學(xué)家中頻率派的觀點,使用最大似然估計最大化 p(W),于是參數(shù) pi的估計值是: ?pi=niN 對于以上模型,貝葉斯統(tǒng)計學(xué)派的統(tǒng)計學(xué)家會有不同的意見,他們會很挑剔地批評只假設(shè)上帝擁有唯一一個固定的骰子(也即 →p=(p1,p2,…,pV))是不合理的。在貝葉斯學(xué)派看來,一切參數(shù)都是隨機(jī)變量,也即以上模型中的骰子 →p不是唯一固定的,它是一個隨機(jī)變量。 貝葉斯學(xué)派:上帝有一個裝有無窮多骰子的壇子,里面有各式各樣的骰子(也即 →p各不相同),每個骰子均有 V個面;上帝先從壇子里面抽了一個骰子出來,然后用這個骰子不斷地拋,拋 N次。 上帝的這個壇子里面,骰子可以是無窮多個,有些類型的骰子數(shù)量多,有些類型的骰子少,所以從概率分布的角度看,壇子里邊的骰子 →p服從于概率分布 p(→p),這個分布稱為參數(shù) →p的先驗分布。 以上是貝葉斯學(xué)派的游戲規(guī)則,此時預(yù)料 W的概率如何計算呢?由于我們并不知道上帝到底使用了哪個骰子(→p),所以每個骰子都有可能被使用,只是使用的概率由先驗分布 p(→p)來決定。對每一個具體的骰子 \vcp,由該骰子產(chǎn)生的數(shù)據(jù)的概率是 p(W|→p),所以最終數(shù)據(jù)產(chǎn)生的概率就是對每一個骰子 →p產(chǎn)生的數(shù)據(jù)概率進(jìn)行積分累加求和: 在貝葉斯分析的框架下,此處先驗分布 p(→p)可以有多種選擇,注意到: p(W|→p)=p(→n|N,→p)=(N→n)V∏k=1pnkk 實際上在計算一個多項分布的概率,所以對先驗分布 p(→p) 的一個比較好的選擇即是與多項分布成共軛的共軛分布,也即Dirichlet分布: Dir(→p|→α)=1Δ(→α)V∏k=1pαk?1kΔ(→α)=∫V∏k=1pαk?1kd→p Δ(→p)是歸一化因子; |
|