圖模型(graphical model)是一類用圖來表示概率分布的一類技術(shù)的總稱。 它的主要優(yōu)點是把概率分布中的條件獨立用圖的形式表達出來,從而可以把一個概率分布(特定的,和應(yīng)用相關(guān)的)表示為很多因子的乘積,從而簡化在邊緣化一個概率分布的計算,這里的邊緣化指的是給定n個變量的概率分布,求取其中m個變量的概率分布的計算(m<n)。 圖模型主要有兩大類,一類是貝葉斯網(wǎng)絡(luò)(又稱有向圖模型);另外一類是馬爾可夫網(wǎng)絡(luò)(又稱無向圖模型)。 談到一個圖模型,主要有三個主要的關(guān)注點: 1)圖模型的表示(representation); 指的是一個圖模型應(yīng)該是什么樣子的 2)圖模型的推斷(inference); 指的是已知圖模型的情況下,怎么去計算一個查詢的概率,例如已經(jīng)一些觀察節(jié)點,去求其它未知節(jié)點的概率 3)圖模型的學(xué)習(xí)(learning); 這里又分為兩類,一類是圖的結(jié)構(gòu)學(xué)習(xí);一類是圖的參數(shù)學(xué)習(xí)。
在本文,我們主要關(guān)注圖模型的表示,在以后的文章中,我們會論述圖模型的其它方面。 一. 有向圖模型的表示 顧名思義,有向圖模型的結(jié)構(gòu)表示是有向圖的形式;通過一個有向圖來表示一個概率分布,從而可以利用這個有向圖模型來進行推斷。 對于有向圖模型,一個關(guān)鍵就是怎么通過一個有向圖來表示一個概率分布呢? 對于一個概率分布p(x1,x2,...,xn),通過概率論中的鏈式法則,我們可以把它寫成因子的形式 p(x1,x2,...,xn) = p(x1)p(x2|x1)P(x3|x1,x2)....p(xn|x1,x2....x_(n-1)) 這是一個概率分布的一般形式,具體到一個特定的概率分布的時候,其中會有很多的隨機變量是獨立的或者條件獨立的,從而可以 把上述式子進一步簡化,例如x3, x1在給定x2的條件下是獨立的,那么p(x3|x1,x2) = p(x3|x2)。在簡化后的條件概率分布中,對于每個因子,我們這樣來建立一個有向圖,每個隨機變量對應(yīng)一個圖的節(jié)點,然后對于每個因子,從它的條件部分的每個隨機變量節(jié)點連一條邊指向非條件變量節(jié)點,在完成所有的因子之后,就可以形成一個有向圖模型。這樣講可能太抽象,下面我以一個具體例子來論述它的原理 假設(shè)有這樣一個概率分布p(x1,x2,x3) = p(x1)p(x2|x1)p(x3|x1) 那么它的有向圖模型可以表示為
反之,給定一個有向圖,我們可以從圖直接寫出這個圖表示的概率分布,大家可以試著從上述圖來寫出它的概率分布。 形式化地,一個有向圖模型表示的概率分布可以寫為:P(X)= IIp(Xi|Pa(Xi)),其中X表示隨機變量的向量,II表示乘積,Pa(Xi)表示Xi的父親節(jié)點。 從上述描述可知, 要完整表示一個概率分布,一方面我們需要知道它的拓撲結(jié)構(gòu),即它的圖形結(jié)構(gòu); 另外一方面,我們還需要知道概率分布的各個因子的分布情況,即上述公式中的P(Xi|Pa(Xi))需要知道。 可以用另外一個圖來表示一個完整的有向圖模型的形式大概是什么樣子 在上述圖中的每個節(jié)點,都有一個條件概率分布表(CPT),這是有向圖模型的參數(shù),即P(Xi|Pa(Xi))。
二. 無向圖模型的表示 無向圖模型和有向圖模型類似,都是為了表示一個概率分布,同時需要把變量之間的條件獨立編碼在圖表示中,從而使得概率分布的表示可以被表示為因子乘積的形式,不同的是無向圖模型是建立在無向圖基礎(chǔ)上,而有向圖模型是建立在有向圖基礎(chǔ)之上。 我們先看一個例子:
上圖是一個無向圖模型的完整的表示,左側(cè)是它的拓撲結(jié)構(gòu),右側(cè)是它的參數(shù)。 無向圖模型是以最大團和定義在團上的勢能函數(shù)(potential function)為核心,具體來說,在這個例子中,它有四個團,AC , AB, BD ,CD。那么我們需要在四個團上定義相應(yīng)的勢能函數(shù),如右側(cè)所示,必須注意勢能函數(shù)必須為正。 最終這個無向圖模型表示的概率分布是:P(A,B,C,D)= (1/Z)*/phi(A,C)*/phi(A,B)*/phi(C,D)*/phi(B,D) 其中,Z是歸一化因子,因為勢能函數(shù)并沒有歸一化,而要概率是[0,1],所以需要歸一化;/phi 是表示相應(yīng)的勢能函數(shù)(這里因為不能表示數(shù)學(xué)符號,故而用了latex中的符號表示)。 所以一個無向圖模型表示的概率分布形式化地可以表示為: P(X)=(1/Z)*II_{i=1}^{n}/phi(Ci(x)),其中Ci表示的第i個團(都是利用了latex中符號表示數(shù)學(xué)公式。
三.小結(jié) 不管是有向圖模型還是無向圖模型,我們都需要關(guān)注它的兩個方面,一方面是確定它的結(jié)構(gòu);一方面是確定它的參數(shù),對于有向圖模型,需要去確定它的條件概率表,對于無向圖模型,需要確定每個團的勢能函數(shù)。 因此,在下一篇博文中,我們將關(guān)注圖模型的參數(shù)學(xué)習(xí)和結(jié)構(gòu)學(xué)習(xí)。
2010-07-29 17:16:38 |
|
來自: 春華_秋實 > 《數(shù)學(xué)》