每日一句
本文大綱如下: 本系列將介紹概率圖模型,圖的基礎知識在[[圖論(一):圖和子圖]]進行簡單介紹。本文初始是為了引入因果圖模型,在幾經(jīng)思考之后,表示、推斷、學習、決策是統(tǒng)計、機器學習重要的組成部分,為了更好的引入后續(xù)知識、并構建自己的知識體系。決定從概率圖開始介紹。 為什么需要概率圖模型
八個變量一共有個狀態(tài)。我們是否需要表示所有的狀態(tài)?如果有更多的變量怎么般?圖模型的主要好處之一是在表示聯(lián)合分布時可以節(jié)省成本。用圖形和條件來模擬變量之間的依賴關系可以大大減少描述聯(lián)合分布所需的參數(shù)數(shù)量。
當我們引入專業(yè)知識后,八個變量之間的關系可以用上圖表示。這時候聯(lián)合分布可以由條件獨立性計算: 結合專業(yè)知識和結構之后,聯(lián)合分布表示的成本由 降為,縮減了倍。 非正式地講,圖模型只是一個代表隨機變量之間關系的圖形。節(jié)點是隨機變量(特征),邊(或沒有邊)代表隨機變量之間的關系或隨機變量之間的依賴關系。關系的概念根據(jù)圖的不同而不同。 變量之間的關系對于避免不同人對同一現(xiàn)象的多重表述,嚴格定義一個圖模型的每一個組成部分是至關重要的。首先深入嚴格定義兩個隨機變量之間的可能關系。嚴格定義兩個隨機變量之間的可能關系。這些隨機變量可能有許多類型的的關系:
同樣,有許多,其中一些在下面列出和討論,每一個都有其 充分和不足之處。選擇一個衡量標準并不是一項瑣碎的任務,因為,雖然人們可以任意選擇這樣一個衡量標準,用數(shù)據(jù)畫出圖表,并從圖表中提供令人信服的 '故事'。除非嚴格選擇衡量標準,否則該論證很容易被來自相同數(shù)據(jù)的反例所推翻。因此,了解每一種措施所帶來的影響是至關重要的。 Pearson’s Correlation皮爾遜相關系數(shù)(表示為ρ)是衡量隨機變量之間關聯(lián)的最著名和最基本的方法之一,其定義如下: 兩個獨立變量相關系數(shù)為0,則兩變量是不相關的;但是,反之則不成立。例如,有兩個隨機變量X、Y是這樣的:. 那么,Y依賴于X,它們是不相關的,因為: 從上面的例子中可以看出,皮爾遜相關度只能捕捉到線性依賴。這反過來意味著皮爾遜相關在捕捉獨立性方面是非常弱的。 互信息上面介紹的皮爾遜相關系數(shù)的局限性使得我們希望有新的衡量方法,可以捕捉到非線性依存關系。衡量兩個密度和之間距離的最常見的方法之一是Kullback-Leibler散度,簡稱KL-散度。 當P和Q相等時,KL散度返回0,即,當和進一步偏離時,KL散度返回一個更大的正值。由于我們同樣希望距離為0,當時,我們希望二者距離為0,否則為正,可以利用KL散度來獲得所期望的衡量標準,也就是所謂的互信息。 當且僅當.這種方法確實成功地捕捉到了非線性的依賴關系。然而,它帶來了計算方面的問題 因為對非高斯、多模態(tài)、甚至可能是非參數(shù)密度的復雜組合j計算密度時非常困難的。 希爾伯特-施密特獨立標準(HSIC)最近的一個發(fā)現(xiàn)是HSIC(Gretton等人,2005),也能捕捉到非線性的依賴關系。它被定義為聯(lián)合密度和邊際分布乘積之間的最大平均差異(MMD)。對于任意兩個密度P,Q: 該方法的一個重要屬性是,當且僅當。 局部相關(Partial Correlation)兩個隨機變量之間的關聯(lián)度量可以用來定義一個邊際相關/依賴圖。這種模型缺點是這種類型的圖形模型信息量不大,原因是兩個隨機變量很少會有非零的關聯(lián)度。我們幾乎總能在一對變量之間找到一些統(tǒng)計學上的關聯(lián),要么是由于某些影響兩個變量的基本過程,要么有時是由于隨機??紤]以下例子: X=孩子的身高,Y=孩子的詞匯量,Z=孩子的年齡。如果我們計算這些變量之間的成對關聯(lián)度,我們期望發(fā)現(xiàn)所有這些變量都是非零的。然而,我們從 '常識 '中知道,孩子的身高和詞匯量沒有直接關系,相反,孩子的年齡是影響這兩個值的基本變量。 我們可以在給定另一個變量的情況下,定義新的兩個變量之間的相關度量。我們可以把它看作是給定另一個變量Z為條件后,或消除了Z的線性影響后,在兩個變量X和Y之間測量的相關性。這被稱為局部/條件相關性。 這是Z與X和Z與Y線性回歸的殘差之間的相關性。類似于皮爾遜的相關性。 局部相關圖現(xiàn)在可以構建一個比邊際依賴圖更有意義的圖模型。如果一對變量在其他變量的情況下具有非顯著的部分相關性,我們就把它們連接起來。這個模型的一個可能的問題是,計算每一對變量在所有其他變量上的部分相關是很昂貴的,因為我們需要首先為每個條件變量擬合(線性)回歸模型。然而,事實證明,偏相關矩陣有一個與反協(xié)方差矩陣相關的簡單形式: 條件獨立條件獨立性有助于降低統(tǒng)計和計算的復雜性。條件獨立性的經(jīng)典符號是,X、Y、Z是隨機變量。定義: 如果想使用強依賴性度量或局部相關作為工具,提取條件獨立性是一個艱難的任務。一個捷徑是簡單地對感興趣的隨機變量施加高斯假設。詳細來說,假設(X, Y, Z)是同高斯的,我們有。 無向圖模型(undirected graphical models)節(jié)點對應于隨機變量,而邊對應于成對(非因果)關系。無向圖模型是,即隨機變量的概率分布,其參數(shù)由圖決定。UGM例子:物理學模型、社會網(wǎng)絡、蛋白質交互網(wǎng)絡、建模圍棋、.... 在信息檢索等領域,這種模型可以用來描述概念之間的關系和實體之間的關系。 表示無向圖模型表示一個由無向圖定義的分布,以及一組與的邊相關的勢函數(shù)(potential functions): 其中Z被稱為配分函數(shù)(partition function), 也被稱為。 給定一個圖,確定圖模型中存在的所有 'Cliques'。這也被稱為馬爾科夫隨機場、馬爾科夫網(wǎng)絡,... 將Clique位勢限制為正值可能是不方便的。用一個實值 '能量 '函數(shù)以無約束的形式表示位勢。聯(lián)合概率有一個很好的加性結構: 是自由能, 在物理上稱之為玻爾茲曼分布,統(tǒng)計上成為對數(shù)線性模型: 整體能量函數(shù)可以表示為:. 我們將利用這點從數(shù)據(jù)中恢復圖的結構。特別是當是稀疏的時候,那么和之間就沒有邊。 團對于,一個完全子圖(Clique)是一個子圖,這樣中的節(jié)點是完全相連的。一個極大團是一個完整的子圖,使得任何超集都不是一個團。 上圖中,最大團是{A,B,D},{B,C,D},而子團是{A,B},{C,D},...所有的邊和單節(jié)點。使用團的原因: 團是基本單位,它捕捉了所有可能的依賴關系,而且不會被遺漏。如果我們從團內的子圖開始構建,將它們相互連接,我們可能會有失去對一些相互依賴關系建模的風險。 團勢能的解釋團勢能是前概率性的權變函數(shù),它提供了恢復或指定隨機變量配置的偏差的方法。在有向圖形模型中,頂點的聯(lián)合分布可以被分解為邊際和條件分布的乘積。然而,在無向圖形模型中,聯(lián)合分布可以被分解為團勢能的乘積。這些團勢能不一定是邊際分布。它們只代表變量的 '良好性 '或 '兼容性 '的概念。為了說明為了說明這一點,請考慮圖中所示的圖形。該圖表示,聯(lián)合分布可以表示為,但它也可以用其他形式寫成圖中所示。 I-maps(Independence-map)如何使用圖來表示一個概率分布?定義I-maps是為了利用條件獨立性定義圖和分布之間的關系。表示為一個圖將使描述的所有條件獨立性變得更加容易。將I(P)定義為所有在P中成立的形式的獨立性斷言的集合(與參數(shù)值無關)。圖和其獨立性斷言集合,如果, 是一個I-maps.可以發(fā)現(xiàn)只要是 I(P) 的子集,其對應的 G 就是概率分布 P 的 I-map,所以 I-map 可以有很多。只有 I(G) = I(P) 時,對應的 Graph 才可以等價地表示這個概率分布,也叫做 P 的 (Perfect-map)。 全局馬爾可夫性什么樣的分布可以由無向圖來表示變量之間的獨立性關系? 無定向圖H的全局馬爾可夫屬性是: 也就是說,在給定集合Z的情況下,這兩個集合被集合Z分開, 隨機變量集合X和Y是獨立的。 一個概率分布P滿足無向圖H的全局馬爾科夫屬性,如果對于任何不相交的X、Y和Z,使Y將X和Z分開,在給定Y的情況下,X是獨立于Z的: 是一個I-map. 局部馬爾科夫性無向圖中一個節(jié)點的相鄰節(jié)點的集合被稱為馬爾科夫毯(表示為)。 與H相關的局部馬爾科夫獨立性是: 其中B是H中所有節(jié)點的集合。這意味著給定(圖中的藍色節(jié)點)的馬爾科夫毯(圖中的紅色節(jié)點), 是獨立于H中的所有其他節(jié)點(圖中的白色節(jié)點). 小結可靠性(從圖到分布):P為一個分布,H是一個馬爾可夫結構, 如果P是H上的吉布斯分布,那么保H是P的I-map。 完備性:H為一個馬爾可夫網(wǎng)結構, 如果在給定Z時,X與Y在圖H上不可分,則在給定Z時,X與Y在某些H上因子分解的分布中存在依賴關系。需要注意:
有向圖模型( Directed Graphical Models)在有向圖形模型中,代表隨機變量的節(jié)點由有向邊連接,表示節(jié)點之間的因果關系。這種類型的有向GM被稱為貝葉斯網(wǎng)絡或有向圖模型。 因子分解Bayesian Networks(貝葉斯網(wǎng)絡,BN)是一個有向圖模型,其節(jié)點代表隨機變量,其邊緣代表隨機變量之間的定向影響。 給定一個有向無環(huán)圖(DAG),概率分布形式是符合的圖的特點,根據(jù) '節(jié)點給定其父節(jié)點'連乘。 其中是的父節(jié)點,為圖中節(jié)點數(shù)量。 結構與獨立性Common parents/Fork給定父節(jié)點B,解耦A和C: Cascade/Chain給定節(jié)點B,解耦A和C: V -structure/colider給定節(jié)點C,耦合A和B: I-Maps同樣使用I-maps來建立圖和分布之間的關系。一個分布P滿足與圖G相關的局部獨立性,當且僅當P可表示為與圖G相關的一組條件概率分布(Conditional Probability DistributionsCPD)。
要使G成為P的I-map,就必須使G中任何獨立性在P中也必須成立。 局部馬爾科夫假設貝葉斯網(wǎng)絡結構是一個有向無環(huán)圖(DAG),其節(jié)點代表隨機變量。讓表示G中的父母,表示圖中是的非后裔的變量。那么G編碼了以下一組局部條件獨立性假設: 每個節(jié)點在給定其父節(jié)點的情況下都獨立于其非后裔變量。 如果變量和在道德化(moralized)祖先圖中是分離的,那么在給定z的情況下,它們是D分離(D-separated)的(條件獨立)。 通過刪除感興趣的隨機變量及其祖先以外的所有節(jié)點來構建祖先圖。然后對祖先圖進行道德化處理,去除邊上的所有方向,并將原本不相連且有一個共同子節(jié)點的節(jié)點連接起來。如果有一種方法可以從一個節(jié)點到另一個節(jié)點,那么這兩個節(jié)點就不是條件獨立的。 全局馬爾科夫假設如果不能將 '貝葉斯球(Bayes-ball) '從X中的任何節(jié)點發(fā)送到Z中的任何節(jié)點,那么在給定Y的情況下,X與Z之間是DD-separated。 chain/cascadeY 沒有觀測 ,路徑是Acitvate的 V- structure/coliderY 沒有觀測 ,路徑是Acitvate的 Fork/common parentsY 或者Y的后代被觀測 ,路徑是Acitvate的 圖中的分離屬性意味著相關變量的獨立屬性。在構建分布時,我們可以直接使用因子化法來機械地組裝一個分布,即 Conditional probability density (CPDs)為了建立下面這個帶有連續(xù)隨機變量的圖形的聯(lián)合分布,我們可以使用條件概率密度函數(shù)。下面是一個定義連續(xù)隨機變量依賴的例子: 對于離散變量,我們看下圖的例子: from pgmpy.models import BayesianModel 小結可靠性:如果一個分布P根據(jù)G進行因子化,那么(保證)。完備性: 對于任何根據(jù)G分解的分布P,如果,那么 (不保證) 參考文獻
|
|