一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

?概率圖模型(一):概率圖模型表示

 漢無為 2022-11-13

每日一句

I never considered a difference of opinion in politics, in religion, in philosophy, as cause for withdrawing from a friend. —Thomas Jefferson

本文大綱如下:

Image


本系列將介紹概率圖模型,圖的基礎知識在[[圖論(一):圖和子圖]]進行簡單介紹。本文初始是為了引入因果圖模型,在幾經(jīng)思考之后,表示、推斷、學習、決策是統(tǒng)計、機器學習重要的組成部分,為了更好的引入后續(xù)知識、并構建自己的知識體系。決定從概率圖開始介紹。

為什么需要概率圖模型

Image

多變量
  • 表示: 多變量的聯(lián)合概率分布是什么?

八個變量一共有個狀態(tài)。我們是否需要表示所有的狀態(tài)?如果有更多的變量怎么般?圖模型的主要好處之一是在表示聯(lián)合分布時可以節(jié)省成本。用圖形和條件來模擬變量之間的依賴關系可以大大減少描述聯(lián)合分布所需的參數(shù)數(shù)量。

  • 學習: 我們如何得到這些概率?使用最大似然估計法嗎?需要多少數(shù)據(jù)來實現(xiàn)?可以使用其他估計方法嗎?怎么在變量之間關系和概率方面納入專業(yè)知識?

  • 推斷: 如果不是所有的變量都是可觀察的,我們如何計算給定證據(jù)的潛在變量條件分布?計算圖中的需要對所有個未觀察到的變量配置進行求和。這需要大量的計算能力。

Image

當我們引入專業(yè)知識后,八個變量之間的關系可以用上圖表示。這時候聯(lián)合分布可以由條件獨立性計算:

結合專業(yè)知識和結構之后,聯(lián)合分布表示的成本由 降為,縮減了倍。

非正式地講,圖模型只是一個代表隨機變量之間關系的圖形。節(jié)點是隨機變量(特征),邊(或沒有邊)代表隨機變量之間的關系或隨機變量之間的依賴關系。關系的概念根據(jù)圖的不同而不同。

變量之間的關系

對于避免不同人對同一現(xiàn)象的多重表述,嚴格定義一個圖模型的每一個組成部分是至關重要的。首先深入嚴格定義兩個隨機變量之間的可能關系。嚴格定義兩個隨機變量之間的可能關系。這些隨機變量可能有許多類型的的關系:

  • X和Y是相關(dependent, correlated)的
  • X和Y是獨立(independent)的
  • 給定Z,X和Y是部分相關(partially correlated)的
  • 給定Z,X和Y是有條件依賴(conditionally dependent)
  • 給定Z,X和Y有條件地獨立(conditionally independent)
  • X導致Y
  • Y導致(causes)X
  • ......

同樣,有許多,其中一些在下面列出和討論,每一個都有其 充分和不足之處。選擇一個衡量標準并不是一項瑣碎的任務,因為,雖然人們可以任意選擇這樣一個衡量標準,用數(shù)據(jù)畫出圖表,并從圖表中提供令人信服的 '故事'。除非嚴格選擇衡量標準,否則該論證很容易被來自相同數(shù)據(jù)的反例所推翻。因此,了解每一種措施所帶來的影響是至關重要的。

Pearson’s Correlation

皮爾遜相關系數(shù)(表示為ρ)是衡量隨機變量之間關聯(lián)的最著名和最基本的方法之一,其定義如下:

兩個獨立變量相關系數(shù)為0,則兩變量是不相關的;但是,反之則不成立。例如,有兩個隨機變量X、Y是這樣的:. 那么,Y依賴于X,它們是不相關的,因為:

從上面的例子中可以看出,皮爾遜相關度只能捕捉到線性依賴。這反過來意味著皮爾遜相關在捕捉獨立性方面是非常弱的。

互信息

上面介紹的皮爾遜相關系數(shù)的局限性使得我們希望有新的衡量方法,可以捕捉到非線性依存關系。衡量兩個密度之間距離的最常見的方法之一是Kullback-Leibler散度,簡稱KL-散度。

當P和Q相等時,KL散度返回0,即,當進一步偏離時,KL散度返回一個更大的正值。由于我們同樣希望距離為0,當時,我們希望二者距離為0,否則為正,可以利用KL散度來獲得所期望的衡量標準,也就是所謂的互信息。

當且僅當.這種方法確實成功地捕捉到了非線性的依賴關系。然而,它帶來了計算方面的問題 因為對非高斯、多模態(tài)、甚至可能是非參數(shù)密度的復雜組合j計算密度時非常困難的。

希爾伯特-施密特獨立標準(HSIC)

最近的一個發(fā)現(xiàn)是HSIC(Gretton等人,2005),也能捕捉到非線性的依賴關系。它被定義為聯(lián)合密度和邊際分布乘積之間的最大平均差異(MMD)。對于任意兩個密度P,Q:

該方法的一個重要屬性是,當且僅當。

局部相關(Partial Correlation)

兩個隨機變量之間的關聯(lián)度量可以用來定義一個邊際相關/依賴圖。這種模型缺點是這種類型的圖形模型信息量不大,原因是兩個隨機變量很少會有非零的關聯(lián)度。我們幾乎總能在一對變量之間找到一些統(tǒng)計學上的關聯(lián),要么是由于某些影響兩個變量的基本過程,要么有時是由于隨機??紤]以下例子: X=孩子的身高,Y=孩子的詞匯量,Z=孩子的年齡。如果我們計算這些變量之間的成對關聯(lián)度,我們期望發(fā)現(xiàn)所有這些變量都是非零的。然而,我們從 '常識 '中知道,孩子的身高和詞匯量沒有直接關系,相反,孩子的年齡是影響這兩個值的基本變量。

我們可以在給定另一個變量的情況下,定義新的兩個變量之間的相關度量。我們可以把它看作是給定另一個變量Z為條件后,或消除了Z的線性影響后,在兩個變量X和Y之間測量的相關性。這被稱為局部/條件相關性。

這是Z與X和Z與Y線性回歸的殘差之間的相關性。類似于皮爾遜的相關性。

局部相關圖

現(xiàn)在可以構建一個比邊際依賴圖更有意義的圖模型。如果一對變量在其他變量的情況下具有非顯著的部分相關性,我們就把它們連接起來。這個模型的一個可能的問題是,計算每一對變量在所有其他變量上的部分相關是很昂貴的,因為我們需要首先為每個條件變量擬合(線性)回歸模型。然而,事實證明,偏相關矩陣有一個與反協(xié)方差矩陣相關的簡單形式:

條件獨立

條件獨立性有助于降低統(tǒng)計和計算的復雜性。條件獨立性的經(jīng)典符號是,X、Y、Z是隨機變量。定義:

如果想使用強依賴性度量或局部相關作為工具,提取條件獨立性是一個艱難的任務。一個捷徑是簡單地對感興趣的隨機變量施加高斯假設。詳細來說,假設(X, Y, Z)是同高斯的,我們有

Image

無向圖模型(undirected graphical models)

Image

節(jié)點對應于隨機變量,而邊對應于成對(非因果)關系。無向圖模型是,即隨機變量的概率分布,其參數(shù)由圖決定。UGM例子:物理學模型、社會網(wǎng)絡、蛋白質交互網(wǎng)絡、建模圍棋、.... 在信息檢索等領域,這種模型可以用來描述概念之間的關系和實體之間的關系。

表示

無向圖模型表示一個由無向圖定義的分布,以及一組與的邊相關的勢函數(shù)(potential functions):

其中Z被稱為配分函數(shù)(partition function), 也被稱為

給定一個圖,確定圖模型中存在的所有 'Cliques'。這也被稱為馬爾科夫隨機場、馬爾科夫網(wǎng)絡,...

將Clique位勢限制為正值可能是不方便的。用一個實值 '能量 '函數(shù)以無約束的形式表示位勢。聯(lián)合概率有一個很好的加性結構:

是自由能, 在物理上稱之為玻爾茲曼分布,統(tǒng)計上成為對數(shù)線性模型:

整體能量函數(shù)可以表示為:. 我們將利用這點從數(shù)據(jù)中恢復圖的結構。特別是當是稀疏的時候,那么之間就沒有邊。

對于,一個完全子圖(Clique)是一個子圖,這樣中的節(jié)點是完全相連的。一個極大團是一個完整的子圖,使得任何超集都不是一個團。

Image

上圖中,最大團是{A,B,D},{B,C,D},而子團是{A,B},{C,D},...所有的邊和單節(jié)點。使用團的原因: 團是基本單位,它捕捉了所有可能的依賴關系,而且不會被遺漏。如果我們從團內的子圖開始構建,將它們相互連接,我們可能會有失去對一些相互依賴關系建模的風險。

團勢能的解釋

Image

團勢能是前概率性的權變函數(shù),它提供了恢復或指定隨機變量配置的偏差的方法。在有向圖形模型中,頂點的聯(lián)合分布可以被分解為邊際和條件分布的乘積。然而,在無向圖形模型中,聯(lián)合分布可以被分解為團勢能的乘積。這些團勢能不一定是邊際分布。它們只代表變量的 '良好性 '或 '兼容性 '的概念。為了說明為了說明這一點,請考慮圖中所示的圖形。該圖表示,聯(lián)合分布可以表示為,但它也可以用其他形式寫成圖中所示。

I-maps(Independence-map)

如何使用圖來表示一個概率分布?定義I-maps是為了利用條件獨立性定義圖和分布之間的關系。表示為一個圖將使描述的所有條件獨立性變得更加容易。將I(P)定義為所有在P中成立的形式的獨立性斷言的集合(與參數(shù)值無關)。圖和其獨立性斷言集合,如果, 一個I-maps.可以發(fā)現(xiàn)只要是 I(P) 的子集,其對應的 G 就是概率分布 P 的 I-map,所以 I-map 可以有很多。只有 I(G) = I(P) 時,對應的 Graph 才可以等價地表示這個概率分布,也叫做 P 的 (Perfect-map)。

全局馬爾可夫性

什么樣的分布可以由無向圖來表示變量之間的獨立性關系? 無定向圖H的全局馬爾可夫屬性是:

也就是說,在給定集合Z的情況下,這兩個集合被集合Z分開, 隨機變量集合X和Y是獨立的。

Image

一個概率分布P滿足無向圖H的全局馬爾科夫屬性,如果對于任何不相交的X、Y和Z,使Y將X和Z分開,在給定Y的情況下,X是獨立于Z的:

一個I-map.

局部馬爾科夫性

無向圖中一個節(jié)點的相鄰節(jié)點的集合被稱為馬爾科夫毯(表示為)。

Image

與H相關的局部馬爾科夫獨立性是:

其中B是H中所有節(jié)點的集合。這意味著給定(圖中的藍色節(jié)點)的馬爾科夫毯(圖中的紅色節(jié)點), 是獨立于H中的所有其他節(jié)點(圖中的白色節(jié)點).

小結

可靠性(從圖到分布):P為一個分布,H是一個馬爾可夫結構, 如果P是H上的吉布斯分布,那么保H是P的I-map。

完備性:H為一個馬爾可夫網(wǎng)結構, 如果在給定Z時,X與Y在圖H上不可分,則在給定Z時,X與Y在某些H上因子分解的分布中存在依賴關系。需要注意:

圖和分布之間沒有嚴格的等價關系!

有向圖模型( Directed Graphical Models)

在有向圖形模型中,代表隨機變量的節(jié)點由有向邊連接,表示節(jié)點之間的因果關系。這種類型的有向GM被稱為貝葉斯網(wǎng)絡有向圖模型。

Image

因子分解

Bayesian Networks(貝葉斯網(wǎng)絡,BN)是一個有向圖模型,其節(jié)點代表隨機變量,其邊緣代表隨機變量之間的定向影響。

給定一個有向無環(huán)圖(DAG),概率分布形式是符合的圖的特點,根據(jù) '節(jié)點給定其父節(jié)點'連乘。

其中的父節(jié)點,為圖中節(jié)點數(shù)量。

結構與獨立性

Common parents/Fork

給定父節(jié)點B,解耦A和C:

Image

Cascade/Chain

給定節(jié)點B,解耦A和C:

Image

V -structure/colider

給定節(jié)點C,耦合A和B:

Image

I-Maps

同樣使用I-maps來建立圖和分布之間的關系。一個分布P滿足與圖G相關的局部獨立性,當且僅當P可表示為與圖G相關的一組條件概率分布(Conditional Probability DistributionsCPD)。

設P是X上的一個分布。我們定義*I(P)*為在P中成立的形式的獨立性斷言的集合。

K是任意一個與一組獨立性集合I(K)相關的圖。如果, 則K是一個I-map 。

要使G成為P的I-map,就必須使G中任何獨立性在P中也必須成立。

局部馬爾科夫假設

貝葉斯網(wǎng)絡結構是一個有向無環(huán)圖(DAG),其節(jié)點代表隨機變量。讓表示G中的父母,表示圖中是的非后裔的變量。那么G編碼了以下一組局部條件獨立性假設:

每個節(jié)點在給定其父節(jié)點的情況下都獨立于其非后裔變量。

如果變量在道德化(moralized)祖先圖中是分離的,那么在給定z的情況下,它們是D分離(D-separated)的(條件獨立)。

Image

通過刪除感興趣的隨機變量及其祖先以外的所有節(jié)點來構建祖先圖。然后對祖先圖進行道德化處理,去除邊上的所有方向,并將原本不相連且有一個共同子節(jié)點的節(jié)點連接起來。如果有一種方法可以從一個節(jié)點到另一個節(jié)點,那么這兩個節(jié)點就不是條件獨立的。

全局馬爾科夫假設

如果不能將 '貝葉斯球(Bayes-ball) '從X中的任何節(jié)點發(fā)送到Z中的任何節(jié)點,那么在給定Y的情況下,X與Z之間是DD-separated。

chain/cascadeImage

Y 沒有觀測 ,路徑是Acitvate的

V- structure/colider

Image

Y 沒有觀測 ,路徑是Acitvate的
Fork/common parents

Image

Y 或者Y的后代被觀測 ,路徑是Acitvate的

圖中的分離屬性意味著相關變量的獨立屬性。在構建分布時,我們可以直接使用因子化法來機械地組裝一個分布,即

Conditional probability density (CPDs)

為了建立下面這個帶有連續(xù)隨機變量的圖形的聯(lián)合分布,我們可以使用條件概率密度函數(shù)。下面是一個定義連續(xù)隨機變量依賴的例子:

Image

對于離散變量,我們看下圖的例子:

Image

from pgmpy.models import BayesianModel
from pgmpy.factors.discrete import TabularCPD

# 定義模型結構
model = BayesianModel([('D''G'), ('I''G'), ('G''L'), ('I''S')])

# 定義 CPDs.
cpd_d = TabularCPD(variable='D', variable_card=2, values=[[0.6], [0.4]])
cpd_i = TabularCPD(variable='I', variable_card=2, values=[[0.7], [0.3]])
cpd_g = TabularCPD(variable='G', variable_card=3,
                   values=[[0.30.050.9,  0.5],
                           [0.40.250.080.3],
                           [0.30.7,  0.020.2]],
                  evidence=['I''D'],
                  evidence_card=[22])

cpd_l = TabularCPD(variable='L', variable_card=2,
                   values=[[0.10.40.99],
                           [0.90.60.01]],
                   evidence=['G'],
                   evidence_card=[3])

cpd_s = TabularCPD(variable='S', variable_card=2,
                   values=[[0.950.2],
                           [0.050.8]],
                   evidence=['I'],
                   evidence_card=[2])

model.add_cpds(cpd_d, cpd_i, cpd_g, cpd_l, cpd_s)

# 檢查模型以及CPD??碈PDs是否求和為1
print(model.check_model())
print(model.get_cpds('G'))

Image

小結

可靠性:如果一個分布P根據(jù)G進行因子化,那么(保證)。完備性:  對于任何根據(jù)G分解的分布P,如果,那么 (不保證)

參考文獻

  1. Daphne Koller and Nir Friedman, Probabilistic Graphical Models: Principles and Techniques

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日本人妻熟女一区二区三区 | 亚洲av成人一区二区三区在线| 可以在线看的欧美黄片| 最新69国产精品视频| 亚洲一区二区三区av高清| 国产又色又粗又黄又爽| 日本加勒比系列在线播放| 一区二区三区四区亚洲另类| 欧美日韩免费观看视频| 国产在线成人免费高清观看av| 好吊妞在线免费观看视频| 台湾综合熟女一区二区| 日本亚洲欧美男人的天堂| 亚洲国产欧美精品久久| 大尺度剧情国产在线视频| 日本不卡在线视频中文国产| 不卡一区二区在线视频| 亚洲精品黄色片中文字幕| 91亚洲国产成人久久精品麻豆| 正在播放玩弄漂亮少妇高潮| 国产精品白丝一区二区| 精品欧美在线观看国产| 亚洲欧美国产网爆精品| 亚洲综合色在线视频香蕉视频| 黑鬼糟蹋少妇资源在线观看| 国产精品一区二区传媒蜜臀| 欧美极品欧美精品欧美| 成人精品日韩专区在线观看| 亚洲国产日韩欧美三级| 激情综合网俺也狠狠地| 日韩午夜老司机免费视频| 人人妻在人人看人人澡| 国产不卡在线免费观看视频| 中文字幕91在线观看| 国产激情国产精品久久源| 国产精品欧美在线观看| 国产亚洲中文日韩欧美综合网| 亚洲av日韩一区二区三区四区| 免费久久一级欧美特大黄孕妇| 青青久久亚洲婷婷中文网| 日本一本不卡免费视频|