【機器學習基礎】深入淺出經典貝葉斯統(tǒng)計

阿明哥哥資料區(qū) 2021-11-05

展開全文

貝葉斯統(tǒng)計

概率的類型

假設為數(shù)據(jù)對象的值，的相關頻率為，其中N表示總的出現(xiàn)次數(shù)（）.

一個事件的概率為，代表事件發(fā)生的可能性有多大。

我們通過在范圍內為某個空間中的結果(事件)集分配一個數(shù)值概率來構造一個概率空間。

當結果是一個不確定但可重復的過程的結果時，概率總是可以通過簡單地觀察多次過程的重復并計算每個事件發(fā)生的頻率來衡量。這些頻率概率可以很好地陳述客觀現(xiàn)實。如

電子自旋是1/2。
希格斯粒子的質量在124到126 GeV之間。
現(xiàn)在宇宙中暗能量的比例在68%到70%之間。
超導體Hg-1223的臨界溫度超過130K。

如果我們假設這些是通用的常數(shù)，而這些常數(shù)不會因為你需要測量過程而得到不同的結果。這決定了我們最感興趣的陳述不能被賦予頻率統(tǒng)計的概率。

然而，如果我們也允許概率來衡量在陳述中的主觀的'信仰程度'，那么就可以使用概率論的完整機制來討論更有趣的陳述。這些被稱為貝葉斯概率。

貝葉斯概率是由貝葉斯理論所提供的一種對概率的解釋，它采用將概率定義為某人對一個命題信任的程度的概念。

最傳統(tǒng)的概率理論是基于事件的相對頻率（頻率），而貝葉斯觀點更加靈活地看待概率。在任何情況下，概率總是介于0和1之間，所有可能事件的概率值的總和等于1。

貝葉斯概率和頻率概率相對，它從確定的分布中觀測到的頻率或者在樣本空間中的比例來導出概率。粗略描述兩種概率統(tǒng)計是:

頻率統(tǒng)計: 無趣陳述的客觀概率。
貝葉斯統(tǒng)計: 有趣陳述的主觀概率。

貝葉斯聯(lián)合概率

離散隨機變量的聯(lián)合分布

對離散隨機變量而言，聯(lián)合分布概率質量函數(shù)為，即

因為是概率分布函數(shù)，所以必須有

連續(xù)隨機變量的聯(lián)合分布

類似地，對連續(xù)隨機變量而言，聯(lián)合分布概率密度函數(shù)為，其中和分別代表時的條件分布以及時的條件分布；和分別代表和的邊緣分布。

同樣地，因為是概率分布函數(shù)，所以必須有

獨立變量的聯(lián)合分布

對于兩相互獨立的事件及，任意x和y而言有離散隨機變量，或者有連續(xù)隨機變量。

貝葉斯統(tǒng)計從聯(lián)合概率分布開始

括號內分別是數(shù)據(jù)特征，模型參數(shù) 和超參數(shù) 。上的下標是為了提醒我們，通常所使用的參數(shù)集依賴于超參數(shù)(例如，增加n_components為新組件添加參數(shù))。有時我們將這個對稱為模型。

這個聯(lián)合概率意味著模型參數(shù)和超參數(shù)都是隨機變量，這意味著它們標記了潛在概率空間中的可能結果。

可能性

可能性 是模型參數(shù) (給定超參數(shù) )和數(shù)據(jù)特征的函數(shù)，度量模型給定的觀測數(shù)據(jù)的概率(密度)。例如，高斯混合模型有如下可能性函數(shù):

參數(shù) 為：

及超參數(shù) 。注意，對于任何(固定)參數(shù)和超參數(shù)的值，可能性必須在數(shù)據(jù)上進行標準化。而不是在參數(shù)或超參數(shù)上標準化的。

可能性度函數(shù)在頻率統(tǒng)計和貝葉斯統(tǒng)計中都起著核心作用，但是他們使用和解釋的方式不同，這里主要討論貝葉斯的觀點，其中和是隨機變量，可能性函數(shù)與條件概率相關。

條件概率的表示在給定模型的情況下，觀察特征。

貝葉斯定理

貝葉斯定理是概率論中的一個定理，描述在已知一些條件下，某事件的發(fā)生概率。

比如，如果已知某人媽媽得癌癥與壽命有關，使用貝葉斯定理則可以通過得知某人年齡，來更加準確地計算出他媽媽罹患癌癥的概率。

通常，事件A在事件B已發(fā)生的條件下發(fā)生的概率，與事件B在事件A已發(fā)生的條件下發(fā)生的概率是不一樣的。然而，這兩者是有確定的關系的，貝葉斯定理就是這種關系的陳述。貝葉斯公式的一個用途，即透過已知的三個概率而推出第四個概率。貝葉斯定理跟隨機變量的條件概率以及邊際概率分布有關。

我們將可能性與條件概率聯(lián)系起來，我們就可以應用概率演算的早期規(guī)則(2 & 3)來推導廣義貝葉斯規(guī)則:

上面的每一項都有一個名稱，測量不同的概率:

后驗概率: 是給定數(shù)據(jù) 和超參數(shù) 的參數(shù)值的條件概率。
可能性: 是給出模型的數(shù)據(jù) 的概率，又稱為模型的似然。
先驗概率: 是給定超參數(shù)的模型參數(shù)的概率，并且在所有可能的數(shù)據(jù)上被邊緣化。
證據(jù): 是給出超參數(shù)的數(shù)據(jù)的概率，并且在給出超參數(shù)的所有可能的參數(shù)值上被邊緣化。

在典型的推理問題中，(1)后驗概率是我們真正關心的，而(2)似然是我們知道如何計算的。(3)先驗概率是我們必須量化我們對宇宙不同可能的主觀'信仰程度'。

(4)證據(jù)呢？利用前面的概率計算法則，我們發(fā)現(xiàn)(4)可以由(2)和(3)計算出來:

通過選擇適合的先驗概率函數(shù)和可能性函數(shù)，這個積分可以通過解析來執(zhí)行求解。然而，對于大多數(shù)實際工作來說，需要用近似的數(shù)值方法來計算復雜的分布。這類常用的方法有馬爾可夫鏈蒙特卡羅和變分推理。

先驗信息選擇問題

優(yōu)先權的選擇必然是主觀的，有時還會引起爭議。盡管如此，這里總結了如下一般準則:

從信息性實驗中得出的數(shù)據(jù)推論對你的先驗選擇不是很敏感。
如果你的(后驗)結果對你選擇的先驗是敏感的，此時你需要更多(或更好的)數(shù)據(jù)。

對于先驗，我們使用beta分布^[4]，它由超參數(shù) 和指定:

其中是Gamma函數(shù)^[5]與階乘相關的。

該函數(shù)提供了一個二項式過程的先驗(或后驗)，對應于先前(或更新)的測量值，該二項式共有次過程，并在這些試驗中，有次通過，次不通過。

下面定義函數(shù)binomial_learn函數(shù)計算并繪制先驗概率、可能性及后驗概率曲線。

def binomial_learn(prior_a, prior_b, n_obs, n_pass):
   '''
   prior_a, prior_b: 超參數(shù)a和b
   n_obs:觀察或測量次數(shù)
   n_pass:通過樣本數(shù)
   '''
    theta = np.linspace(0, 1, 100)
    # 計算和繪制關于theta的先驗概率。
    prior = scipy.stats.beta(prior_a, prior_b)
    plt.fill_between(theta, prior.pdf(theta), alpha=0.25)
    plt.plot(theta, prior.pdf(theta), label='Prior')
    # 計算并繪制給定任意theta的固定數(shù)據(jù)的可能性。
    likelihood = scipy.stats.binom.pmf(n_pass, n_obs, theta)
    plt.plot(theta, likelihood, 'k:', label='Likelihood')
    # 根據(jù)觀測數(shù)據(jù)計算并繪制后驗曲線。
    posterior = scipy.stats.beta(prior_a + n_pass, prior_b + n_obs - n_pass)
    plt.fill_between(theta, posterior.pdf(theta), alpha=0.25)
    plt.plot(theta, posterior.pdf(theta), label='Posterior')
    plt.legend(bbox_to_anchor=(0., 1.02, 1., .102), loc=3,
               ncol=3, mode='expand', borderaxespad=0., fontsize='large')
    plt.ylim(0, None)
    plt.xlim(theta[0], theta[-1])
    plt.xlabel('Pass fraction $\\theta$')

通過圖形實例回答如下問題

Q1: 在你的研究領域想一個問題，這個問題適用于這個推理問題。

Q2: 使用超參數(shù) ，從2個觀測中推斷。

根據(jù)觀察數(shù)據(jù)解釋為什么后驗是合理的。
什么值是絕對排除的數(shù)據(jù)？這有意義嗎？
這三個量是如何標繪的？

Q3: 用代替，從相同的2次觀察中推斷。

根據(jù)觀察數(shù)據(jù)，后驗仍然合理嗎？解釋你的推理。
你如何在這兩種主觀的先驗中做出選擇？

Q4: 使用上面的每個先驗均不同的數(shù)據(jù): 100個試驗中有60個通過。

先驗和可能性的相對重要性如何隨著更好的數(shù)據(jù)而變化？
為什么現(xiàn)在的可能性值這么小？

binomial_learn(prior_a=1, prior_b=1, n_obs=2, n_pass=1)

后驗概率峰值是在觀察到的平均通過率為1/2處。這顯然是合理的，因為我們只做了兩個觀察。
絕對排除0和1，因為我們已經觀察到1個通過和1個不通過。
先驗概率、后驗概率及可能性是標準化的，所以它們在圖中的面積是1。而因所有可能的數(shù)據(jù)的可能性也都是標準化的，所以他們在這個圖中面積沒有1。

binomial_learn(5, 10, 2, 1)

當用代替后，
后驗概率的峰值在遠離平均觀察通過率的1/2處。如果繼續(xù)相信先驗信息，這也是合理的，因為在相對于沒有任何信息的數(shù)據(jù)中，貝葉斯定理告訴我們，它應該占據(jù)我們對的知識。
另一方面，如果我們不能證明為什么這個先驗比之前的平坦分布的先驗更加可信，那么我們必須得出這樣的結論：的值是未知的，這些數(shù)據(jù)也是沒有任何幫助的。
如果在之前的13次【】實驗中觀察到4次【】通過，那么新的先驗概率是非常合理的。然而，如果從未觀察到這個過程，并且沒有理論偏見，那么原來的平坦分布的先驗是合理的。

接下來增加觀察次數(shù)，即增加數(shù)據(jù)量。

binomial_learn(1, 1, 100, 60)

binomial_learn(5, 10, 100, 60)

數(shù)據(jù)越多，先驗的影響就越小。
且可能性值更大，因為有更多的可能結果(通過或不通過)與更多的觀測值，所以任何一個結果變得相對不太可能。

貝葉斯網絡

貝葉斯網絡（Bayesian network），又稱信念網絡（belief network）或是有向無環(huán)圖模型（directed acyclic graphical model），是一種概率圖型模型，借由有向無環(huán)圖（directed acyclic graphs, or DAGs）中得知一組隨機變量及其組條件概率分布的性質。

舉例而言，貝葉斯網絡可用來表示疾病和其相關癥狀間的概率關系；倘若已知某種癥狀下，貝葉斯網絡就可用來計算各種可能罹患疾病之發(fā)生概率。

一般而言，貝葉斯網絡的有向無環(huán)圖中的節(jié)點表示隨機變量，它們可以是可觀察到的變量，抑或是隱變量、未知參數(shù)等。

連接兩個節(jié)點的箭頭代表此兩個隨機變量是具有因果關系或是非條件獨立的；而兩個節(jié)點間若沒有箭頭相互連接一起的情況就稱其隨機變量彼此間為條件獨立。若兩個節(jié)點間以一個單箭頭連接在一起，表示其中一個節(jié)點是“因（parents）”，另一個是“果（descendants or children）”，兩節(jié)點就會產生一個條件概率值。

貝葉斯網絡是用于建模屬性和類別標簽之間的概率關系。通過建立概率論和圖倫的概念，貝葉斯網絡能夠捕獲更簡單的條件獨立形式，使用簡單的示意進行表示。他們還提供了必要的計算結構，以有效的方式對隨機變量執(zhí)行推斷。

概率圖模型

貝葉斯網絡術語捕獲隨機變量之間的概率關系的模型，被稱為概率圖模型（probabilistic graphical model）。這些模型背后的基本概念是使用圖表示，其中圖的節(jié)點對應于隨機變量，節(jié)點之間的邊緣表示概率關系。

我們從貝葉斯聯(lián)合概率開始:

當一個函數(shù)有數(shù)據(jù)特征，模型參數(shù) 和超參數(shù) ，這個函數(shù)通常是一個非常高維的函數(shù)。

在最普遍的情況下，聯(lián)合概率需要大量的數(shù)據(jù)來估計。然而，許多問題可以用聯(lián)合概率（通過假設一些隨機變量是相互獨立的）來（近似）描述。

概率圖模型是隨機變量之間假定的直接依賴關系的一種方便的可視化方法。

例如，假設我們有兩個參數(shù) ，并且沒有超參數(shù)，那么聯(lián)合概率可以利用概率演算的規(guī)則，以不同的方式展開成條件的乘積:

或者

對應的圖表為:

讀這些圖的方法是：一個標記為的節(jié)點表示聯(lián)合概率中的（乘性）因子，其中列出了其他節(jié)點的箭頭指向該節(jié)點（以任何順序，根據(jù)概率微積分規(guī)則1）。陰影節(jié)點表示直接觀察到的隨機變量（即數(shù)據(jù)），而非陰影節(jié)點表示（未觀察到的）潛在隨機變量。

這些圖都描述了具有兩個參數(shù)的聯(lián)合概率。建立具有任意參數(shù)的聯(lián)合概率的規(guī)則為: