模式識別與機器學(xué)習(xí)（二）：常用的概率分布（共軛分布等）

黑塵子 2016-12-02

展開全文

第二章主要介紹幾個重要的概率分布及其特性。

1. 二值變量的概率分布

假設(shè)一個二元隨機變量

，用參數(shù)

表示

的概率為：

。

（1）伯努利分布（Bernoulli distribution）

概率分布函數(shù)：

期望：

方差：

log似然函數(shù)為：

其中，

表示變量x的觀測值。得到

的最大似然估計值為：

（2）二項分布（Binomial distribution）

概率分布函數(shù)：

，

期望：

方差：

注：對于小的數(shù)據(jù)集，如果對二項分布采用極大似然估計，會得到過擬合（over-fitting）的估計結(jié)果?？梢圆捎秘惾~斯方法，引入共軛先驗分布（conjugate prior distribution）來解決這個問題。共軛先驗是指，選取一個與似然函數(shù)共軛的先驗分布，使得后驗分布與先驗分布有同樣的函數(shù)形式。其中，二項分布的共軛先驗是Beta分布。

（3）Beta分布

概率分布函數(shù)：

期望：

方差：

采用貝葉斯方法，將Beta先驗乘以二項分布似然函數(shù)，得到后驗分布如下：

2. 多項式變量的概率分布

多項式變量可以取多種結(jié)果中的一種，而二值變量只能取兩種結(jié)果中的一種。假設(shè)變量x可以取K=6種結(jié)果，若x的某一次觀測值為第三種結(jié)果（

），則可以將x表示為

。另外，用參數(shù)

表示

的概率：

（1）多項式分布（Multinomial distribution）

概率函數(shù)為：

（其中，

表示數(shù)據(jù)集中出現(xiàn)第k種結(jié)果的次數(shù)；

）

（2）狄利克雷分布（Dirichlet distribution）

狄利克雷分布是多項式分布的共軛先驗分布。概率分布函數(shù)如下：

采用貝葉斯方法，得到后驗分布如下：

3. 高斯分布

一元概率分布函數(shù)：

多元概率分布函數(shù)：

3.1 條件高斯分布（Conditional Gaussian distribution）

假設(shè)x是一個服從高斯分布的D維向量，為了討論條件高斯分布，將x分成兩個獨立的子集：

這兩個子集對應(yīng)的期望為：

對應(yīng)的方差為：

經(jīng)推導(dǎo)，條件概率分布

的期望和方差分別為：

3.2 邊緣概率分布（Marginal Gaussian distribution）

以

為例，其期望和方差分別為：

3.3 高斯變量的貝葉斯理論

本節(jié)的主要內(nèi)容是：已知高斯邊緣概率

和高斯條件概率

（其均值是變量x的線性函數(shù)，且其方差與x無關(guān)），如何求得邊緣概率

和條件概率

。

求解方法是，首先求解聯(lián)合概率分布的函數(shù)形式，再利用3.1節(jié)和3.2節(jié)中邊緣概率分布和條件概率分布的期望和方差公式求得結(jié)果。

假設(shè)已知：

令

，則：

經(jīng)推導(dǎo)得，期望和方差分別為：

根據(jù)3.2節(jié)，得到邊緣概率分布的期望和方差分別為：

根據(jù)3.1節(jié)，得到條件概率分布的期望和方差為：

3.4高斯最大似然估計

給定數(shù)據(jù)集

，假定這些觀測值都是獨立地從高斯分布中產(chǎn)生。為了估計高斯分布函數(shù)中的參數(shù)，可以采用最大似然估計。其中，log似然函數(shù)為：

得到的期望和方差的估計值為：

其中，方差的無偏估計為：

3.5 順序估計（Sequential estimation）

順序估計適用于在線應(yīng)用，可以一次只處理一個數(shù)據(jù)，根據(jù)當(dāng)前數(shù)據(jù)估計參數(shù)值。假設(shè)需要被順序估計的參數(shù)為

，采用極大似然估計得到：

為了進行順序估計，可以采用Robbins-Monro算法：

該算法的特點在于估計值會收斂到根

，根滿足

。

3.6 高斯分布的貝葉斯推理

本節(jié)的重點是，如果用貝葉斯理論估計高斯分布的均值或方差，需要選擇哪些分布作為共軛先驗。

3.6.1 單變量高斯分布

（1）方差已知，估計均值：

似然函數(shù)是：

共軛先驗是：

后驗分布是：

即：

其中：

（2）均值已知，估計方差：

似然函數(shù)是：

共軛先驗是Gamma分布：

后驗分布是：

（3）均值和期望未知：

共軛分布為高斯伽馬分布（Gaussian-gamma distribution）：

3.6.2 多變量高斯分布

（1）方差已知，估計均值，采用的共軛先驗還是高斯分布；

（2）均值已知，方差未知，采用Wishart分布：

（3）均值和方差都未知，采用Gaussian-Wishart分布：

3.7 學(xué)生t分布（Student's t-distribution）

Student's t-distribution可以通過疊加無限個均值相同而方差不同的高斯分布獲得。與高斯分布相比，t分布對離群點更不敏感，因此魯棒性（robustness）更高。

3.8 周期變量（Periodic variables）

高斯分布不適合作為一些連續(xù)變量（例如：周期變量）的密度分布函數(shù)。對于周期變量，可以采用對高斯分布進行周期泛化后的von Mises分布：

von Mises分布的局限性在于，該分布是單峰的，不能表示多峰分布。

3.9 高斯混合（Mixtures of Gaussians）

概率密度函數(shù)為：

，其中，

表示混合系數(shù)。

4. 指數(shù)分布族

本章節(jié)提到的很多分布函數(shù)（除了高斯混合分布）屬于同一類分布——指數(shù)分布族，其分布函數(shù)形式如下：

（1）伯努利分布

推導(dǎo)出指數(shù)分布族形式：

得到：

所以：

該函數(shù)稱為logistic/sigmoid函數(shù)。其他對應(yīng)部分為：

（2）多項式分布

推導(dǎo)出指數(shù)分布族形式：

其中，

。其他對應(yīng)部分為：

不過這里有一個限制條件：

在某些情況下，去除這個條件更方便時會用。方法是用前M-1項來表示第M項，則多項式分布推導(dǎo)為：

其中：

所以：

該函數(shù)稱為softmax函數(shù)（也叫標(biāo)準(zhǔn)化指數(shù)）。其他對應(yīng)部分為：

（3）單變量高斯分布

推導(dǎo)出指數(shù)分布族形式：

對應(yīng)部分為：

4.1 最大似然與充分統(tǒng)計量

對指數(shù)分布族的參數(shù)

進行最大似然估計，得到：

由于

包含了最大似然估計器需要從數(shù)據(jù)中獲取的全部信息，所以它被稱為充分統(tǒng)計量。

4.2 共軛先驗

指數(shù)分布族選擇的共軛先驗符合以下形式：

對應(yīng)的后驗分布為：

4.3 無信息先驗

當(dāng)我們對未知的分布形式的先驗知識不了解時，我們希望選擇一種盡可能不影響后驗分布的先驗，稱之為無信息先驗。目的是為了讓后驗分布只取決于數(shù)據(jù)集本身。一般情況下，滿足位置不變性或尺度不變性的分布可以作為無信息先驗分布。

5 非參數(shù)方法

在本節(jié)之前討論的都是參數(shù)估計方法。該方法采用具有特定函數(shù)形式和參數(shù)的概率分布，且這些參數(shù)值是由數(shù)據(jù)集決定的。參數(shù)方法的不足在于，如果選擇的分布不符合數(shù)據(jù)本身所表示的概率分布，那么得到的預(yù)測結(jié)果會比較差。而非參數(shù)方法則不需要選擇概率分布，避免了選錯概率分布的問題。本節(jié)介紹三種非參數(shù)方法。

（1）條形圖密度估計（Histogram density models）

主要方法是，指定條形圖寬度（即把[0， 1]分割成多個區(qū)間），然后統(tǒng)計數(shù)據(jù)集中落入每個區(qū)間的數(shù)據(jù)量。特點是每個被統(tǒng)計完的數(shù)據(jù)都可以被丟棄，因而該方法可以順序處理數(shù)據(jù)（例如在線數(shù)據(jù)）。但這個方法有兩個問題，第一個是密度估計是不連續(xù)的，相鄰的條形圖之間有密度的斷層；第二個是不適用于高維數(shù)據(jù)。不過接下來的兩個方法可以解決該問題。

（2）核密度估計（Kernel density estimation）

主要方法是，指定一個單位空間大?。粗付ê撕瘮?shù)，例如高斯核函數(shù)），然后在數(shù)據(jù)集中按照該單位空間下包含的數(shù)據(jù)個數(shù)來決定相應(yīng)的概率密度。

由于單位空間大小是固定的，該方法存在兩個問題：第一，若單位空間過大，將導(dǎo)致某個高密度區(qū)域?qū)?yīng)的密度曲線過于平滑，而不能反映真實的密度變化情況；第二，若單位空間過小，則會使密度曲線中存在很多噪音，曲線不平滑。

（3）近鄰方法（Nearest-neighbour methods）

主要方法是，指定數(shù)據(jù)個數(shù)K，以某個數(shù)據(jù)為中心，查找距離該數(shù)據(jù)最近的數(shù)據(jù)點，當(dāng)數(shù)據(jù)個數(shù)達到K時，則估計該區(qū)域的密度。

該方法可以解決核密度估計造成的第一個問題。同時，若K的值太小，會造成較大的噪音；若K的值太大，則密度曲線過于平滑，不能反映密度變化情況。所以需要選擇一個大小適中的K值。