第二章主要介紹幾個重要的概率分布及其特性。
1. 二值變量的概率分布
假設(shè)一個二元隨機變量 ,用參數(shù) 表示 的概率為: 。
(1)伯努利分布(Bernoulli distribution)
概率分布函數(shù):
期望:
方差:
log似然函數(shù)為:
其中,表示變量x的觀測值。得到的最大似然估計值為:
(2)二項分布(Binomial distribution)
概率分布函數(shù):
,
期望:
方差:
注:對于小的數(shù)據(jù)集,如果對二項分布采用極大似然估計,會得到過擬合(over-fitting)的估計結(jié)果??梢圆捎秘惾~斯方法,引入共軛先驗分布(conjugate
prior distribution)來解決這個問題。共軛先驗是指,選取一個與似然函數(shù)共軛的先驗分布,使得后驗分布與先驗分布有同樣的函數(shù)形式。其中,二項分布的共軛先驗是Beta分布。
(3)Beta分布
概率分布函數(shù):
期望:
方差:
采用貝葉斯方法,將Beta先驗乘以二項分布似然函數(shù),得到后驗分布如下:
2. 多項式變量的概率分布
多項式變量可以取多種結(jié)果中的一種,而二值變量只能取兩種結(jié)果中的一種。假設(shè)變量x可以取K=6種結(jié)果,若x的某一次觀測值為第三種結(jié)果( ),則可以將x表示為。另外,用參數(shù) 表示 的概率:
(1)多項式分布(Multinomial distribution)
概率函數(shù)為:
(其中, 表示數(shù)據(jù)集中出現(xiàn)第k種結(jié)果的次數(shù); )
(2)狄利克雷分布(Dirichlet distribution)
狄利克雷分布是多項式分布的共軛先驗分布。概率分布函數(shù)如下:
采用貝葉斯方法,得到后驗分布如下:
3. 高斯分布
一元概率分布函數(shù):
多元概率分布函數(shù):
3.1 條件高斯分布(Conditional Gaussian distribution)
假設(shè)x是一個服從高斯分布的D維向量,為了討論條件高斯分布,將x分成兩個獨立的子集:
這兩個子集對應(yīng)的期望為:
對應(yīng)的方差為:
經(jīng)推導(dǎo),條件概率分布 的期望和方差分別為:
3.2 邊緣概率分布(Marginal Gaussian distribution)
以 為例,其期望和方差分別為:
3.3 高斯變量的貝葉斯理論
求解方法是,首先求解聯(lián)合概率分布的函數(shù)形式,再利用3.1節(jié)和3.2節(jié)中邊緣概率分布和條件概率分布的期望和方差公式求得結(jié)果。
假設(shè)已知:
令 , 則:
經(jīng)推導(dǎo)得,期望和方差分別為:
根據(jù)3.2節(jié),得到邊緣概率分布的期望和方差分別為:
根據(jù)3.1節(jié),得到條件概率分布的期望和方差為:
3.4高斯最大似然估計
給定數(shù)據(jù)集 ,假定這些觀測值都是獨立地從高斯分布中產(chǎn)生。為了估計高斯分布函數(shù)中的參數(shù),可以采用最大似然估計。其中,log似然函數(shù)為:
得到的期望和方差的估計值為:
其中,方差的無偏估計為:
3.5 順序估計(Sequential estimation)
順序估計適用于在線應(yīng)用,可以一次只處理一個數(shù)據(jù),根據(jù)當(dāng)前數(shù)據(jù)估計參數(shù)值。假設(shè)需要被順序估計的參數(shù)為 ,采用極大似然估計得到:
為了進行順序估計,可以采用Robbins-Monro算法:
該算法的特點在于估計值會收斂到根 ,根滿足。
3.6 高斯分布的貝葉斯推理
本節(jié)的重點是,如果用貝葉斯理論估計高斯分布的均值或方差,需要選擇哪些分布作為共軛先驗。
3.6.1 單變量高斯分布
(1)方差已知,估計均值:
似然函數(shù)是:
共軛先驗是:
后驗分布是:
即:
其中:
(2)均值已知,估計方差:
似然函數(shù)是:
共軛先驗是Gamma分布:
后驗分布是:
(3)均值和期望未知:
共軛分布為高斯伽馬分布(Gaussian-gamma distribution):
3.6.2 多變量高斯分布
(1)方差已知,估計均值,采用的共軛先驗還是高斯分布;
(2)均值已知,方差未知,采用Wishart分布:
(3)均值和方差都未知,采用Gaussian-Wishart分布:
3.7 學(xué)生t分布(Student's t-distribution)
Student's t-distribution可以通過疊加無限個均值相同而方差不同的高斯分布獲得。與高斯分布相比,t分布對離群點更不敏感,因此魯棒性(robustness)更高。
3.8 周期變量(Periodic variables)
高斯分布不適合作為一些連續(xù)變量(例如:周期變量)的密度分布函數(shù)。對于周期變量,可以采用對高斯分布進行周期泛化后的von
Mises分布:
von Mises分布的局限性在于,該分布是單峰的,不能表示多峰分布。
3.9 高斯混合(Mixtures of Gaussians)
概率密度函數(shù)為: , 其中,表示混合系數(shù)。
4. 指數(shù)分布族
本章節(jié)提到的很多分布函數(shù)(除了高斯混合分布)屬于同一類分布——指數(shù)分布族,其分布函數(shù)形式如下:
(1)伯努利分布
推導(dǎo)出指數(shù)分布族形式:
得到:
所以:
該函數(shù)稱為logistic/sigmoid函數(shù)。其他對應(yīng)部分為:
(2)多項式分布
推導(dǎo)出指數(shù)分布族形式:
其中, 。其他對應(yīng)部分為:
不過這里有一個限制條件:
在某些情況下,去除這個條件更方便時會用。方法是用前M-1項來表示第M項,則多項式分布推導(dǎo)為:
其中:
所以:
該函數(shù)稱為softmax函數(shù)(也叫標(biāo)準(zhǔn)化指數(shù))。其他對應(yīng)部分為:
(3)單變量高斯分布
推導(dǎo)出指數(shù)分布族形式:
對應(yīng)部分為:
4.1 最大似然與充分統(tǒng)計量
對指數(shù)分布族的參數(shù) 進行最大似然估計,得到:
由于 包含了最大似然估計器需要從數(shù)據(jù)中獲取的全部信息,所以它被稱為充分統(tǒng)計量。
4.2 共軛先驗
指數(shù)分布族選擇的共軛先驗符合以下形式:
對應(yīng)的后驗分布為:
4.3 無信息先驗
當(dāng)我們對未知的分布形式的先驗知識不了解時,我們希望選擇一種盡可能不影響后驗分布的先驗,稱之為無信息先驗。目的是為了讓后驗分布只取決于數(shù)據(jù)集本身。一般情況下,滿足位置不變性或尺度不變性的分布可以作為無信息先驗分布。
5 非參數(shù)方法
在本節(jié)之前討論的都是參數(shù)估計方法。該方法采用具有特定函數(shù)形式和參數(shù)的概率分布,且這些參數(shù)值是由數(shù)據(jù)集決定的。參數(shù)方法的不足在于,如果選擇的分布不符合數(shù)據(jù)本身所表示的概率分布,那么得到的預(yù)測結(jié)果會比較差。而非參數(shù)方法則不需要選擇概率分布,避免了選錯概率分布的問題。本節(jié)介紹三種非參數(shù)方法。
(1)條形圖密度估計(Histogram density models)
主要方法是,指定條形圖寬度(即把[0, 1]分割成多個區(qū)間),然后統(tǒng)計數(shù)據(jù)集中落入每個區(qū)間的數(shù)據(jù)量。特點是每個被統(tǒng)計完的數(shù)據(jù)都可以被丟棄,因而該方法可以順序處理數(shù)據(jù)(例如在線數(shù)據(jù))。但這個方法有兩個問題,第一個是密度估計是不連續(xù)的,相鄰的條形圖之間有密度的斷層;第二個是不適用于高維數(shù)據(jù)。不過接下來的兩個方法可以解決該問題。
(2)核密度估計(Kernel density estimation)
主要方法是,指定一個單位空間大?。粗付ê撕瘮?shù),例如高斯核函數(shù)),然后在數(shù)據(jù)集中按照該單位空間下包含的數(shù)據(jù)個數(shù)來決定相應(yīng)的概率密度。
由于單位空間大小是固定的,該方法存在兩個問題:第一,若單位空間過大,將導(dǎo)致某個高密度區(qū)域?qū)?yīng)的密度曲線過于平滑,而不能反映真實的密度變化情況;第二,若單位空間過小,則會使密度曲線中存在很多噪音,曲線不平滑。
(3)近鄰方法(Nearest-neighbour methods)
主要方法是,指定數(shù)據(jù)個數(shù)K,以某個數(shù)據(jù)為中心,查找距離該數(shù)據(jù)最近的數(shù)據(jù)點,當(dāng)數(shù)據(jù)個數(shù)達到K時,則估計該區(qū)域的密度。
該方法可以解決核密度估計造成的第一個問題。同時,若K的值太小,會造成較大的噪音;若K的值太大,則密度曲線過于平滑,不能反映密度變化情況。所以需要選擇一個大小適中的K值。
|