一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

模式識別與機器學(xué)習(xí)(二):常用的概率分布(共軛分布等)

 黑塵子 2016-12-02
第二章主要介紹幾個重要的概率分布及其特性。




1. 二值變量的概率分布


       假設(shè)一個二元隨機變量,用參數(shù)表示的概率為:。

(1)伯努利分布(Bernoulli distribution)
       概率分布函數(shù):
       期望:
       方差:
       log似然函數(shù)為:

       其中,表示變量x的觀測值。得到的最大似然估計值為:


(2)二項分布(Binomial distribution)
       概率分布函數(shù):
,
       期望:
       方差:

       注:對于小的數(shù)據(jù)集,如果對二項分布采用極大似然估計,會得到過擬合(over-fitting)的估計結(jié)果??梢圆捎秘惾~斯方法,引入共軛先驗分布(conjugate prior distribution)來解決這個問題。共軛先驗是指,選取一個與似然函數(shù)共軛的先驗分布,使得后驗分布與先驗分布有同樣的函數(shù)形式。其中,二項分布的共軛先驗是Beta分布。

(3)Beta分布
       概率分布函數(shù):

       期望:
       方差:

       采用貝葉斯方法,將Beta先驗乘以二項分布似然函數(shù),得到后驗分布如下:



2. 多項式變量的概率分布


       多項式變量可以取多種結(jié)果中的一種,而二值變量只能取兩種結(jié)果中的一種。假設(shè)變量x可以取K=6種結(jié)果,若x的某一次觀測值為第三種結(jié)果(),則可以將x表示為。另外,用參數(shù)表示的概率:


(1)多項式分布(Multinomial distribution)
       概率函數(shù)為:

       (其中,表示數(shù)據(jù)集中出現(xiàn)第k種結(jié)果的次數(shù);

(2)狄利克雷分布(Dirichlet distribution)
       狄利克雷分布是多項式分布的共軛先驗分布。概率分布函數(shù)如下:

       采用貝葉斯方法,得到后驗分布如下:


3. 高斯分布


       一元概率分布函數(shù):

       多元概率分布函數(shù):


3.1 條件高斯分布(Conditional Gaussian distribution)
       假設(shè)x是一個服從高斯分布的D維向量,為了討論條件高斯分布,將x分成兩個獨立的子集:
       這兩個子集對應(yīng)的期望為:
       對應(yīng)的方差為:
       經(jīng)推導(dǎo),條件概率分布的期望和方差分別為:


3.2 邊緣概率分布(Marginal Gaussian distribution)
       為例,其期望和方差分別為:


3.3 高斯變量的貝葉斯理論
       本節(jié)的主要內(nèi)容是:已知高斯邊緣概率和高斯條件概率(其均值是變量x的線性函數(shù),且其方差與x無關(guān)),如何求得邊緣概率和條件概率
       求解方法是,首先求解聯(lián)合概率分布的函數(shù)形式,再利用3.1節(jié)和3.2節(jié)中邊緣概率分布和條件概率分布的期望和方差公式求得結(jié)果。

       假設(shè)已知:
       ,則:

       經(jīng)推導(dǎo)得,期望和方差分別為:


       根據(jù)3.2節(jié),得到邊緣概率分布的期望和方差分別為:

       根據(jù)3.1節(jié),得到條件概率分布的期望和方差為:


3.4高斯最大似然估計

       給定數(shù)據(jù)集,假定這些觀測值都是獨立地從高斯分布中產(chǎn)生。為了估計高斯分布函數(shù)中的參數(shù),可以采用最大似然估計。其中,log似然函數(shù)為:

       得到的期望和方差的估計值為:


       其中,方差的無偏估計為:


3.5 順序估計(Sequential estimation)
       順序估計適用于在線應(yīng)用,可以一次只處理一個數(shù)據(jù),根據(jù)當(dāng)前數(shù)據(jù)估計參數(shù)值。假設(shè)需要被順序估計的參數(shù)為,采用極大似然估計得到:

       為了進行順序估計,可以采用Robbins-Monro算法:

       該算法的特點在于估計值會收斂到根,根滿足。

3.6 高斯分布的貝葉斯推理
       本節(jié)的重點是,如果用貝葉斯理論估計高斯分布的均值或方差,需要選擇哪些分布作為共軛先驗。

3.6.1 單變量高斯分布
(1)方差已知,估計均值:
       似然函數(shù)是:

       共軛先驗是:

       后驗分布是:

       即:

       其中:


(2)均值已知,估計方差:
       似然函數(shù)是:
       共軛先驗是Gamma分布:
       后驗分布是:

(3)均值和期望未知:
       共軛分布為高斯伽馬分布(Gaussian-gamma distribution):


3.6.2 多變量高斯分布
(1)方差已知,估計均值,采用的共軛先驗還是高斯分布;
(2)均值已知,方差未知,采用Wishart分布:
(3)均值和方差都未知,采用Gaussian-Wishart分布:

3.7 學(xué)生t分布(Student's t-distribution)
       Student's t-distribution可以通過疊加無限個均值相同而方差不同的高斯分布獲得。與高斯分布相比,t分布對離群點更不敏感,因此魯棒性(robustness)更高。

3.8 周期變量(Periodic variables)
       高斯分布不適合作為一些連續(xù)變量(例如:周期變量)的密度分布函數(shù)。對于周期變量,可以采用對高斯分布進行周期泛化后的von Mises分布:

       von Mises分布的局限性在于,該分布是單峰的,不能表示多峰分布。

3.9 高斯混合(Mixtures of Gaussians)
       概率密度函數(shù)為:,其中,表示混合系數(shù)。


4. 指數(shù)分布族


       本章節(jié)提到的很多分布函數(shù)(除了高斯混合分布)屬于同一類分布——指數(shù)分布族,其分布函數(shù)形式如下:


(1)伯努利分布
       推導(dǎo)出指數(shù)分布族形式:

       得到:
       所以:
       該函數(shù)稱為logistic/sigmoid函數(shù)。其他對應(yīng)部分為:

(2)多項式分布
       推導(dǎo)出指數(shù)分布族形式
       其中,。其他對應(yīng)部分為:


       不過這里有一個限制條件:
       在某些情況下,去除這個條件更方便時會用。方法是用前M-1項來表示第M項,則多項式分布推導(dǎo)為:

       其中:
       所以:
       該函數(shù)稱為softmax函數(shù)(也叫標(biāo)準(zhǔn)化指數(shù))。其他對應(yīng)部分為:


(3)單變量高斯分布
       推導(dǎo)出指數(shù)分布族形式

       對應(yīng)部分為:


4.1 最大似然與充分統(tǒng)計量
       對指數(shù)分布族的參數(shù)進行最大似然估計,得到:
       由于包含了最大似然估計器需要從數(shù)據(jù)中獲取的全部信息,所以它被稱為充分統(tǒng)計量。

4.2 共軛先驗
       指數(shù)分布族選擇的共軛先驗符合以下形式:

       對應(yīng)的后驗分布為:


4.3 無信息先驗
       當(dāng)我們對未知的分布形式的先驗知識不了解時,我們希望選擇一種盡可能不影響后驗分布的先驗,稱之為無信息先驗。目的是為了讓后驗分布只取決于數(shù)據(jù)集本身。一般情況下,滿足位置不變性或尺度不變性的分布可以作為無信息先驗分布。


5 非參數(shù)方法


       在本節(jié)之前討論的都是參數(shù)估計方法。該方法采用具有特定函數(shù)形式和參數(shù)的概率分布,且這些參數(shù)值是由數(shù)據(jù)集決定的。參數(shù)方法的不足在于,如果選擇的分布不符合數(shù)據(jù)本身所表示的概率分布,那么得到的預(yù)測結(jié)果會比較差。而非參數(shù)方法則不需要選擇概率分布,避免了選錯概率分布的問題。本節(jié)介紹三種非參數(shù)方法。

(1)條形圖密度估計(Histogram density models)
       主要方法是,指定條形圖寬度(即把[0, 1]分割成多個區(qū)間),然后統(tǒng)計數(shù)據(jù)集中落入每個區(qū)間的數(shù)據(jù)量。特點是每個被統(tǒng)計完的數(shù)據(jù)都可以被丟棄,因而該方法可以順序處理數(shù)據(jù)(例如在線數(shù)據(jù))。但這個方法有兩個問題,第一個是密度估計是不連續(xù)的,相鄰的條形圖之間有密度的斷層;第二個是不適用于高維數(shù)據(jù)。不過接下來的兩個方法可以解決該問題。

(2)核密度估計(Kernel density estimation)
       主要方法是,指定一個單位空間大?。粗付ê撕瘮?shù),例如高斯核函數(shù)),然后在數(shù)據(jù)集中按照該單位空間下包含的數(shù)據(jù)個數(shù)來決定相應(yīng)的概率密度。
       由于單位空間大小是固定的,該方法存在兩個問題:第一,若單位空間過大,將導(dǎo)致某個高密度區(qū)域?qū)?yīng)的密度曲線過于平滑,而不能反映真實的密度變化情況;第二,若單位空間過小,則會使密度曲線中存在很多噪音,曲線不平滑。

(3)近鄰方法(Nearest-neighbour methods)
       主要方法是,指定數(shù)據(jù)個數(shù)K,以某個數(shù)據(jù)為中心,查找距離該數(shù)據(jù)最近的數(shù)據(jù)點,當(dāng)數(shù)據(jù)個數(shù)達到K時,則估計該區(qū)域的密度。
       該方法可以解決核密度估計造成的第一個問題。同時,若K的值太小,會造成較大的噪音;若K的值太大,則密度曲線過于平滑,不能反映密度變化情況。所以需要選擇一個大小適中的K值。





    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    99在线视频精品免费播放| 日韩精品毛片视频免费看| 日韩精品一级一区二区| 东北女人的逼操的舒服吗| 美国欧洲日本韩国二本道| 黑丝国产精品一区二区| 国产日韩综合一区在线观看| 日韩精品一区二区三区含羞含羞草| 精品al亚洲麻豆一区| 国产极品粉嫩尤物一区二区| 欧美午夜色视频国产精品| 色丁香一区二区黑人巨大| 欧洲日韩精品一区二区三区| 国产超薄黑色肉色丝袜| 91亚洲精品国产一区| 欧美在线观看视频三区| 国产一区二区三区av在线| 亚洲一区二区三在线播放| 91欧美一区二区三区成人| 国产精品一区二区三区黄色片| 成人欧美精品一区二区三区| 日韩一区二区三区在线日| 自拍偷拍一区二区三区| 99视频精品免费视频播放| 欧美视频在线观看一区| 91日韩在线视频观看| 中国美女偷拍福利视频| 冬爱琴音一区二区中文字幕| 国产免费成人激情视频| 日韩在线视频精品中文字幕| 国产一区欧美一区日本道| 欧洲一区二区三区蜜桃| 微拍一区二区三区福利| 太香蕉久久国产精品视频| 国产肥女老熟女激情视频一区| 日本一品道在线免费观看| 日韩和欧美的一区二区三区| 国产又大又猛又粗又长又爽| 福利专区 久久精品午夜| 99久久精品午夜一区| 国产精品推荐在线一区|