今天,我們介紹機(jī)器學(xué)習(xí)里非常常用的一個(gè)概念,KL 散度,這是一個(gè)用來(lái)衡量?jī)蓚€(gè)概率分布的相似性的一個(gè)度量指標(biāo)。我們知道,現(xiàn)實(shí)世界里的任何觀察都可以看成表示成信息和數(shù)據(jù),一般來(lái)說(shuō),我們無(wú)法獲取數(shù)據(jù)的總體,我們只能拿到數(shù)據(jù)的部分樣本,根據(jù)數(shù)據(jù)的部分樣本,我們會(huì)對(duì)數(shù)據(jù)的整體做一個(gè)近似的估計(jì),而數(shù)據(jù)整體本身有一個(gè)真實(shí)的分布(我們可能永遠(yuǎn)無(wú)法知道),那么近似估計(jì)的概率分布和數(shù)據(jù)整體真實(shí)的概率分布的相似度,或者說(shuō)差異程度,可以用 KL 散度來(lái)表示。 KL 散度,最早是從信息論里演化而來(lái)的,所以在介紹 KL 散度之前,我們要先介紹一下信息熵。信息熵的定義如下: 表示事件 發(fā)生的概率,信息熵其實(shí)反映的就是要表示一個(gè)概率分布需要的平均信息量。 在信息熵的基礎(chǔ)上,我們定義 KL 散度為: 或者表示成下面這種形式: 表示的就是概率 與概率 之間的差異,很顯然,散度越小,說(shuō)明 概率 與概率 之間越接近,那么估計(jì)的概率分布于真實(shí)的概率分布也就越接近。 KL 散度可以幫助我們選擇最優(yōu)的參數(shù),比如 是我們需要估計(jì)的一個(gè)未知的分布,我們無(wú)法直接得知 的分布,不過(guò)我們可以建立一個(gè)分布 去估計(jì) ,為了確定參數(shù) ,雖然我們無(wú)法得知 的真實(shí)分布,但可以利用采樣的方法,從 中采樣 個(gè)樣本,構(gòu)建如下的目標(biāo)函數(shù): 因?yàn)槲覀円A(yù)估的是參數(shù) ,上面的第一項(xiàng) 與參數(shù) 無(wú)關(guān),所以我們要優(yōu)化的其實(shí)是 ,而這個(gè)就是我們熟悉的最大似然估計(jì)。 |
|