深度學(xué)習(xí)中的概率論與信息論基礎(chǔ)

InfoRich 2021-10-15

展開全文

1.1 自信息

自信息（self-information），由香農(nóng)提出，是與離散隨機(jī)變量的值相關(guān)的信息量的量度，常用 bit 作為單位。通俗點(diǎn)來說就是一個(gè)隨機(jī)事件以某個(gè)概率發(fā)生時(shí)攜帶的信息量有多大?？砂凑杖缦路绞接?jì)算：

思考一下為什么是上面這個(gè)形式進(jìn)行計(jì)算？首先可以考慮一個(gè)事件發(fā)生的概率越大意味著它越有可能發(fā)生，極端一點(diǎn)一個(gè)概率為 1 的事件，那么它一定會(huì)發(fā)生，所以這類事件是一個(gè)確定性事件沒什么新鮮的，也就是說它沒什么信息量。再考慮一個(gè)反向極端例子，一個(gè)概率為 0.000001 的事而發(fā)生了，這在人們心中往往是一個(gè)不可能發(fā)生的事，現(xiàn)在卻發(fā)生了，為什么會(huì)這樣？怎么發(fā)生的？人們心中一定會(huì)有各種疑問，當(dāng)需要搞清楚這個(gè)小概率事件發(fā)生的原委時(shí)，人們也就從中獲取了巨大的信息量。所以信息量是隨著隨機(jī)事件發(fā)生概率單調(diào)遞減的，且非負(fù)。此時(shí)符合這個(gè)規(guī)律的候選函數(shù)還很多，比如 log(x)，1/x

再考慮兩個(gè)不相關(guān)的隨機(jī)事件 X 和 Y，如果它們同時(shí)發(fā)生，那我們獲得的信息量有多少？

不相關(guān)意味著任何一方出現(xiàn)都不會(huì)讓對(duì)方更容易發(fā)生，也就是說不會(huì)影響對(duì)方的發(fā)生概率，所以信息量之和為：

兩個(gè)不相關(guān)事件同時(shí)發(fā)生的概率為：

也就是說

也就是說的函數(shù)具有性質(zhì)：

此時(shí)不難想到對(duì)數(shù)函數(shù)就有這個(gè)性質(zhì)吧，所以得出了前面定義中的自信息的計(jì)算式，以 2 為底是因?yàn)橐?bit 作為單位，也可以以 e 和 10 為底，不過單位就不是 bit 了

1.2 熵

熵（entropy），表示接收到的每條消息中包含信息的平均量，又稱為平均自信息量。所以可以按照下式計(jì)算：

1.3 交叉熵

交叉熵（cross entropy），主要用于度量兩個(gè)概率分布間的差異性。具體的，有真實(shí)概率分布，用于擬合的概率分布，用來表示中事件發(fā)生所需要的平均比特?cái)?shù)，越大表示這兩個(gè)分布之間差異性越大

1.4 KL 散度

KL 散度（kullback-leibler divergence），用于度量使用基于概率分布來編碼服從概率分布的樣本所需要的額外的平均比特?cái)?shù)，也就等于交叉熵減去熵

所以，KL 散度和交叉熵之間數(shù)值上只差了真實(shí)分布的熵，對(duì)于深度學(xué)習(xí)的損失來說，二者其實(shí)沒有差別都可以用作損失函數(shù)，因?yàn)檎鎸?shí)分布是未知的、確定的，一個(gè)常量不影響優(yōu)化過程

1.5 條件熵

條件熵（conditional entropy），表示已知隨機(jī)變量 X 的條件下隨機(jī)變量 Y 的不確定性

和熵之間的關(guān)系為：

1.6 互信息

互信息（mutual information），度量了兩個(gè)變量之間相互依賴的程度。簡單來說就是現(xiàn)有兩個(gè)變量 X 和 Y，在 Y 的條件下，X 的不確定性較少了多少

以上就是機(jī)器學(xué)習(xí)中一些常用的信息論概念及其之間的聯(lián)系。

極大似然估計(jì)與交叉熵

2.1 極大似然估計(jì)

假設(shè)現(xiàn)在我們有一組通過某個(gè)未知分布采樣得到的樣本，現(xiàn)在我們要尋找這個(gè)分布的參數(shù)，那怎么的參數(shù)算是對(duì)原分布較好的擬合的參數(shù)呢？應(yīng)該是能夠使得當(dāng)前這組樣本出現(xiàn)概率最高的參數(shù)

舉個(gè)例子，現(xiàn)有一枚硬幣，連續(xù)拋一百次，共出現(xiàn)40次正面，60次反面，現(xiàn)在要我們估計(jì)這枚硬幣拋出正面的概率。

假設(shè) ，那么得到以上100次的結(jié)果的概率為，

假設(shè) ，那么得到以上100次的結(jié)果的概率為

所以在以上 3 個(gè)選擇中，很合理地我們會(huì)認(rèn)為

下面進(jìn)行數(shù)學(xué)化描述：

假設(shè)有一組獨(dú)立同分布的樣本來自參數(shù)總體，密度函數(shù)為，那么這組樣本出現(xiàn)的概率為：

然后我們要最大化這個(gè)函數(shù)，其中視為變量，為給定的樣本（參數(shù)），優(yōu)化中通常對(duì)累乘取對(duì)數(shù)：

得到優(yōu)化目標(biāo)后，我們就可以使用例如梯度下降法進(jìn)行優(yōu)化求解，得到一個(gè) 使得對(duì)數(shù)似然函數(shù)最大化：

2. 交叉熵

交叉熵衡量的是兩個(gè)分布之間的差異，在這里，我們有不知道真實(shí)值的原始分布，現(xiàn)在我們希望盡可能合理地估計(jì) 的值，也就是估計(jì)分布，另外設(shè) 為每次實(shí)驗(yàn)出現(xiàn)的是正面還是反面，正面是 1，反面是 0，表示每次實(shí)驗(yàn)出現(xiàn)正面的概率，我們的目標(biāo)是希望估計(jì)分布和原始分布的差異盡可能小，那么根據(jù)交叉熵的計(jì)算表達(dá)式有：

以上，當(dāng) 表示當(dāng)前實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的估計(jì)概率，表示當(dāng)前的實(shí)驗(yàn)結(jié)果，取 1，所以上式可化為：

然后，最小化交叉熵就可以得到我們想要的參數(shù)?？梢钥吹胶蜆O大似然估計(jì)的目標(biāo)函數(shù)就相差了一個(gè)符號(hào)，當(dāng)極大似然估計(jì)加上一個(gè)符號(hào)，也就變成了最小化負(fù)對(duì)數(shù)極大似然估計(jì)，和交叉熵也就一致了

小結(jié)

極大似然估計(jì)和交叉熵的結(jié)果是一樣的，只是它們解決問題的角度不一樣，交叉熵從信息論的角度出發(fā)，極大似然估計(jì)從概率論的角度出發(fā)。

參考

https://zh./wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
https://www.zhihu.com/question/30828247
https://zh./wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
https://www.zhihu.com/question/24124998

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： InfoRich > 《機(jī)器學(xué)習(xí)》

舉報(bào)/認(rèn)領(lǐng)