1.1 自信息自信息(self-information),由香農(nóng)提出,是與離散隨機(jī)變量的值相關(guān)的信息量的量度,常用 bit 作為單位。通俗點(diǎn)來說就是一個(gè)隨機(jī)事件以某個(gè)概率發(fā)生時(shí)攜帶的信息量有多大??砂凑杖缦路绞接?jì)算: 思考一下為什么是上面這個(gè)形式進(jìn)行計(jì)算?首先可以考慮一個(gè)事件發(fā)生的概率越大意味著它越有可能發(fā)生,極端一點(diǎn)一個(gè)概率為 1 的事件,那么它一定會(huì)發(fā)生,所以這類事件是一個(gè)確定性事件沒什么新鮮的,也就是說它沒什么信息量。再考慮一個(gè)反向極端例子,一個(gè)概率為 0.000001 的事而發(fā)生了,這在人們心中往往是一個(gè)不可能發(fā)生的事,現(xiàn)在卻發(fā)生了,為什么會(huì)這樣?怎么發(fā)生的?人們心中一定會(huì)有各種疑問,當(dāng)需要搞清楚這個(gè)小概率事件發(fā)生的原委時(shí),人們也就從中獲取了巨大的信息量。所以信息量是隨著隨機(jī)事件發(fā)生概率單調(diào)遞減的,且非負(fù)。此時(shí)符合這個(gè)規(guī)律的候選函數(shù)還很多,比如 log(x),1/x再考慮兩個(gè)不相關(guān)的隨機(jī)事件 X 和 Y,如果它們同時(shí)發(fā)生,那我們獲得的信息量有多少?不相關(guān)意味著任何一方出現(xiàn)都不會(huì)讓對(duì)方更容易發(fā)生,也就是說不會(huì)影響對(duì)方的發(fā)生概率,所以信息量之和為:兩個(gè)不相關(guān)事件同時(shí)發(fā)生的概率為:此時(shí)不難想到對(duì)數(shù)函數(shù)就有這個(gè)性質(zhì)吧,所以得出了前面定義中的自信息的計(jì)算式,以 2 為底是因?yàn)橐?bit 作為單位,也可以以 e 和 10 為底,不過單位就不是 bit 了 1.2 熵熵(entropy),表示接收到的每條消息中包含信息的平均量,又稱為平均自信息量。所以可以按照下式計(jì)算:1.3 交叉熵交叉熵(cross entropy),主要用于度量兩個(gè)概率分布間的差異性。具體的,有真實(shí)概率分布 ,用于擬合 的概率分布 ,用 來表示 中事件發(fā)生所需要的平均比特?cái)?shù),越大表示這兩個(gè)分布之間差異性越大1.4 KL 散度KL 散度(kullback-leibler divergence),用于度量使用基于概率分布 來編碼服從概率分布 的樣本所需要的額外的平均比特?cái)?shù),也就等于交叉熵減去熵所以,KL 散度和交叉熵之間數(shù)值上只差了真實(shí)分布的熵,對(duì)于深度學(xué)習(xí)的損失來說,二者其實(shí)沒有差別都可以用作損失函數(shù),因?yàn)檎鎸?shí)分布是未知的、確定的,一個(gè)常量不影響優(yōu)化過程 1.5 條件熵條件熵(conditional entropy),表示已知隨機(jī)變量 X 的條件下隨機(jī)變量 Y 的不確定性 1.6 互信息互信息(mutual information),度量了兩個(gè)變量之間相互依賴的程度。簡單來說就是現(xiàn)有兩個(gè)變量 X 和 Y,在 Y 的條件下,X 的不確定性較少了多少 以上就是機(jī)器學(xué)習(xí)中一些常用的信息論概念及其之間的聯(lián)系。極大似然估計(jì)與交叉熵2.1 極大似然估計(jì)假設(shè)現(xiàn)在我們有一組通過某個(gè)未知分布采樣得到的樣本,現(xiàn)在我們要尋找這個(gè)分布的參數(shù),那怎么的參數(shù)算是對(duì)原分布較好的擬合的參數(shù)呢?應(yīng)該是能夠使得當(dāng)前這組樣本出現(xiàn)概率最高的參數(shù)舉個(gè)例子,現(xiàn)有一枚硬幣,連續(xù)拋一百次,共出現(xiàn)40次正面,60次反面,現(xiàn)在要我們估計(jì)這枚硬幣拋出正面的概率 。假設(shè) ,那么得到以上100次的結(jié)果的概率為 ,假設(shè) ,那么得到以上100次的結(jié)果的概率為 ,假設(shè) ,那么得到以上100次的結(jié)果的概率為 所以在以上 3 個(gè)選擇中,很合理地我們會(huì)認(rèn)為 下面進(jìn)行數(shù)學(xué)化描述:假設(shè)有一組獨(dú)立同分布的樣本來自參數(shù)總體 ,密度函數(shù)為 ,那么這組樣本出現(xiàn)的概率為:然后我們要最大化這個(gè)函數(shù),其中 視為變量,為給定的樣本(參數(shù)),優(yōu)化中通常對(duì)累乘取對(duì)數(shù):得到優(yōu)化目標(biāo)后,我們就可以使用例如梯度下降法進(jìn)行優(yōu)化求解,得到一個(gè) 使得對(duì)數(shù)似然函數(shù)最大化:2. 交叉熵交叉熵衡量的是兩個(gè)分布之間的差異,在這里,我們有不知道 真實(shí)值的原始分布,現(xiàn)在我們希望盡可能合理地估計(jì) 的值,也就是估計(jì)分布 ,另外設(shè) 為每次實(shí)驗(yàn)出現(xiàn)的是正面還是反面,正面是 1,反面是 0, 表示每次實(shí)驗(yàn)出現(xiàn)正面的概率, 我們的目標(biāo)是希望估計(jì)分布和原始分布的差異盡可能小,那么根據(jù)交叉熵的計(jì)算表達(dá)式有:以上,當(dāng) 表示當(dāng)前實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的估計(jì)概率,表示當(dāng)前的實(shí)驗(yàn)結(jié)果,取 1,所以上式可化為:然后,最小化交叉熵就可以得到我們想要的參數(shù)??梢钥吹胶蜆O大似然估計(jì)的目標(biāo)函數(shù)就相差了一個(gè)符號(hào),當(dāng)極大似然估計(jì)加上一個(gè)符號(hào),也就變成了最小化負(fù)對(duì)數(shù)極大似然估計(jì),和交叉熵也就一致了小結(jié)極大似然估計(jì)和交叉熵的結(jié)果是一樣的,只是它們解決問題的角度不一樣,交叉熵從信息論的角度出發(fā),極大似然估計(jì)從概率論的角度出發(fā)。
參考
- https://zh./wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
- https://www.zhihu.com/question/30828247
- https://zh./wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
- https://www.zhihu.com/question/24124998
|