一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

深度學(xué)習(xí)中的概率論與信息論基礎(chǔ)

 InfoRich 2021-10-15

1.1 自信息

自信息(self-information),由香農(nóng)提出,是與離散隨機(jī)變量的值相關(guān)的信息量的量度,常用 bit 作為單位。通俗點(diǎn)來說就是一個(gè)隨機(jī)事件以某個(gè)概率發(fā)生時(shí)攜帶的信息量有多大??砂凑杖缦路绞接?jì)算:

思考一下為什么是上面這個(gè)形式進(jìn)行計(jì)算?首先可以考慮一個(gè)事件發(fā)生的概率越大意味著它越有可能發(fā)生,極端一點(diǎn)一個(gè)概率為 1 的事件,那么它一定會(huì)發(fā)生,所以這類事件是一個(gè)確定性事件沒什么新鮮的,也就是說它沒什么信息量。再考慮一個(gè)反向極端例子,一個(gè)概率為 0.000001 的事而發(fā)生了,這在人們心中往往是一個(gè)不可能發(fā)生的事,現(xiàn)在卻發(fā)生了,為什么會(huì)這樣?怎么發(fā)生的?人們心中一定會(huì)有各種疑問,當(dāng)需要搞清楚這個(gè)小概率事件發(fā)生的原委時(shí),人們也就從中獲取了巨大的信息量。所以信息量是隨著隨機(jī)事件發(fā)生概率單調(diào)遞減的,且非負(fù)。此時(shí)符合這個(gè)規(guī)律的候選函數(shù)還很多,比如 log(x),1/x
再考慮兩個(gè)不相關(guān)的隨機(jī)事件 X 和 Y,如果它們同時(shí)發(fā)生,那我們獲得的信息量有多少?
不相關(guān)意味著任何一方出現(xiàn)都不會(huì)讓對(duì)方更容易發(fā)生,也就是說不會(huì)影響對(duì)方的發(fā)生概率,所以信息量之和為:
兩個(gè)不相關(guān)事件同時(shí)發(fā)生的概率為:
也就是說
也就是說 的函數(shù)具有性質(zhì):

此時(shí)不難想到對(duì)數(shù)函數(shù)就有這個(gè)性質(zhì)吧,所以得出了前面定義中的自信息的計(jì)算式,以 2 為底是因?yàn)橐?bit 作為單位,也可以以 e 和 10 為底,不過單位就不是 bit 了

1.2 熵

熵(entropy),表示接收到的每條消息中包含信息的平均量,又稱為平均自信息量。所以可以按照下式計(jì)算:

1.3 交叉熵

交叉熵(cross entropy),主要用于度量兩個(gè)概率分布間的差異性。具體的,有真實(shí)概率分布 ,用于擬合 的概率分布 ,用 來表示 中事件發(fā)生所需要的平均比特?cái)?shù),越大表示這兩個(gè)分布之間差異性越大

1.4 KL 散度

KL 散度(kullback-leibler divergence),用于度量使用基于概率分布 來編碼服從概率分布 的樣本所需要的額外的平均比特?cái)?shù),也就等于交叉熵減去熵

所以,KL 散度和交叉熵之間數(shù)值上只差了真實(shí)分布的熵,對(duì)于深度學(xué)習(xí)的損失來說,二者其實(shí)沒有差別都可以用作損失函數(shù),因?yàn)檎鎸?shí)分布是未知的、確定的,一個(gè)常量不影響優(yōu)化過程

1.5 條件熵

條件熵(conditional entropy),表示已知隨機(jī)變量 X 的條件下隨機(jī)變量 Y 的不確定性

和熵之間的關(guān)系為:

1.6 互信息

互信息(mutual information),度量了兩個(gè)變量之間相互依賴的程度。簡單來說就是現(xiàn)有兩個(gè)變量 X 和 Y,在 Y 的條件下,X 的不確定性較少了多少

以上就是機(jī)器學(xué)習(xí)中一些常用的信息論概念及其之間的聯(lián)系。
Image極大似然估計(jì)與交叉熵

2.1 極大似然估計(jì)

假設(shè)現(xiàn)在我們有一組通過某個(gè)未知分布采樣得到的樣本,現(xiàn)在我們要尋找這個(gè)分布的參數(shù),那怎么的參數(shù)算是對(duì)原分布較好的擬合的參數(shù)呢?應(yīng)該是能夠使得當(dāng)前這組樣本出現(xiàn)概率最高的參數(shù)
舉個(gè)例子,現(xiàn)有一枚硬幣,連續(xù)拋一百次,共出現(xiàn)40次正面,60次反面,現(xiàn)在要我們估計(jì)這枚硬幣拋出正面的概率 。
假設(shè) ,那么得到以上100次的結(jié)果的概率為 ,
假設(shè) ,那么得到以上100次的結(jié)果的概率為 ,
假設(shè) ,那么得到以上100次的結(jié)果的概率為 
所以在以上 3 個(gè)選擇中,很合理地我們會(huì)認(rèn)為 
下面進(jìn)行數(shù)學(xué)化描述:
假設(shè)有一組獨(dú)立同分布的樣本來自參數(shù)總體 ,密度函數(shù)為 ,那么這組樣本出現(xiàn)的概率為:
然后我們要最大化這個(gè)函數(shù),其中 視為變量,為給定的樣本(參數(shù)),優(yōu)化中通常對(duì)累乘取對(duì)數(shù):
得到優(yōu)化目標(biāo)后,我們就可以使用例如梯度下降法進(jìn)行優(yōu)化求解,得到一個(gè) 使得對(duì)數(shù)似然函數(shù)最大化:

2. 交叉熵

交叉熵衡量的是兩個(gè)分布之間的差異,在這里,我們有不知道 真實(shí)值的原始分布,現(xiàn)在我們希望盡可能合理地估計(jì) 的值,也就是估計(jì)分布 ,另外設(shè) 為每次實(shí)驗(yàn)出現(xiàn)的是正面還是反面,正面是 1,反面是 0, 表示每次實(shí)驗(yàn)出現(xiàn)正面的概率, 我們的目標(biāo)是希望估計(jì)分布和原始分布的差異盡可能小,那么根據(jù)交叉熵的計(jì)算表達(dá)式有:
以上,當(dāng) 表示當(dāng)前實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的估計(jì)概率,表示當(dāng)前的實(shí)驗(yàn)結(jié)果,取 1,所以上式可化為:
然后,最小化交叉熵就可以得到我們想要的參數(shù)??梢钥吹胶蜆O大似然估計(jì)的目標(biāo)函數(shù)就相差了一個(gè)符號(hào),當(dāng)極大似然估計(jì)加上一個(gè)符號(hào),也就變成了最小化負(fù)對(duì)數(shù)極大似然估計(jì),和交叉熵也就一致了

Image小結(jié)
極大似然估計(jì)和交叉熵的結(jié)果是一樣的,只是它們解決問題的角度不一樣,交叉熵從信息論的角度出發(fā),極大似然估計(jì)從概率論的角度出發(fā)。

Image

參考

  1. https://zh./wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
  2. https://www.zhihu.com/question/30828247
  3. https://zh./wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
  4. https://www.zhihu.com/question/24124998

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    黄色av尤物白丝在线播放网址 | 亚洲精品蜜桃在线观看| 久热99中文字幕视频在线| 色欧美一区二区三区在线| 激情内射日本一区二区三区| 视频在线免费观看你懂的| 五月天丁香婷婷狠狠爱| 国产午夜在线精品视频| 午夜精品国产一区在线观看| 亚洲香艳网久久五月婷婷| 五月婷婷六月丁香狠狠| 免费久久一级欧美特大黄孕妇| 日本一本在线免费福利| 少妇特黄av一区二区三区| 国产精品不卡免费视频| 国产人妻精品区一区二区三区 | 91欧美视频在线观看免费| 国产综合香蕉五月婷在线| 亚洲专区中文字幕在线| 国产亚洲中文日韩欧美综合网| 二区久久久国产av色| 日韩精品中文字幕亚洲| 久久热九九这里只有精品| 久久精品伊人一区二区| 亚洲中文字幕在线观看黑人| 国产又大又硬又粗又湿| 欧美精品专区一区二区| 日韩精品一区二区一牛| 91爽人人爽人人插人人爽| 免费啪视频免费欧美亚洲 | 日韩成人中文字幕在线一区| 黄片美女在线免费观看| 欧洲一区二区三区自拍天堂| 国产成人高清精品尤物| 国产欧美日韩精品一区二区| 欧美大粗爽一区二区三区| 久久婷婷综合色拍亚洲| 不卡在线播放一区二区三区| 国产又大又硬又粗又湿| 日本不卡一本二本三区| 亚洲欧美日韩色图七区|