一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

這些神經(jīng)網(wǎng)絡(luò)調(diào)參細(xì)節(jié),你都了解了嗎

 太極混元天尊 2018-05-08


閱讀大概需要4分鐘

跟隨小博主,每天進(jìn)步一丟丟


今天在寫本科畢業(yè)論文的時(shí)候又回顧了一下神經(jīng)網(wǎng)絡(luò)調(diào)參的一些細(xì)節(jié)問(wèn)題,特來(lái)總結(jié)下。主要從weight_decayclip_norm,lr_decay說(shuō)起。


以前剛?cè)腴T的時(shí)候調(diào)參只是從hidden_sizehidden_num,batch_sizelr,embed_size開(kāi)始調(diào),但是后來(lái)才逐漸明白embed_size一般是設(shè)置完后不用再調(diào)的,比如設(shè)定為128后,就不要調(diào)了,因?yàn)閑mbed_size只是表示將詞嵌入到幾維的空間而已。lr也一般都有固定值,比如選取優(yōu)化器Adam的時(shí)候,lr=0.001,選取優(yōu)化器SGD的時(shí)候,lr=0.01,hidden_num一般設(shè)置為1的時(shí)候就行,2層以上在簡(jiǎn)單的網(wǎng)絡(luò)上只會(huì)到的適得其反的效果。


所以剩下該調(diào)的也只有hidden_size,batch_size,weight_decay,clip_norm,lr_decay了。但是hidden_size,batch_size大家應(yīng)該知道怎么調(diào),這里就不講了。還有其他的調(diào)參細(xì)節(jié)部分,等以后詳細(xì)用到了再總結(jié)給大家。


weight_decay

weight_decay權(quán)重衰退。為了防止過(guò)擬合,在原本損失函數(shù)的基礎(chǔ)上,加上L2正則化,而weight_decay就是這個(gè)正則化的lambda參數(shù),一般設(shè)置為1e-8,所以調(diào)參的時(shí)候調(diào)整是否使用權(quán)重衰退即可。這個(gè)防止過(guò)擬合的正則化我之前和dropout一起講過(guò)的,想要鞏固下,點(diǎn)這里

pytorch實(shí)現(xiàn)代碼:

self.HyperParams里封裝的就是我的所有參數(shù),而decay是這里說(shuō)的weight_decay,值為1e-8.

對(duì)weight_decay我做了實(shí)驗(yàn),數(shù)據(jù)對(duì)比

F1為一個(gè)評(píng)測(cè)值,想了解的更加詳細(xì)的,點(diǎn)這里
可以從實(shí)驗(yàn)看出weight_decay還是有點(diǎn)效果的,但不是對(duì)所有的試驗(yàn)有效果,所以這也是調(diào)參的一部分。


clip_norm

clip_grad修剪梯度,為了防止梯度爆炸(gradient explosion)。


原理為:損失函數(shù)反向傳播的時(shí)候,使得每個(gè)參數(shù)都有了梯度gradient,如果所有的梯度平方和sum_sq_gradient大于clip_grad,那么求出縮放因子:

接著改變每個(gè)gradient,使每個(gè)gradient都乘scale_factor,達(dá)到縮放的效果,使每個(gè)梯度的sum_sq_gradient都被限制在clip_grad里,來(lái)達(dá)到防止梯度爆炸的效果。通常設(shè)置為10,那么調(diào)參的內(nèi)容為是否需要clip_grad機(jī)制。


pytorch代碼為(只看紅框框里的就行):

接整個(gè)圖的目的是表示在哪里用這個(gè)函數(shù)。在網(wǎng)絡(luò)獲得損失,并進(jìn)行后向傳播梯度后用該方法,之后進(jìn)行優(yōu)化,更新參數(shù)即可。

數(shù)據(jù)對(duì)比

可以看出有那么一丟丟效果。隨著不同的數(shù)據(jù)集,效果還是不一樣的。


lr_decay

lr_decay學(xué)習(xí)率衰退,一般設(shè)置為1e-8,公式為:

其中,lr為學(xué)習(xí)率,step為當(dāng)前迭代次數(shù)


因?yàn)橐话闱闆r下循環(huán)迭代次數(shù)越多的時(shí)候,學(xué)習(xí)率的步伐就應(yīng)該越來(lái)越小,這樣才能慢慢接近函數(shù)的極值點(diǎn),。但是有時(shí)候也不一定會(huì)有效,所以這里需要通過(guò)調(diào)參來(lái)查看是否需要開(kāi)啟lr_decay。


pytorch代碼為:


數(shù)據(jù)對(duì)比:

依然那句話,不是所有的數(shù)據(jù)集都會(huì)有好的效果,需要自己調(diào)試,選擇適合自己模型的參數(shù)。


IELTS a bit


chill n.寒冷;寒意;寒心

       adj.寒冷的;冷漠的;掃興的

       vt.冷凍,冷藏;使寒心,使感到冷

       vi.冷藏;變冷

prescription n.藥方;指示;慣性

mantle n.地幔;斗篷;覆蓋物

            vi. 覆蓋;臉紅

            vt.覆蓋

            n.人名;曼特爾

ascend vi.上升;登高;追溯

            vt.攀登;上升

hypothesis n. 假設(shè)


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    扒开腿狂躁女人爽出白浆av| 国产免费成人激情视频| 四季精品人妻av一区二区三区 | 扒开腿狂躁女人爽出白浆av| 日本淫片一区二区三区| 国产美女网红精品演绎| 欧美自拍偷自拍亚洲精品| 午夜福利在线观看免费| 国产精品欧美激情在线观看| 日本不卡在线视频你懂的| 儿媳妇的诱惑中文字幕| 欧美三级精品在线观看| 欧美日韩乱一区二区三区| 中文字幕91在线观看| 欧美日韩国产的另类视频| 真实国产乱子伦对白视频不卡| 精品偷拍一区二区三区| 久久婷婷综合色拍亚洲| 噜噜中文字幕一区二区| 麻豆在线观看一区二区| 九九热视频网在线观看| 亚洲中文字幕乱码亚洲| 儿媳妇的诱惑中文字幕| 日本视频在线观看不卡| 少妇在线一区二区三区| 日本精品最新字幕视频播放| 日韩一区中文免费视频| 亚洲综合香蕉在线视频| 日本不卡一区视频欧美| 国产一区欧美午夜福利| 精品人妻一区二区三区免费看| 日本久久精品在线观看| 女人精品内射国产99| 国产免费无遮挡精品视频| 午夜精品国产精品久久久| 麻豆精品视频一二三区| 中国美女草逼一级黄片视频| 亚洲a码一区二区三区| 日韩欧美综合在线播放| 丝袜破了有美女肉体免费观看 | 亚洲黄香蕉视频免费看|