一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

蘑菇街面試:Momentum 沖量

 雪柳花明 2017-08-30


自適應學習速率

上篇文章講梯度下降時提到過學習速率η,它對訓練效果也起到很重要的影響,如果η過大,那每次更新后,總誤差可能并不會縮小;而如果η過小,那訓練速度又會變得相當慢。所以我們很自然的有這樣的想法,學習速率η不應該是一直不變的,我們希望這個學習速率η能夠隨著每次epoch而減小。

Adagrad就是針對這一問題提出的,自適應地為各個參數(shù)分配不同學習率的算法。其公式如下:


Adagrad

學習速率η不再恒定不變,而是根據(jù)上式持續(xù)更新,下面的分母會隨著迭代次數(shù)的增加累加gi,gi是第i次更新所得到偏導數(shù)。

也即,對于所有的參數(shù)來講,學習速率都是越來越小的。而且,偏導越小,學習速率減小的就越慢。

第一條很好理解,第二條要簡單解釋一下,如果偏導很小,說明本來的更新速率就很小,如果再將學習速率這個參數(shù)以一個較快的速度減小,那這個維度下的總參數(shù)更新速率就會變的過慢。

當然Adagrad也不是唯一的算法,擁有類似功能的還有RMSprop、Adadelta、AdaSecant、Adam等,而且一般而言Adam是目前的最優(yōu)選擇。



Momentum

我們考慮這樣一個問題,如果單純的只靠梯度來作為權重更新的唯一依據(jù),會出現(xiàn)什么樣的問題,如下圖所示:


當梯度非常小,也即曲面在對應維度上非常平緩時,權重的更新會變得相當慢;在鞍點,也即偏導數(shù)為0的點,該維度權重會停止更新;而且也很容易停留在局部最小值而達不到全局最小值。

Momentum是沖量的意思,不過我們可以簡單的把它理解為慣性,把梯度下降看做一個小球沿曲線滑落的過程,這樣即便在梯度為零的點,也能以一個較快的速度進行梯度下降,甚至還有可能幫助損失函數(shù)突破局部最小值的限制,到達全局最小值。

前面所提到的表現(xiàn)優(yōu)秀的Adam算法,就相當于RMSProp (高級版Adagrad) + Momentum。



作者:我偏笑_NSNirvana
鏈接:http://www.jianshu.com/p/df9a4473d6d4
來源:簡書
著作權歸作者所有。商業(yè)轉載請聯(lián)系作者獲得授權,非商業(yè)轉載請注明出處。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    99久久精品午夜一区二| 日韩一区二区免费在线观看| 国产男女激情在线视频| 国产午夜在线精品视频| 精品偷拍一区二区三区| 粉嫩内射av一区二区| 五月激情综合在线视频| 亚洲国产日韩欧美三级| 久久99精品国产麻豆婷婷洗澡 | 亚洲国产丝袜一区二区三区四| 中文字幕日产乱码一区二区| 亚洲精品中文字幕欧美| 日韩高清中文字幕亚洲| 日韩特级黄片免费在线观看| 精品人妻一区二区三区在线看 | 亚洲高清一区二区高清| 日本和亚洲的香蕉视频| 国产日本欧美韩国在线| 日本妇女高清一区二区三区| 免费在线成人午夜视频| 日韩一区欧美二区国产| 久久99爱爱视频视频| 日韩少妇人妻中文字幕| 国产麻豆成人精品区在线观看| 五月婷婷欧美中文字幕| 国产欧美一区二区三区精品视| 色婷婷国产精品视频一区二区保健| 日本不卡视频在线观看| 日本高清一区免费不卡| av国产熟妇露脸在线观看| 午夜福利在线观看免费| 又黄又硬又爽又色的视频| 中文字幕在线区中文色| 国内女人精品一区二区三区| 日本淫片一区二区三区| 国产免费人成视频尤物| 国产爆操白丝美女在线观看| 国产日产欧美精品视频| 欧美日韩有码一二三区| 久久三级国外久久久三级| 大香蕉大香蕉手机在线视频|