一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

 昵稱11935121 2018-07-14

 

來自加州大學(xué)伯克利分校的博士生唐浩然(Haoran Tang)和Tuomas Haarnoja今天發(fā)表博客文章,介紹了他們的一項(xiàng)新研究。原標(biāo)題《通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能》,以下是文章的主要內(nèi)容。

標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí),旨在掌握單一方法來解決給定的任務(wù)。但只有一種解決方案是不夠的,因?yàn)橹悄荏w很容易受到現(xiàn)實(shí)世界中常見環(huán)境變化的影響。

例如,一個(gè)在簡(jiǎn)單迷宮中尋找目標(biāo)的機(jī)器人,在訓(xùn)練的時(shí)候,智能體學(xué)會(huì)了從上部通道找到目標(biāo)的方法,因?yàn)檫@個(gè)距離較短。然而之后如果我們堵住上部通道,智能體發(fā)現(xiàn)原來掌握的技能不可行,但不知道還可以選擇下部通道。最后只能重新訓(xùn)練智能體。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

繼續(xù)以上述智能體為例。智能體反復(fù)觀察當(dāng)前狀態(tài)(s),采取行動(dòng)(a),獲得獎(jiǎng)勵(lì)(r)。我們將函數(shù)Q(s,a)定義為在狀態(tài)s下執(zhí)行a行動(dòng)之后的預(yù)期累積獎(jiǎng)勵(lì)。常規(guī)的強(qiáng)化學(xué)習(xí)方法是以指定最大Q值為中心的單峰策略分布,這導(dǎo)致下層通道完全被忽略。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

另一種解決方案是確保智能體探索全部狀態(tài),同時(shí)優(yōu)先考慮更有希望的狀態(tài)。如上圖右側(cè)所示,這個(gè)密度具有玻爾茲曼分布的形式。這個(gè)方法讓智能體掌握所有的解決方案,以應(yīng)對(duì)某些方案失效的情況。作者證明,通過能量形式定義的政策是最大熵強(qiáng)化學(xué)習(xí)目標(biāo)的最優(yōu)解。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

學(xué)習(xí)這種最大熵模型的思想源自統(tǒng)計(jì)建模,其目標(biāo)是找到具有最高熵的概率分布,同時(shí)仍然滿足觀察統(tǒng)計(jì)。在實(shí)踐中,我們偏愛最大熵模型,因?yàn)樗鼈冊(cè)趯?duì)觀察信息進(jìn)行匹配的同時(shí),對(duì)未知數(shù)的估計(jì)最少。此前也有不少類似的研究。

我們可以通過Soft Bellman方程來獲得最大熵目標(biāo)的最優(yōu)解。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

此處

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

不過在連續(xù)域上仍有兩個(gè)主要的挑戰(zhàn)。首先,精確的動(dòng)態(tài)規(guī)劃是不可行的,其次,最優(yōu)策略是由難以采樣的能量分配來定義的。

解決第一個(gè)挑戰(zhàn),作者采用了表達(dá)神經(jīng)網(wǎng)絡(luò)函數(shù)近似,對(duì)采樣狀態(tài)和動(dòng)作進(jìn)行隨機(jī)梯度下降訓(xùn)練,然后推廣到新的狀態(tài)動(dòng)作元組。解決第二個(gè)挑戰(zhàn),采用了近似推理技術(shù),例如馬可夫鏈蒙特卡洛,并使用Stein變異梯度下降來加速推理。所得到的算法稱為soft Q-learning。

通過soft Q-learning來學(xué)習(xí)最大熵的策略,在實(shí)踐中表現(xiàn)如何?

作者通過實(shí)驗(yàn)證明,這種方法能夠更好的進(jìn)行探索,實(shí)現(xiàn)類似任務(wù)之間的策略遷移,能從現(xiàn)有策略中輕松組成新策略,并提高穩(wěn)健性。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

這里有個(gè)遷移策略的例子。兩個(gè)對(duì)應(yīng)不同行為的策略,將Q函數(shù)疊加在一起,能掌握新的技能。如下圖所示,策略1的智能體被訓(xùn)練將圓柱體移動(dòng)到紅色豎紋的位置,策略2測(cè)試移動(dòng)到紅色橫紋。兩個(gè)策略疊加,就能讓智能體把圓柱移到紅點(diǎn)的位置。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

關(guān)于穩(wěn)健性作者也給了一個(gè)例子。下面這個(gè)機(jī)器人學(xué)會(huì)了拼樂高積木,即使期間被干擾,也能成功的把樂高積木拼起來。

伯克利新研究:通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能 

— 完 — 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产美女精品午夜福利视频| 日韩欧美国产精品中文字幕| 福利视频一区二区在线| 日韩不卡一区二区在线| 日韩性生活片免费观看| 国产免费一区二区三区av大片| 亚洲一区二区三区福利视频| 又黄又硬又爽又色的视频| 97人摸人人澡人人人超碰| 欧美日韩亚洲国产av| 性感少妇无套内射在线视频 | 日韩一区二区三区18| 91在线国内在线中文字幕| 99精品国产自在现线观看| 亚洲欧美日韩中文字幕二欧美| 久久永久免费一区二区| 国产成人午夜av一区二区| 亚洲免费观看一区二区三区| 亚洲色图欧美另类人妻| 老熟女露脸一二三四区| 真实偷拍一区二区免费视频| 国产又猛又大又长又粗| 日韩欧美一区二区久久婷婷| 免费特黄一级一区二区三区| 狠狠亚洲丁香综合久久| 日本不卡视频在线观看| 在线中文字幕亚洲欧美一区| 亚洲高清中文字幕一区二三区 | 中文字幕人妻日本一区二区| 自拍偷拍福利视频在线观看| 国产精品一区二区视频成人 | 日韩av亚洲一区二区三区| 日韩中文无线码在线视频| 色丁香之五月婷婷开心| 国产午夜福利一区二区| 日韩日韩日韩日韩在线| 在线中文字幕亚洲欧美一区| 色偷偷偷拍视频在线观看| 丁香六月啪啪激情综合区| 美女被啪的视频在线观看 | 九九热精彩视频在线免费|