一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

<tbody id="gq9va"></tbody>

搜索

分享

QQ空間 QQ好友新浪微博微信

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

昵稱11935121 2018-07-14

展開全文

來自加州大學(xué)伯克利分校的博士生唐浩然（Haoran Tang）和Tuomas Haarnoja今天發(fā)表博客文章，介紹了他們的一項(xiàng)新研究。原標(biāo)題《通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能》，以下是文章的主要內(nèi)容。

標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí)，旨在掌握單一方法來解決給定的任務(wù)。但只有一種解決方案是不夠的，因?yàn)橹悄荏w很容易受到現(xiàn)實(shí)世界中常見環(huán)境變化的影響。

例如，一個(gè)在簡(jiǎn)單迷宮中尋找目標(biāo)的機(jī)器人，在訓(xùn)練的時(shí)候，智能體學(xué)會(huì)了從上部通道找到目標(biāo)的方法，因?yàn)檫@個(gè)距離較短。然而之后如果我們堵住上部通道，智能體發(fā)現(xiàn)原來掌握的技能不可行，但不知道還可以選擇下部通道。最后只能重新訓(xùn)練智能體。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

繼續(xù)以上述智能體為例。智能體反復(fù)觀察當(dāng)前狀態(tài)（s），采取行動(dòng)（a），獲得獎(jiǎng)勵(lì)（r）。我們將函數(shù)Q（s，a）定義為在狀態(tài)s下執(zhí)行a行動(dòng)之后的預(yù)期累積獎(jiǎng)勵(lì)。常規(guī)的強(qiáng)化學(xué)習(xí)方法是以指定最大Q值為中心的單峰策略分布，這導(dǎo)致下層通道完全被忽略。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

另一種解決方案是確保智能體探索全部狀態(tài)，同時(shí)優(yōu)先考慮更有希望的狀態(tài)。如上圖右側(cè)所示，這個(gè)密度具有玻爾茲曼分布的形式。這個(gè)方法讓智能體掌握所有的解決方案，以應(yīng)對(duì)某些方案失效的情況。作者證明，通過能量形式定義的政策是最大熵強(qiáng)化學(xué)習(xí)目標(biāo)的最優(yōu)解。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

學(xué)習(xí)這種最大熵模型的思想源自統(tǒng)計(jì)建模，其目標(biāo)是找到具有最高熵的概率分布，同時(shí)仍然滿足觀察統(tǒng)計(jì)。在實(shí)踐中，我們偏愛最大熵模型，因?yàn)樗鼈冊(cè)趯?duì)觀察信息進(jìn)行匹配的同時(shí)，對(duì)未知數(shù)的估計(jì)最少。此前也有不少類似的研究。

我們可以通過Soft Bellman方程來獲得最大熵目標(biāo)的最優(yōu)解。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

此處

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

不過在連續(xù)域上仍有兩個(gè)主要的挑戰(zhàn)。首先，精確的動(dòng)態(tài)規(guī)劃是不可行的，其次，最優(yōu)策略是由難以采樣的能量分配來定義的。

解決第一個(gè)挑戰(zhàn)，作者采用了表達(dá)神經(jīng)網(wǎng)絡(luò)函數(shù)近似，對(duì)采樣狀態(tài)和動(dòng)作進(jìn)行隨機(jī)梯度下降訓(xùn)練，然后推廣到新的狀態(tài)動(dòng)作元組。解決第二個(gè)挑戰(zhàn)，采用了近似推理技術(shù)，例如馬可夫鏈蒙特卡洛，并使用Stein變異梯度下降來加速推理。所得到的算法稱為soft Q-learning。

通過soft Q-learning來學(xué)習(xí)最大熵的策略，在實(shí)踐中表現(xiàn)如何？

作者通過實(shí)驗(yàn)證明，這種方法能夠更好的進(jìn)行探索，實(shí)現(xiàn)類似任務(wù)之間的策略遷移，能從現(xiàn)有策略中輕松組成新策略，并提高穩(wěn)健性。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

這里有個(gè)遷移策略的例子。兩個(gè)對(duì)應(yīng)不同行為的策略，將Q函數(shù)疊加在一起，能掌握新的技能。如下圖所示，策略1的智能體被訓(xùn)練將圓柱體移動(dòng)到紅色豎紋的位置，策略2測(cè)試移動(dòng)到紅色橫紋。兩個(gè)策略疊加，就能讓智能體把圓柱移到紅點(diǎn)的位置。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

關(guān)于穩(wěn)健性作者也給了一個(gè)例子。下面這個(gè)機(jī)器人學(xué)會(huì)了拼樂高積木，即使期間被干擾，也能成功的把樂高積木拼起來。

伯克利新研究：通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能

— 完 —

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：昵稱11935121 > 《未命名》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

請(qǐng)遵守用戶評(píng)論公約

類似文章 更多

昵稱11935121

關(guān)注對(duì)話

TA的最新館藏

新手掃盲, 教你汽車AC鍵應(yīng)該如何用!
你是哪種睡姿，就是哪種人，神準(zhǔn)！
做人不要“窮老實(shí)”，在這三個(gè)方面要學(xué)會(huì)“硬”一點(diǎn)
易經(jīng)學(xué)習(xí)-八卦解析掌訣圖掐指神算秘訣大全！
你知道旗袍的腿部?jī)蛇厼楹我_叉嗎？說出來你可能不信！
從手機(jī)批量轉(zhuǎn)移照片和視頻到電腦的4種方法，最后一種最實(shí)用！

喜歡該文的人也喜歡更多

熱門閱讀換一換

国产美女精品午夜福利视频| 日韩欧美国产精品中文字幕| 福利视频一区二区在线| 日韩不卡一区二区在线| 日韩性生活片免费观看| 国产免费一区二区三区av大片| 亚洲一区二区三区福利视频| 又黄又硬又爽又色的视频| 97人摸人人澡人人人超碰| 欧美日韩亚洲国产av| 性感少妇无套内射在线视频 | 日韩一区二区三区18| 91在线国内在线中文字幕| 99精品国产自在现线观看| 亚洲欧美日韩中文字幕二欧美| 久久永久免费一区二区| 国产成人午夜av一区二区| 亚洲免费观看一区二区三区| 亚洲色图欧美另类人妻| 老熟女露脸一二三四区| 真实偷拍一区二区免费视频| 国产又猛又大又长又粗| 日韩欧美一区二区久久婷婷| 免费特黄一级一区二区三区| 狠狠亚洲丁香综合久久| 日本不卡视频在线观看| 在线中文字幕亚洲欧美一区| 亚洲高清中文字幕一区二三区 | 中文字幕人妻日本一区二区| 自拍偷拍福利视频在线观看| 国产精品一区二区视频成人 | 日韩av亚洲一区二区三区| 日韩中文无线码在线视频| 色丁香之五月婷婷开心| 国产午夜福利一区二区| 日韩日韩日韩日韩在线| 在线中文字幕亚洲欧美一区| 色偷偷偷拍视频在线观看| 丁香六月啪啪激情综合区| 美女被啪的视频在线观看 | 九九热精彩视频在线免费|

<menu id="uksgg"><progress id="uksgg"></progress></menu>