來自加州大學(xué)伯克利分校的博士生唐浩然(Haoran Tang)和Tuomas Haarnoja今天發(fā)表博客文章,介紹了他們的一項(xiàng)新研究。原標(biāo)題《通過最大熵深度強(qiáng)化學(xué)習(xí)掌握不同的技能》,以下是文章的主要內(nèi)容。 標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí),旨在掌握單一方法來解決給定的任務(wù)。但只有一種解決方案是不夠的,因?yàn)橹悄荏w很容易受到現(xiàn)實(shí)世界中常見環(huán)境變化的影響。 例如,一個(gè)在簡(jiǎn)單迷宮中尋找目標(biāo)的機(jī)器人,在訓(xùn)練的時(shí)候,智能體學(xué)會(huì)了從上部通道找到目標(biāo)的方法,因?yàn)檫@個(gè)距離較短。然而之后如果我們堵住上部通道,智能體發(fā)現(xiàn)原來掌握的技能不可行,但不知道還可以選擇下部通道。最后只能重新訓(xùn)練智能體。 繼續(xù)以上述智能體為例。智能體反復(fù)觀察當(dāng)前狀態(tài)(s),采取行動(dòng)(a),獲得獎(jiǎng)勵(lì)(r)。我們將函數(shù)Q(s,a)定義為在狀態(tài)s下執(zhí)行a行動(dòng)之后的預(yù)期累積獎(jiǎng)勵(lì)。常規(guī)的強(qiáng)化學(xué)習(xí)方法是以指定最大Q值為中心的單峰策略分布,這導(dǎo)致下層通道完全被忽略。 另一種解決方案是確保智能體探索全部狀態(tài),同時(shí)優(yōu)先考慮更有希望的狀態(tài)。如上圖右側(cè)所示,這個(gè)密度具有玻爾茲曼分布的形式。這個(gè)方法讓智能體掌握所有的解決方案,以應(yīng)對(duì)某些方案失效的情況。作者證明,通過能量形式定義的政策是最大熵強(qiáng)化學(xué)習(xí)目標(biāo)的最優(yōu)解。 學(xué)習(xí)這種最大熵模型的思想源自統(tǒng)計(jì)建模,其目標(biāo)是找到具有最高熵的概率分布,同時(shí)仍然滿足觀察統(tǒng)計(jì)。在實(shí)踐中,我們偏愛最大熵模型,因?yàn)樗鼈冊(cè)趯?duì)觀察信息進(jìn)行匹配的同時(shí),對(duì)未知數(shù)的估計(jì)最少。此前也有不少類似的研究。 我們可以通過Soft Bellman方程來獲得最大熵目標(biāo)的最優(yōu)解。 此處 不過在連續(xù)域上仍有兩個(gè)主要的挑戰(zhàn)。首先,精確的動(dòng)態(tài)規(guī)劃是不可行的,其次,最優(yōu)策略是由難以采樣的能量分配來定義的。 解決第一個(gè)挑戰(zhàn),作者采用了表達(dá)神經(jīng)網(wǎng)絡(luò)函數(shù)近似,對(duì)采樣狀態(tài)和動(dòng)作進(jìn)行隨機(jī)梯度下降訓(xùn)練,然后推廣到新的狀態(tài)動(dòng)作元組。解決第二個(gè)挑戰(zhàn),采用了近似推理技術(shù),例如馬可夫鏈蒙特卡洛,并使用Stein變異梯度下降來加速推理。所得到的算法稱為soft Q-learning。 通過soft Q-learning來學(xué)習(xí)最大熵的策略,在實(shí)踐中表現(xiàn)如何? 作者通過實(shí)驗(yàn)證明,這種方法能夠更好的進(jìn)行探索,實(shí)現(xiàn)類似任務(wù)之間的策略遷移,能從現(xiàn)有策略中輕松組成新策略,并提高穩(wěn)健性。 這里有個(gè)遷移策略的例子。兩個(gè)對(duì)應(yīng)不同行為的策略,將Q函數(shù)疊加在一起,能掌握新的技能。如下圖所示,策略1的智能體被訓(xùn)練將圓柱體移動(dòng)到紅色豎紋的位置,策略2測(cè)試移動(dòng)到紅色橫紋。兩個(gè)策略疊加,就能讓智能體把圓柱移到紅點(diǎn)的位置。 關(guān)于穩(wěn)健性作者也給了一個(gè)例子。下面這個(gè)機(jī)器人學(xué)會(huì)了拼樂高積木,即使期間被干擾,也能成功的把樂高積木拼起來。
— 完 — |
|