雷鋒網(wǎng) AI 科技評論按:近日,谷歌在官方博客上開源了強(qiáng)化學(xué)習(xí)深度規(guī)劃網(wǎng)絡(luò) PlaNet,PlaNet 成功解決各種基于圖像的控制任務(wù),最終性能與先進(jìn)的無模型智能體相比,在數(shù)據(jù)處理效率方面平均提高了 5000%。雷鋒網(wǎng) AI 科技評論對此進(jìn)行編譯如下。 針對人工智能體如何隨著時間的推移改善自身決策機(jī)制的研究,當(dāng)下用得最多的方法是強(qiáng)化學(xué)習(xí)。技術(shù)實現(xiàn)上,智能體會在選擇動作(如馬達(dá)命令)的過程中觀察來自知覺輸入的流信息(如相機(jī)圖像),有時還會接收到實現(xiàn)指定目標(biāo)的獎勵。這種無模型的強(qiáng)化學(xué)習(xí)方法可以直接預(yù)測經(jīng)過知覺觀察后的行為,使 DeepMind 的 DQN 能夠玩 Atari 游戲以及使用其他智能體來操控機(jī)器人。然而,這種具有「黑箱」性質(zhì)的方法往往需要數(shù)周的模擬交互,經(jīng)過反復(fù)的試驗與試錯才能完成學(xué)習(xí),由此限制了在現(xiàn)實中的應(yīng)用。 與此相對的是,基于模型的強(qiáng)化學(xué)習(xí)試圖讓智能體習(xí)得現(xiàn)實世界的日常運行規(guī)律。并非將觀察結(jié)果直接轉(zhuǎn)化為行動,這種方法允許智能體明確提前做出計劃,通過「想象」長期回報從而更謹(jǐn)慎地采取行動。這種基于模型的強(qiáng)化學(xué)習(xí)方法實際上已取得了實質(zhì)性成功,最著名如 AlphaGo,能在熟知規(guī)則的游戲虛擬板上進(jìn)行移動操控。如果要將方法擴(kuò)大至未知環(huán)境中進(jìn)行運用(例如操控僅有像素作為輸入的機(jī)器人),智能體必須懂得自己從經(jīng)驗中習(xí)得規(guī)則。只有實現(xiàn)了這種動態(tài)模型,我們原則上才有可能進(jìn)行更高效與自然的多任務(wù)學(xué)習(xí)。創(chuàng)建出足夠準(zhǔn)確用于進(jìn)行規(guī)劃的模型,一直是強(qiáng)化學(xué)習(xí)的長期目標(biāo)。 為了讓該難點早日取得突破,我們聯(lián)手 DeepMind 推出了深度規(guī)劃網(wǎng)絡(luò)(PlaNet)智能體,該智能體僅憑圖像輸入即可習(xí)得關(guān)于世界的模型,有效擴(kuò)大模型的規(guī)劃范圍。PlaNet 成功解決各種基于圖像的控制任務(wù),最終性能與先進(jìn)的無模型智能體相比,在數(shù)據(jù)處理效率方面平均提高了 5000%。我們在社區(qū)開源了相關(guān)代碼: 開源網(wǎng)址:https://github.com/google-research/planet PlaNet 的工作原理 簡單來說,PlaNet 能在給定圖像輸入的情況下習(xí)得動態(tài)模型,并通過它高效吸收新的經(jīng)驗。與過去基于圖像進(jìn)行規(guī)劃的方法相比,我們依靠的是隱藏或潛在狀態(tài)的緊湊序列。之所以被稱作潛在動態(tài)模型,是因為它不再是從一個圖像到一個圖像來進(jìn)行直接預(yù)測,而是先預(yù)測未來的潛在狀態(tài),然后再從相應(yīng)的潛在狀態(tài)中生成每一個步驟的圖像與獎勵。通過這種方式壓縮圖像,智能體將能自動習(xí)得更多抽象表示,比如物體的位置和速度,無需全程生成圖像也能對未來的狀態(tài)進(jìn)行預(yù)測。 潛在動態(tài)學(xué)習(xí)模型:在潛在動態(tài)學(xué)習(xí)模型中,輸入圖像的信息將通過編碼器網(wǎng)絡(luò)(灰色梯形)集成到隱藏狀態(tài)(綠色)中。然后隱藏狀態(tài)再向前映射以預(yù)測未來的圖像(藍(lán)色梯形)與獎勵(藍(lán)色矩形)。 為了讓大家準(zhǔn)確把握潛在動態(tài)學(xué)習(xí)模型,我們向大家推介:
雖然預(yù)測未來圖像允許我們對模型進(jìn)行「傳授」,然而圖像的編碼和解碼(上圖中的梯形)過程有賴于大量運算,這將降低我們的規(guī)劃效率。無論如何,在緊湊的潛在狀態(tài)空間中進(jìn)行規(guī)劃依然是高效的,因為我們僅需通過預(yù)測未來的獎勵而非圖像來評估動作序列。舉個例子,即便場景無法可視化,智能體也能自行想象球的位置以及它與目標(biāo)的距離將如何因為某些動作而被改變。這也意味著,每次智能體在選擇動作時,可與大批量將近 10,000 個想象動作序列進(jìn)行對比。最后通過執(zhí)行找到最佳序列的首個動作,我們再據(jù)此重新規(guī)劃下一步。 潛在空間中進(jìn)行規(guī)劃:為了進(jìn)行規(guī)劃,我們將過去的圖像(灰色梯形)編碼變?yōu)楫?dāng)前的隱藏狀態(tài)(綠色)。據(jù)此我們有效預(yù)測多個動作序列的未來獎勵。請注意上圖里基于過去圖像的圖像解碼器(藍(lán)色梯形)是如何消失的。最后通過執(zhí)行找到最佳序列的首個動作(紅色框)。 與之前關(guān)于世界模型(world models)的工作相比,PlaNet 無需任何政策指導(dǎo)即可運作——它純粹通過規(guī)劃來選擇行動,因此可以從實時的模型改進(jìn)中受益。有關(guān)技術(shù)細(xì)節(jié)可以查看: 在線論文:https://planetrl./ PDF 文件:https:///publications/2019-planet.pdf PlaNet與無模型方法對比 我們利用連串控制任務(wù)上對 PlaNet 的表現(xiàn)進(jìn)行考察。實驗中這些智能體僅會獲得圖像觀察與獎勵。這些任務(wù)涵蓋了各種不同類型的挑戰(zhàn):
PlaNet 智能體會接受各種基于圖像的控制任務(wù)的訓(xùn)練。這些任務(wù)涵蓋了不同的挑戰(zhàn):部分可觀察性、與地面的接觸、用于接球的稀疏獎勵以及控制具有挑戰(zhàn)性的雙足機(jī)器人。 我們是第一個利用學(xué)習(xí)模型進(jìn)行基于圖像任務(wù)的規(guī)劃,然后結(jié)果優(yōu)于無模型方法的工作。下表將 PlaNet 與著名的 A3C 智能體和 D4PG 智能體進(jìn)行了對比,兩者的結(jié)合正好代表了無模型強(qiáng)化學(xué)習(xí)方法的最新進(jìn)展?;€的編號均取自 DeepMind Control Suite。最終結(jié)果顯示,PlaNet 在所有任務(wù)上的表現(xiàn)都明顯優(yōu)于 A3C,并接近 D4PG 的最終性能,在與環(huán)境的交互頻次上平均減少了 5000%。 搞定所有任務(wù)的萬能智能體(One Agent) 此外,我們還訓(xùn)練了用于解決所有六項任務(wù)的 PlaNet 萬能智能體。該智能體在不指定任務(wù)目標(biāo)的情況下被隨機(jī)放置至不同環(huán)境中,需要靠自己從圖像觀察中來推斷出任務(wù)。在不更改超參數(shù)的情況下,多任務(wù)智能體達(dá)到與萬能智能體同樣的平均性能水平。萬能智能體雖然在 cartpole 上升任務(wù)中學(xué)習(xí)速度較緩慢,然而在需要自行進(jìn)行更多探索、更具有挑戰(zhàn)性的步行者任務(wù)上表現(xiàn)出更高的學(xué)習(xí)能力與性能水平。 PlaNet 智能體在多個任務(wù)上進(jìn)行訓(xùn)練的預(yù)測視頻。經(jīng)過訓(xùn)練的智能體收集信息過程展示如上,下方是 open-loop 幻覺智能體。萬能智能體將前 5 幀視為上下文語境來推斷任務(wù)和狀態(tài),并在給定一系列動作的情況下準(zhǔn)確預(yù)測往后的 50 個步驟。 結(jié)論 我們的研究結(jié)果展示了用來建立自主強(qiáng)化學(xué)習(xí)智能體的動態(tài)學(xué)習(xí)模型的前景。我們建議往后的研究可以將重點放在如何使其通過更高難度的任務(wù)來習(xí)得更精確的動態(tài)學(xué)習(xí)模型,比如在 3D 環(huán)境和現(xiàn)實世界中的機(jī)器人任務(wù)。一個可能該研究進(jìn)一步取得突破的因素是 TPU 處理能力。我們對基于模型的強(qiáng)化學(xué)習(xí)方法在開源后的可能性感到異常興奮,其中可能受惠的領(lǐng)域包括多任務(wù)學(xué)習(xí)、分層規(guī)劃和通過不確定性進(jìn)行估計的主動探索任務(wù)等。 via https://ai./2019/02/introducing-planet-deep-planning.html 雷鋒網(wǎng) AI 科技評論 |
|