一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

深度強(qiáng)化學(xué)習(xí)入門,這一篇就夠了!

 LibraryPKU 2018-08-18

對于大腦的工作原理,我們知之甚少,但是我們知道大腦能通過反復(fù)嘗試來學(xué)習(xí)知識。我們做出合適選擇時會得到獎勵,做出不切當(dāng)選擇時會受到懲罰,這也是我們來適應(yīng)環(huán)境的方式。如今,我們可以利用強(qiáng)大的計算能力,在軟件中對這個具體過程進(jìn)行建模,這就是強(qiáng)化學(xué)習(xí)。

最近,Algorithmia博客上的一篇文章,從基礎(chǔ)知識、決策過程、實(shí)際應(yīng)用、實(shí)踐挑戰(zhàn)和學(xué)習(xí)資源五個方面,詳細(xì)地介紹了強(qiáng)化學(xué)習(xí)。

基礎(chǔ)知識

我們可以用電子游戲來理解強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),這是一種最簡單的心智模型。恰好,電子游戲也是強(qiáng)化學(xué)習(xí)算法中應(yīng)用最廣泛的一個領(lǐng)域。在經(jīng)典電子游戲中,有以下幾類對象:

  • 代理(agent,即智能體),可自由移動,對應(yīng)玩家;

  • 動作,由代理做出,包括向上移動和出售物品等;

  • 獎勵,由代理獲得,包括金幣和殺死其他玩家等;

  • 環(huán)境,指代理所處的地圖或房間等;

  • 狀態(tài),指代理的當(dāng)前狀態(tài),如位于地圖中某個特定方塊或房間中某個角落;

  • 目標(biāo),指代理目標(biāo)為獲得盡可能多的獎勵;

上面這些對象是強(qiáng)化學(xué)習(xí)的具體組成部分,當(dāng)然也可仿照得到機(jī)器學(xué)習(xí)的各部分。在強(qiáng)化學(xué)習(xí)中,設(shè)置好環(huán)境后,我們能通過逐個狀態(tài)來指導(dǎo)代理,當(dāng)代理做出正確動作時會得到獎勵。如果你了解馬爾科夫決策過程(https://en./wiki/Markov_decision_process),那就能更好理解上述過程。

下圖的迷宮中,有一只老鼠:

想象下你是那只老鼠,為了在迷宮中盡可能多地收集獎勵(水滴和奶酪),你會怎么做?在每個狀態(tài)下,即迷宮中的位置,你要計算出為獲得附近獎勵需要采取哪些步驟。當(dāng)右邊有3個獎勵,左邊有1個獎勵,你會選擇往右走。

這就是強(qiáng)化學(xué)習(xí)的工作原理。在每個狀態(tài)下,代理會對所有可能動作(上下左右)進(jìn)行計算和評估,并選擇能獲得最多獎勵的動作。進(jìn)行若干步后,迷宮中的小鼠會熟悉這個迷宮。

但是,該如何確定哪個動作會得到最佳結(jié)果?

決策過程

強(qiáng)化學(xué)習(xí)中的決策(Decision Making),即如何讓代理在強(qiáng)化學(xué)習(xí)環(huán)境中做出正確動作,這里給了兩個方式。

策略學(xué)習(xí)

策略學(xué)習(xí)(Policy Learning),可理解為一組很詳細(xì)的指示,它能告訴代理在每一步該做的動作。這個策略可比喻為:當(dāng)你靠近敵人時,若敵人比你強(qiáng),就往后退。我們也可以把這個策略看作是函數(shù),它只有一個輸入,即代理當(dāng)前狀態(tài)。但是要事先知道你的策略并不是件容易事,我們要深入理解這個把狀態(tài)映射到目標(biāo)的復(fù)雜函數(shù)。

用深度學(xué)習(xí)來探索強(qiáng)化學(xué)習(xí)場景下的策略問題,這方面有一些有趣研究。Andrej Karpathy構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)來教代理打乒乓球(http://karpathy./2016/05/31/rl/)。這聽起來并不驚奇,因?yàn)樯窠?jīng)網(wǎng)絡(luò)能很好地逼近任意復(fù)雜的函數(shù)。

   乒乓球  

Q-Learning算法

另一個指導(dǎo)代理的方式是給定框架后讓代理根據(jù)當(dāng)前環(huán)境獨(dú)自做出動作,而不是明確地告訴它在每個狀態(tài)下該執(zhí)行的動作。與策略學(xué)習(xí)不同,Q-Learning算法有兩個輸入,分別是狀態(tài)和動作,并為每個狀態(tài)動作對返回對應(yīng)值。當(dāng)你面臨選擇時,這個算法會計算出該代理采取不同動作(上下左右)時對應(yīng)的期望值。

Q-Learning的創(chuàng)新點(diǎn)在于,它不僅估計了當(dāng)前狀態(tài)下采取行動的短時價值,還能得到采取指定行動后可能帶來的潛在未來價值。這與企業(yè)融資中的貼現(xiàn)現(xiàn)金流分析相似,它在確定一個行動的當(dāng)前價值時也會考慮到所有潛在未來價值。由于未來獎勵會少于當(dāng)前獎勵,因此Q-Learning算法還會使用折扣因子來模擬這個過程。

策略學(xué)習(xí)和Q-Learning算法是強(qiáng)化學(xué)習(xí)中指導(dǎo)代理的兩種主要方法,但是有些研究者嘗試使用深度學(xué)習(xí)技術(shù)結(jié)合這兩者,或提出了其他創(chuàng)新解決方案。DeepMind提出了一種神經(jīng)網(wǎng)絡(luò)(https://storage./deepmind-media/dqn/DQNNaturePaper.pdf),叫做深度Q網(wǎng)絡(luò)(Deep Q Networks, DQN),來逼近Q-Learning函數(shù),并取得了很不錯的效果。后來,他們把Q-Learning方法和策略學(xué)習(xí)結(jié)合在一起,提出了一種叫A3C的方法(https:///abs/1602.01783)。

把神經(jīng)網(wǎng)絡(luò)和其他方法相結(jié)合,這樣聽起來可能很復(fù)雜。請記住,這些訓(xùn)練算法都只有一個簡單目標(biāo),就是在整個環(huán)境中有效指導(dǎo)代理來獲得最大回報。

實(shí)際應(yīng)用

雖然強(qiáng)化學(xué)習(xí)研究已經(jīng)開展了數(shù)十年,但是據(jù)報告指出,它在當(dāng)前商業(yè)環(huán)境中的落地還十分有限(https://www./ideas/practical-applications-of-reinforcement-learning-in-industry)。這里面有很多方面原因,但都面臨一個共同問題:強(qiáng)化學(xué)習(xí)在一些任務(wù)上的表現(xiàn)與當(dāng)前應(yīng)用算法仍有一定差距。

過去十年中,強(qiáng)化學(xué)習(xí)的大部分應(yīng)用都在電子游戲方面。最新的強(qiáng)化學(xué)習(xí)算法在經(jīng)典和現(xiàn)代游戲中取得了很不錯的效果,在有些游戲中還以較大優(yōu)勢擊敗了人類玩家。

上圖源自DeepMind的DQN論文。在超過一半的測試游戲中,論文中的代理能夠優(yōu)于人類測試基準(zhǔn),通常為人類水平的兩倍。但在一些游戲中,這個算法的表現(xiàn)差于人類水平。

強(qiáng)化學(xué)習(xí)在機(jī)器人和工業(yè)自動化方面也有一些成功的實(shí)際應(yīng)用。我們可以把機(jī)器人理解成環(huán)境中的代理,而強(qiáng)化學(xué)習(xí)已被證明是一種可行的指導(dǎo)方案。值得一提的是,Google還使用強(qiáng)化學(xué)習(xí)來降低數(shù)據(jù)中心的運(yùn)營成本。

強(qiáng)化學(xué)習(xí)在醫(yī)療和教育方面也有望得到應(yīng)用,但目前的大多數(shù)研究還處于實(shí)驗(yàn)室階段。

實(shí)踐挑戰(zhàn)

強(qiáng)化學(xué)習(xí)的應(yīng)用前景十分光明,但是實(shí)踐道路會很曲折。

第一是數(shù)據(jù)問題。強(qiáng)化學(xué)習(xí)通常需要大量訓(xùn)練數(shù)據(jù)才能達(dá)到其他算法能高效率達(dá)到的性能水平。DeepMind最近提出一個新算法,叫做RainbowDQN,它需要1800萬幀Atari游戲界面,或大約83小時游戲視頻來訓(xùn)練模型,而人類學(xué)會游戲的時間遠(yuǎn)遠(yuǎn)少于算法。這個問題也出現(xiàn)在步態(tài)學(xué)習(xí)的任務(wù)中。

強(qiáng)化學(xué)習(xí)在實(shí)踐中的另一個挑戰(zhàn)是領(lǐng)域特殊性(domain-specificity)。強(qiáng)化學(xué)習(xí)是一種通用算法,理論上應(yīng)該適用于各種不同類型的問題。但是,這其中的大多數(shù)問題都有一個具有領(lǐng)域特殊性的解決方案,往往效果優(yōu)于強(qiáng)化學(xué)習(xí)方法,如MuJuCo機(jī)器人的在線軌跡優(yōu)化。因此,我們要在權(quán)衡范圍和強(qiáng)度之間的關(guān)系。

最后,在強(qiáng)化學(xué)習(xí)中,目前最迫切的問題是設(shè)計獎勵函數(shù)。在設(shè)計獎勵時,算法設(shè)計者通常會帶有一些主觀理解。即使不存在這方面問題,強(qiáng)化學(xué)習(xí)在訓(xùn)練時也可能陷入局部最優(yōu)值。

上面提到了不少強(qiáng)化學(xué)習(xí)實(shí)踐中的挑戰(zhàn)問題,希望后續(xù)研究能不斷解決這些問題。

學(xué)習(xí)資源

函數(shù)庫

1、RL-Glue:提供了一個能將強(qiáng)化學(xué)習(xí)代理、環(huán)境和實(shí)驗(yàn)程序連接起來的標(biāo)準(zhǔn)界面,且可進(jìn)行跨語言編程。

地址:http://glue./wiki/Main_Page

2、Gym:由OpenAI開發(fā),是一個用于開發(fā)強(qiáng)化學(xué)習(xí)算法和性能對比的工具包,它可以訓(xùn)練代理學(xué)習(xí)很多任務(wù),包括步行和玩乒乓球游戲等。

地址:https://gym./

3、RL4J:是集成在deeplearning4j庫下的一個強(qiáng)化學(xué)習(xí)框架,已獲得Apache 2.0開源許可。

地址:https://github.com/deeplearning4j/rl4j

4、TensorForce:一個用于強(qiáng)化學(xué)習(xí)的TensorFlow庫。

地址:https://github.com/reinforceio/tensorforce

論文集

1、用通用強(qiáng)化學(xué)習(xí)算法自我對弈來掌握國際象棋和將棋

題目:Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

地址:https:///abs/1712.01815

這篇文章有13位作者,提出了AlphaZero方法。在這篇論文中,作者將先前的AlphaGo Zero方法推廣到一個單一的AlphaZero算法,它可以在多個具有挑戰(zhàn)性的領(lǐng)域?qū)崿F(xiàn)超越人類的性能,同樣利用的是“白板”強(qiáng)化學(xué)習(xí)(“白板”指的是所有知識均由感官和經(jīng)驗(yàn)得來,即從零開始的學(xué)習(xí))。從隨機(jī)下棋開始,除了游戲規(guī)則外,沒有輸入任何領(lǐng)域知識,AlphaZero在24小時內(nèi)實(shí)現(xiàn)了在國際象棋、將棋和圍棋上超越人類水平的表現(xiàn),并且在這三種棋上都以令人信服的成績擊敗了當(dāng)前的世界冠軍程序。

2、深化強(qiáng)化學(xué)習(xí)綜述

題目:Deep Reinforcement Learning: An Overview

地址:https:///abs/1701.07274

這篇論文概述了深度強(qiáng)化學(xué)習(xí)中一些最新精彩工作,主要說明了六個核心要素、六個重要機(jī)制和十二個有關(guān)應(yīng)用。文章中先介紹了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的背景,接著討論了強(qiáng)化學(xué)習(xí)的核心要素,包括DQN網(wǎng)絡(luò)、策略、獎勵、模型、規(guī)劃和搜索。

3、用深度強(qiáng)化學(xué)習(xí)玩Atari游戲

題目:Playing Atari with Deep Reinforcement Learning

地址:https:///abs/1312.5602

這是DeepMind公司2014年的NIPS論文。這篇論文提出了一種深度學(xué)習(xí)方法,利用強(qiáng)化學(xué)習(xí)的方法,直接從高維的感知輸入中學(xué)習(xí)控制策略。該模型是一個卷積神經(jīng)網(wǎng)絡(luò),利用Q-learning的變體來進(jìn)行訓(xùn)練,輸入是原始像素,輸出是預(yù)測未來獎勵的價值函數(shù)。此方法被應(yīng)用到Atari 2600游戲中,不需要調(diào)整結(jié)構(gòu)和學(xué)習(xí)算法,在測試的七個游戲中6個超過了以往方法并且有3個超過人類水平。

4、用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)人類水平的控制

題目:Human-Level Control Through Deep Reinforcement Learning

地址:https://web./class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf

這是DeepMind公司2015年的Nature論文。強(qiáng)化學(xué)習(xí)理論根植于關(guān)于動物行為的心理學(xué)和神經(jīng)科學(xué),它可以很好地解釋代理如何優(yōu)化他們對環(huán)境的控制。為了在真實(shí)復(fù)雜的物理世界中成功地使用強(qiáng)化學(xué)習(xí)算法,代理必須面對這個困難任務(wù):利用高維的傳感器輸入數(shù)據(jù),推導(dǎo)出環(huán)境的有效表征,并把先前經(jīng)驗(yàn)泛化到新的未知環(huán)境中。

講座教程

1、強(qiáng)化學(xué)習(xí)(Georgia Tech, CS 8803)

地址:https://www./course/reinforcement-learning—ud600

官網(wǎng)介紹:如果你對機(jī)器學(xué)習(xí)感興趣并且希望從理論角度來學(xué)習(xí),你應(yīng)該選擇這門課程。本課程通過介紹經(jīng)典論文和最新工作,帶大家從計算機(jī)科學(xué)角度去探索自動決策的魅力。本課程會針對單代理和多代理規(guī)劃以及從經(jīng)驗(yàn)中學(xué)習(xí)近乎最佳決策這兩個問題,來研究相應(yīng)的高效算法。課程結(jié)束后,你將具備復(fù)現(xiàn)強(qiáng)化學(xué)習(xí)中已發(fā)表論文的能力。

2、強(qiáng)化學(xué)習(xí)(Stanford, CS234)

地址:http://web./class/cs234/index.html

官網(wǎng)介紹:要實(shí)現(xiàn)真正的人工智能,系統(tǒng)要能自主學(xué)習(xí)并做出正確的決定。強(qiáng)化學(xué)習(xí)是一種這樣的強(qiáng)大范式,它可應(yīng)用到很多任務(wù)中,包括機(jī)器人學(xué)、游戲博弈、消費(fèi)者建模和醫(yī)療服務(wù)。本課程詳細(xì)地介紹了強(qiáng)化學(xué)習(xí)的有關(guān)知識,你通過學(xué)習(xí)能了解當(dāng)前面臨問題和主要方法,也包括如何進(jìn)行泛化和搜索。

3、深度強(qiáng)化學(xué)習(xí)(Berkeley, CS 294, Fall 2017)

地址:http://rll./deeprlcourse/

官網(wǎng)介紹:本課程需要一定的基礎(chǔ)知識,包括強(qiáng)化學(xué)習(xí)、數(shù)值優(yōu)化和機(jī)器學(xué)習(xí)。我們鼓勵對以下概念不熟悉的學(xué)習(xí)提前閱讀下方提供的參考資料。課堂上開始前會簡單回顧下這些內(nèi)容。

4、用Python玩轉(zhuǎn)深度強(qiáng)化學(xué)習(xí)(Udemy高級教程)

地址:https://www./deep-reinforcement-learning-in-python/

官網(wǎng)介紹:本課程主要介紹有關(guān)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)在強(qiáng)化學(xué)習(xí)中的應(yīng)用。本課程需要一定的基礎(chǔ)知識(包括強(qiáng)化學(xué)習(xí)基礎(chǔ)、馬爾可夫決策、動態(tài)編程、蒙特卡洛搜索和時序差分學(xué)習(xí)),以及深度學(xué)習(xí)基礎(chǔ)編程。

最后,原文地址在此:https://blog./introduction-to-reinforcement-learning/

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    激情少妇一区二区三区| 精品人妻一区二区三区在线看| 国产精品蜜桃久久一区二区| 亚洲最大福利在线观看| 成人国产激情在线视频| 中文字幕一区二区熟女| 亚洲精品国产第一区二区多人| 国产成人精品国产亚洲欧洲| 国语对白刺激高潮在线视频| 亚洲一区精品二人人爽久久| 欧美一级片日韩一级片| 国产不卡最新在线视频| 邻居人妻人公侵犯人妻视频| 国产不卡的视频在线观看| 最近日韩在线免费黄片| 精品女同在线一区二区| 在线亚洲成人中文字幕高清| 欧美亚洲另类久久久精品| 国产精品一区二区高潮| 久久人人爽人人爽大片av| 亚洲一区二区三区四区| 亚洲午夜av久久久精品| 日韩在线视频精品中文字幕| 69老司机精品视频在线观看| 国产免费自拍黄片免费看| 欧美午夜伦理在线观看| 亚洲欧洲在线一区二区三区| 精品欧美日韩一区二区三区| 日韩中文字幕狠狠人妻| 日韩av生活片一区二区三区| av在线免费观看一区二区三区| 亚洲欧洲精品一区二区三区| 搡老熟女老女人一区二区| 99国产高清不卡视频| 国产午夜精品在线免费看| 五月婷婷综合缴情六月| 国产精品欧美在线观看| 空之色水之色在线播放| 成年人免费看国产视频| 福利在线午夜绝顶三级| 久久大香蕉精品在线观看|