強化學習(Reinforcement Learning,RL)正成為當下機器學習中最熱門的研究領域之一。與常見的監(jiān)督學習和非監(jiān)督學習不同,強化學習強調智能體(agent)與環(huán)境(environment)的交互,交互過程中智能體需要根據自身所處的狀態(tài)(state)選擇接下來采取的動作(action),執(zhí)行動作后,智能體會進入下一個狀態(tài),同時從環(huán)境中得到這次狀態(tài)轉移的獎勵(reward)。 強化學習的目標就是從智能體與環(huán)境的交互過程中獲取信息,學習狀態(tài)與動作之間的映射,指導智能體根據狀態(tài)做出最佳決策,最大化獲得的獎勵。 在強化學習系統(tǒng)中,除了智能體和環(huán)境,重要元素還包括價值函數(value function)、策略(policy)以及獎勵信號(reward signal)。Value-based 和 Policy-based 是強化學習算法設計的兩大思路。在智能體與環(huán)境交互過程中,獎勵是智能體在某個狀態(tài)執(zhí)行動作后立即得到的反饋,而價值函數則反映了智能體考慮未來的行動之后對所有可能狀態(tài)的評估。 本文對近兩年來發(fā)表在ICLR、ICML等AI頂會上有關強化學習的論文進行了解讀,以饗讀者。 Ask the Right Questions:Active Question Reformulation with Reinforcement Learning 論文作者:Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, Wei Wang(谷歌) 論文地址:https:///pdf/1705.07830v2.pdf 總結:本文將問答看做一個強化學習任務,主要思想是在用戶和問答系統(tǒng)之間增加一個問題重構模塊。該模塊可以將用戶問題改寫成不同形式,這些改寫后的問題可以通過問答系統(tǒng)得到多個答案,該模塊再從這些答案中選擇質量最高的回答返回給用戶。問題重構模塊的核心是一個類似機器翻譯的sequence-to-sequence模型,該模型首先通過單語語料預訓練,之后使用Policy Gradient進行強化學習的訓練過程,目標是使問答系統(tǒng)得到最佳回答的獎勵。 Go for a Walk and Arrive at the Answer:Reasoning over Paths in Knowledge Bases using Reinforcement Learning 論文作者:Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer, Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum(馬薩諸塞大學,卡內基梅隆大學,德克薩斯大學奧斯汀分校,亞馬遜) 論文地址:https:///pdf/1711.05851.pdf 總結:本文提出了MINERVA算法解決知識圖譜中的自動推理問題。MINERVA算法主要用于基于知識圖譜的自動問答:給定三元組中的關系和其中一個實體,補全另一個實體。作者采用基于路徑搜索的方法,從已知的實體節(jié)點出發(fā),根據問題選擇合適的路徑到達答案節(jié)點。作者將問題形式化為一個部分可觀察的馬爾可夫決策過程,將觀察序列和歷史決策序列用基于LSTM的策略網絡表示。LSTM的訓練使用了Policy Gradient方法。 Active Neural Localization 論文作者:Devendra Singh Chaplot, Emilio Parisotto, Ruslan Salakhutdinov(卡內基梅隆大學) 論文地址:https://www./pub/5a9cb66717c44a376ffb8b95/active-neural-localization 總結:本文介紹了Active Neural Localization模型,根據給定的環(huán)境地圖和智能體的觀察,可以估計出智能體的位置。該方法可以直接從數據學習,并主動預測智能體行動來獲得精確和高效的定位。該方法結合了傳統(tǒng)的filter-based定位方法和策略模型,可以使用強化學習進行end-to-end訓練。模型包括一個感知模型和一個策略模型,感知模型根據當前智能體的觀測計算可能位置的信念(Belief),策略模型基于這些信念估計下一步行動并進行精確定位。 The Reactor:A fast and sample-efficient Actor-Critic agent for Reinforcement Learning 論文作者:Audrunas Gruslys, Mohammad Gheshlaghi Azar, Marc G. Bellemare, Remi Munos(DeepMind) 論文地址:https:///pdf/1704.04651.pdf 總結:本文提出了Reactor模型,該模型結合了off-policy經驗回放的低樣本復雜度和異步算法的高訓練效率兩方面優(yōu)點,比Prioritized Dueling DQN和Categorical DQN有更低的樣本復雜度,同時比A3C有更低的運行時間。作者在模型中使用了多個技術,包括:新的策略梯度算法beta-LOO,多步off-policy分布式強化學習算法Retrace,prioritized replay方法以及分布式訓練框架。 Reinforcement Learning for Relation Classification from Noisy Data 論文作者:Jun Feng,Minlie Huang,Li Zhao,Yang Yang,Xiaoyan Zhu(清華大學,微軟亞洲研究院,浙江大學) 論文地址:https://www./pub/5b1642388fbcbf6e5a9b54be/reinforcement-learning-for-relation-classification-from-noisy-data 總結:現有的關系分類方法主要有兩個局限性:無法進行sentece-level的關系分類;依賴遠程監(jiān)督(distant supervision)標注的數據,但標注數據中存在較大誤差。本文介紹了一個sentence-level的關系分類算法。算法由兩個部分組成,分別是“instance selector”和“relation classifier”。Instance selector用于選取質量高的句子作為relation classifier的訓練數據,該過程可以看做一個強化學習問題。作者分別定義了Instance selector的動作空間,狀態(tài)空間和獎勵函數,并給出了基于Policy Gradient的優(yōu)化方法。 Learning Structured Representation for Text Classification via Reinforcement Learning 論文作者:Tianyang Zhang, Minlie Huang,Li Zhao(清華大學,微軟亞洲研究院) 論文地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/11/zhang.pdf 總結:本文提出了一個基于深度學習的句子表示算法,可以針對任務學習句子的結構化表示。該算法不需要解析樹或其他顯示的結構化表示標注作為輸入,而是通過訓練數據自動效識別與任務相關的句子結構。作者使用強化學習的方法構建任務相關的句子結構表示,模型由三部分組成,分別是Policy Network (PNet),Structured Representation Model和Classification Network (CNet),PNet為句子產生一個動作序列,Structured Representation Model將動作序列轉化為結構化表示,CNet提供獎勵信號,模型參數可以使用Policy Gradient方法優(yōu)化。 Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning 論文作者:Anusha Nagabandi, Gregory Kahn, Ronald S. Fearing, Sergey Levine(加州大學伯克利分校) 論文地址:https://www./pub/5a260c8417c44a4ba8a31564/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free 總結:本文提出了一種新的model-based的強化學習學法,并可以用于初始化model-free的算法。作者提出的model-based算法使用神經網絡擬合動力學模型,并結合了MPC(model predictive control)。作者使用model-based優(yōu)化得到的動力學模型作為model-free算法的初始化,可以同時保留model-based算法樣本復雜度小,model-free算法泛化能力強兩方面的優(yōu)勢。 Learning to Collaborate:Multi-ScenarioRanking via Multi-Agent Reinforcement Learning 論文作者:Jun Feng, Heng Li, Minlie Huang, Shichen Liu, Wenwu Ou, Zhirong Wang, Xiaoyan Zhu(清華大學,阿里巴巴) 論文地址:https:///pdf/1809.06260v1.pdf 總結:本文提出了一個多場景聯合排序算法,目標是提高多場景的整體效果。多場景之間存在博弈關系,單個場景提升無法保證整體提升。本文將多場景排序看做一個完全合作,部分可觀測的多智能體序列決策問題,并采用多智能體強化學習的框架建模。作者提出了MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)算法,利用DRQN對用戶的歷史信息建模,同時用DPG對連續(xù)狀態(tài)和連續(xù)動作空間進行探索。 Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning 論文作者:Meng Qu,Jian Tang,Jiawei Han(伊利諾伊大學香檳分校) 論文地址:https://www./pub/5a9cb60d17c44a376ffb3c89/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning 總結:本文將深度強化學習應用到了異構星型網絡的表示學習中。在異構星型網絡表示的學習過程中通常需要采樣一系列的邊來得到點之間的相似性,作者發(fā)現這些邊的順序會顯著影響表示學習的效果。作者借鑒了課程學習(Curriculum Learning)的思想,研究如何在網絡表示學習中學習這些邊的采樣順序。該問題可以形式化為馬爾可夫決策過程,作者提出了一個基于深度強化學習的解決方法。 Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 論文作者:Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine(加州大學伯克利分校) 論文地址:https:///pdf/1801.01290.pdf 總結:本文提出了soft actor-critic算法。該算法是一個基于最大熵強化學習的off-policy actor-critic算法,在最大化獎勵的同時最大化熵,讓動作盡可能隨機。作者證明了算法的收斂性,并在多個benchmark上超越了已有的on-policy或off-policy的算法。 近期公號一直有收到小伙伴留言,想要獲取"強化學習資料包",在此再次為大家奉上這份干貨滿滿的資料包,含104篇強化學習論文綜述、資料及對應解讀。 |
|