強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

taotao_2016 2020-05-05

展開全文

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

> Images from Unsplash.

以及如何擊敗監(jiān)督學(xué)習(xí)

人工智能AlphaGo成為全球頂級圍棋選手。

Google的搜索引擎每天處理54億次搜索，并且經(jīng)過優(yōu)化，可以為搜索創(chuàng)造最佳結(jié)果。

YouTube根據(jù)您當(dāng)前的興趣查找推薦視頻的最佳字符串，以吸引您。

以下是什么共同點(diǎn)？

它們都是通過強(qiáng)化學(xué)習(xí)來完成的，強(qiáng)化學(xué)習(xí)是AI中最熱門的話題。

本文將介紹強(qiáng)化學(xué)習(xí)-適用于機(jī)器學(xué)習(xí)，強(qiáng)化學(xué)習(xí)術(shù)語和類比，多帶問題和解決方案，企業(yè)為何偏愛監(jiān)督學(xué)習(xí)以及其在商業(yè)中的應(yīng)用。

機(jī)器學(xué)習(xí)曾經(jīng)分為兩類-有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。

監(jiān)督學(xué)習(xí)是具有一組特征或預(yù)測變量x?，x?，…，x?和目標(biāo)變量y的數(shù)據(jù)。通常，監(jiān)督學(xué)習(xí)的目標(biāo)是找到特征與目標(biāo)之間的關(guān)系，也許是預(yù)測目標(biāo)。這可用于諸如圖像識別（圖像像素為x且圖像標(biāo)簽為y）或房屋價值估算（如浴室數(shù)量，床位為x且房屋價格為y）之類的任務(wù)中。

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

無監(jiān)督學(xué)習(xí)是僅具有一組特征x而沒有目標(biāo)變量y的數(shù)據(jù)。此數(shù)據(jù)通常用于諸如聚類（在多維空間內(nèi)找到一組數(shù)據(jù)點(diǎn)）或異常檢測（這是從數(shù)據(jù)中尋找異常值的過程）之類的任務(wù)。無監(jiān)督學(xué)習(xí)可用于客戶細(xì)分，用于為特定類型的客戶量身定制內(nèi)容或營銷策略的業(yè)務(wù)策略，或用于欺詐檢測（例如用于檢測欺詐性信用卡交易）的應(yīng)用。

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

最近，第三個兄弟姐妹進(jìn)入了機(jī)器學(xué)習(xí)社區(qū)：強(qiáng)化學(xué)習(xí)。機(jī)器學(xué)習(xí)的這一領(lǐng)域可以說是該領(lǐng)域三個領(lǐng)域中最適合企業(yè)應(yīng)用的領(lǐng)域。由于商業(yè)和公司利益推動研究的速度比任何學(xué)術(shù)機(jī)構(gòu)都快，因此強(qiáng)化學(xué)習(xí)的發(fā)展正在非常迅速地加速。

強(qiáng)化學(xué)習(xí)可以被視為訓(xùn)練狗的人的特技。由于狗不了解我們?nèi)祟愊Ｍ麄冏鍪裁?，因此我們讓他們嘗試幾種技巧，并在狗的反應(yīng)正確的前提下給他們一種獎勵。通過重復(fù)重復(fù)此過程，狗會學(xué)會以最大程度獲得治療機(jī)會的方式做出反應(yīng)。這完全類似于人類教計算機(jī)執(zhí)行某項操作（例如玩游戲）。這就是'強(qiáng)化'這個名字的來歷—該模型具有反復(fù)強(qiáng)化的積極作用，因此最終幾乎總是以某種方式獲得回報。

用強(qiáng)化學(xué)習(xí)術(shù)語重新解釋人與狗的類比：

· 狗是暴露于環(huán)境的媒介。

· 狗選擇要進(jìn)入的狀態(tài)，可能是玩死，奔跑，跳躍等。

· 代理通過執(zhí)行從一種狀態(tài)變?yōu)榱硪环N狀態(tài)的動作來做出反應(yīng)。

· 在采取行動上的改變之后，對坐席給予獎勵或懲罰。

· 該策略是模型用來選擇動作的策略，以尋找可優(yōu)化獎勵機(jī)會的反應(yīng)。

換句話說，代理通過輸入動作并接收新的狀態(tài)和潛在的回報來與其環(huán)境進(jìn)行交互。

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

主體和環(huán)境在強(qiáng)化學(xué)習(xí)算法中起著核心作用。環(huán)境是代理人賴以生存并試圖生存的世界。以下是我們正在創(chuàng)建的虛擬世界的正式定義：

· 狀態(tài)。國家是對世界的完整描述。世界上沒有任何信息被隱藏。它可以是位置，常數(shù)或動態(tài)值。這些狀態(tài)記錄在數(shù)組，矩陣或高階張量中。

· 行動。動作基于環(huán)境-不同的環(huán)境導(dǎo)致基于代理的動作也不同。代理的一組有效動作記錄在一個稱為動作空間的空間中，通常數(shù)量有限。

· 環(huán)境。這是代理人生活和互動的地方。不同類型的環(huán)境具有不同的獎勵和政策。

· 獎勵和回報。獎勵函數(shù)r（x）的連續(xù)跟蹤可指導(dǎo)強(qiáng)化學(xué)習(xí)，優(yōu)化算法。它的輸出取決于當(dāng)前的世界狀態(tài)，最近的動作以及下一個世界狀態(tài)。

· 策略：策略也稱為代理的'頭腦'或'思想'，是代理用來選擇下一個操作的規(guī)則。

這五個概念構(gòu)成了一個世界和個人對其的探索。在數(shù)學(xué)上，它用馬爾可夫決策過程（MDP）表示，該過程由元組組成：

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

· S是一組有限的狀態(tài)。

· A是一組有限的動作。

· P是狀態(tài)轉(zhuǎn)移概率矩陣，它表示轉(zhuǎn)移到另一個特定狀態(tài)的概率。

· R是獎勵函數(shù)。

· γ是折現(xiàn)因子γ∈[0,1]，它確定代理'計劃'的數(shù)量，或者關(guān)心將來的獎勵是否也與前面的獎勵相對。

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

> Example MDP. Source: StackAbuse

從簡單的國際象棋游戲到壓倒性的高級視頻游戲，幾乎每個現(xiàn)實世界都可以用馬爾可夫決策過程來表示。

強(qiáng)化學(xué)習(xí)中最著名的問題之一是多臂匪，有時也稱為N臂匪或K臂匪。在此問題中，一個人必須在多項行動之間做出選擇-老虎機(jī)，'單臂匪徒'-每項行動的支出都是未知的。問題的目標(biāo)是確定通過一系列選擇實現(xiàn)的最佳或最有利可圖的結(jié)果。在實驗開始時，當(dāng)賠率和賠付額未知時，賭徒必須確定要拉的機(jī)器，順序和次數(shù)。

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

這個問題是一個強(qiáng)化學(xué)習(xí)問題，因為玩家必須不斷地與其環(huán)境互動，并在探索環(huán)境時改變其策略以優(yōu)化獎勵功能。

有很多算法可以接近多臂匪。

Epsilon-Greedy算法在探索與開發(fā)之間取得了平衡-'貪婪'實驗總是會以已知的最高支出拉動杠桿，除非采取隨機(jī)行動。隨機(jī)選擇的手臂被拉出時間的一部分ε，而其他1-ε的時間被拉出已知支出最高的手臂。

最高可信度邊界策略基于面對不確定性原則的樂觀主義，并基于可觀察的數(shù)據(jù)，假設(shè)每個分支的未知平均收益將盡可能高。

湯普森采樣（Thompson Sampling）是另一種策略，它根據(jù)給定杠桿成為最佳杠桿的實際概率來拉多次。

強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合已顯示出巨大的潛力，可以將深度學(xué)習(xí)的神經(jīng)直覺和力量與強(qiáng)化學(xué)習(xí)的指導(dǎo)框架聯(lián)系起來。例如，本文介紹了AlphaGo算法如何成為世界上最好的Go播放器，它被認(rèn)為是人類最復(fù)雜的游戲。

除了RL參與游戲之外，強(qiáng)化學(xué)習(xí)在行業(yè)中的應(yīng)用還遠(yuǎn)遠(yuǎn)不夠。它的適應(yīng)性和不斷發(fā)展的系統(tǒng)使其處于有監(jiān)督和無監(jiān)督的學(xué)習(xí)方法之上，其結(jié)果在企業(yè)使用大數(shù)據(jù)時產(chǎn)生的成本很高，并且只能給出一個靜態(tài)輸出，這意味著隨著新數(shù)據(jù)的傳入，該算法需要全部進(jìn)行訓(xùn)練。再次。

RL在機(jī)器人技術(shù)和自動化領(lǐng)域（尤其是在自動駕駛汽車中）具有極大的希望。這些是在工作中進(jìn)行強(qiáng)化學(xué)習(xí)的特別出色的例子，因為該軟件甚至可以在投入生產(chǎn)之前就在數(shù)百萬英里的模擬道路上進(jìn)行培訓(xùn)。在這種情況下，由于道路法規(guī)和情況不斷更新，強(qiáng)化學(xué)習(xí)模型的效果要比單純的監(jiān)督學(xué)習(xí)模型更好，以預(yù)測下一步該怎么做。有監(jiān)督的學(xué)習(xí)模型將需要完全更新，而強(qiáng)化學(xué)習(xí)將輕松采用新法則。

其他應(yīng)用程序包括：

· 相機(jī)調(diào)整。最佳相機(jī)拍攝是什么？ RL模型需要根據(jù)用戶的喜好進(jìn)行調(diào)整，并可以根據(jù)傳入的信息進(jìn)行更新（如果用戶使用了自動調(diào)整的設(shè)置，則可獲得獎勵；如果調(diào)整了自動調(diào)整的設(shè)置，則可獲得罰款）。

· 倉庫運(yùn)營優(yōu)化。由于倉庫庫存根據(jù)需求，庫存，法規(guī)和其他因素而不斷變化，因此，適應(yīng)性強(qiáng)的學(xué)習(xí)算法可以更好地操作倉庫操作。

強(qiáng)化學(xué)習(xí)之旅，AI最熱門的話題

> Amazon Warehouse robots finding the most optimal path. Source

· 推薦系統(tǒng)。當(dāng)用戶輸入有關(guān)歌曲或電影的更多信息時，系統(tǒng)會獲得有關(guān)用戶偏好的更多反饋。在這種情況下，使用強(qiáng)化學(xué)習(xí)比監(jiān)督學(xué)習(xí)系統(tǒng)更好，因為用戶的品味總是在變化。監(jiān)督學(xué)習(xí)系統(tǒng)假定您去年評價很高的電影仍然會吸引您，但強(qiáng)化學(xué)習(xí)系統(tǒng)會證明這一點(diǎn)。

關(guān)鍵點(diǎn)

· 強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個子集之一，其他子集是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

· 強(qiáng)化學(xué)習(xí)系統(tǒng)由環(huán)境和代理組成，代理可以根據(jù)策略在特定狀態(tài)之間進(jìn)行某些轉(zhuǎn)換。每個動作都可能得到獎勵或懲罰。

· 強(qiáng)化學(xué)習(xí)系統(tǒng)是有益的，因為它們比例如有監(jiān)督的學(xué)習(xí)更具適應(yīng)性。

謝謝閱讀！如果喜歡，請隨時投票。

(本文翻譯自Andre Ye的文章《A Tour of Reinforcement Learning, the Hottest Topic in AI》，參考：https:///dataseries/a-tour-of-reinforcement-learning-the-hottest-topic-in-ai-3822de3a0936)

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《AI》

舉報/認(rèn)領(lǐng)