一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

強化學(xué)習(xí)

 飛揚czqht0vrjl 2019-01-21

<1>

這篇文章與大家分享“強化學(xué)習(xí)”,英文名叫做“Reinforcement Learning”。這是一個有趣的機器學(xué)習(xí)算法,去年在國際圍棋界大顯身手、戰(zhàn)勝世界冠軍的AlphaGo以及其進化版AlphaGo zero的關(guān)鍵技術(shù)就是強化學(xué)習(xí)。它還被用于玩電腦游戲,比如Dota2、英雄聯(lián)盟、Flappy bird,還有各種小游戲。

AlphaGo VS 柯潔

AI玩Pingpong游戲


<2>

正式介紹強化學(xué)習(xí)前我們先科普一下人工智能和智能算法的關(guān)系,看圖

AI知識圖譜

人工智能是一個非常大的概念,機器學(xué)習(xí)(Machine Learning)算法是人工智能的主要技術(shù)之一,而且是現(xiàn)在應(yīng)用最廣泛的也是機器學(xué)習(xí)算法, 深度學(xué)習(xí)(Deep Learning)或深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)屬于機器學(xué)習(xí),所以現(xiàn)在人們一般有下面的認識:

AI-ML-DL

傳統(tǒng)上,機器學(xué)習(xí)算法一般可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),二者各有長短。監(jiān)督學(xué)習(xí)認為人要把自己的經(jīng)驗教給機器。拿分辨貓貓和狗狗的 AI 來說,你需要準(zhǔn)備幾千張照片,然后手把手教機器——哪張照片是貓,哪張照片是狗。機器會從中學(xué)習(xí)到分辨貓狗的細節(jié),從毛發(fā)到眼睛到耳朵,然后舉一反三得去判斷一張它從沒見過的照片是貓貓還是狗狗。

無監(jiān)督學(xué)習(xí)認為機器要去自己摸索,自己發(fā)現(xiàn)規(guī)律。人的經(jīng)驗或許能幫助機器掌握智能,但或許人的經(jīng)驗是有缺陷的,不如讓機器自己發(fā)現(xiàn)新的,更好的規(guī)律。人的經(jīng)驗就放一邊吧。


 <3>

強化學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種。強化學(xué)習(xí)是一種模仿人類學(xué)習(xí)方式的模型,它的基本想法是:要是機器得到了好的結(jié)果就能得到獎勵,要是得到差的結(jié)果就得到懲罰。

舉個例子,訓(xùn)練一只汪星人聽懂人的命令。開始主人對小汪下了“坐下”的指令,可小汪不知道什么意思,搖了搖尾巴;然后主人又下了一次“坐下”的指令,小汪還是聽不懂啊,又搖了搖尾巴,主人生氣了,踢了小汪一腳;第三次,主人又對小汪下了“坐下”的命令,小汪也著急了,急得一屁股坐在了地上。哈哈,然而主人很高興,小汪能聽懂了,于是賞了小汪一根骨頭。小汪啃著骨頭也恍然大悟了,主人說“坐下”的時候,自己坐下就會有骨頭吃,于是小汪就聽懂這個命令了。

我們來抽象一下上邊的例子就是強化學(xué)習(xí)了。強化學(xué)習(xí)有四個要素:

  • 狀態(tài)(States):例如小汪目前的狀態(tài),是坐著,趴著,或是站著

  • 動作(Actions):在每個狀態(tài)下,有什么行動是容許的。例如小狗目前是趴著的,現(xiàn)在能采取的動作有:站起來,坐起來或繼續(xù)趴著。

  • 獎勵(Rewards):采取某個動作后,能帶來的正面或負面的價值,也就是獎勵或懲罰。例如小汪聽到“坐下”的命令,坐下了,主人就獎勵它一跟骨頭,否則懲罰它踢一腳。

  • 方案(Policy):每個狀態(tài)下,該采取什么樣的行動。比如小汪聽到“坐下”命令后,該怎么行動。

實際的應(yīng)用場景中,并不像訓(xùn)練小汪那么容易,有如下的難點:

  • 狀態(tài)很多,比如游戲中角色在的每一個位置都是一個狀態(tài),同一位置因其周圍的環(huán)境變化也是多個狀態(tài)。

  • 動作多樣,比如游戲中的角色,可以向前后左右各個方向移動,也可以釋放各種技能。

  • 獎勵延遲,當(dāng)角色采取一個行動后,并不能馬上給它反饋—獎勵或懲罰,往往需要很久之后,角色死亡或勝利了,才能反過頭來給它反饋。

 

強化學(xué)習(xí)概括起來就是,計算機在很多次的嘗試中,根據(jù)每次嘗試的獎勵或懲罰反饋,逐漸的找到了一系列最好的動作(Action)策略。歡迎同學(xué)們來跟我們一起學(xué)習(xí)具體的算法和程序?qū)崿F(xiàn)。同學(xué)們可以思考一下,如果是貪吃蛇游戲,狀態(tài)和動作都有哪些?

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    91偷拍裸体一区二区三区| 日韩1区二区三区麻豆| 欧美精品亚洲精品一区| 精品日韩中文字幕视频在线| 一区二区三区四区亚洲专区| 国产又粗又爽又猛又黄的 | 亚洲美女国产精品久久| 美女被啪的视频在线观看| 国产不卡最新在线视频| 亚洲欧美日韩精品永久| 一区二区三区人妻在线| 日韩欧美综合在线播放| 麻豆一区二区三区精品视频| 中文字幕欧美视频二区| 久久热这里只有精品视频| 91偷拍视频久久精品| 最近日韩在线免费黄片| 欧美不雅视频午夜福利| 一区二区日本一区二区欧美| 欧美精品日韩精品一区| 久久精品欧美一区二区三不卡| 在线免费国产一区二区三区| 精品亚洲av一区二区三区| 免费精品一区二区三区| 欧美国产日产综合精品| 亚洲国产av在线视频| 一区二区三区18禁看| 一区二区三区人妻在线| 肥白女人日韩中文视频| 久久精品中文扫妇内射| 久久精品免费视看国产成人| 日韩日韩欧美国产精品| 欧美中文字幕日韩精品| 91老熟妇嗷嗷叫太91| 日本不卡片一区二区三区| 日韩日韩欧美国产精品| 国产成人精品国产亚洲欧洲| 91亚洲熟女少妇在线观看| 欧美字幕一区二区三区| 欧美六区视频在线观看| 老熟妇2久久国内精品|