一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

AlphaZero 進(jìn)化論:從零開始,制霸所有棋類游戲

 昵稱32937624 2018-12-09

AlphaZero 進(jìn)化論:從零開始,制霸所有棋類游戲

2017 年末,DeepMind 推出了 AlphaZero——一套能夠從零開始自主學(xué)習(xí)國(guó)際象棋、將棋(類似于日本版的國(guó)際象棋)以及圍棋的技藝,從而全面超越各項(xiàng)目世界冠軍的系統(tǒng)。

對(duì)于這一系統(tǒng)帶來(lái)的初步成果,整個(gè)公司的研發(fā)人員都感到非常興奮,并很高興看到國(guó)際象棋界成員對(duì)此做出的熱烈回應(yīng)。他們?cè)?AlphaZero 的棋藝當(dāng)中發(fā)現(xiàn)了一種突破性、高度動(dòng)態(tài)且“不同于傳統(tǒng)”的對(duì)弈風(fēng)格,這也使其完全不同于以往存在過(guò)的任何棋類游戲引擎。

今天,AlphaZero 登上了著名的《科學(xué)》雜志,并以封面論文的形式發(fā)表,它背后的公司 DeepMind 也在官方博客上撰文,為這一系統(tǒng)取得的最新成就進(jìn)行了詳細(xì)解析,InfoQ 將全文翻譯整理如下:

今天,我們很高興地發(fā)布 AlphaZero 的完整評(píng)估報(bào)告,這篇論文已經(jīng)公開發(fā)表在《科學(xué)》雜志上:

http://science./content/362/6419/1140

評(píng)審編輯已經(jīng)確認(rèn)并更新了這些初步結(jié)果。論文描述了 AlphaZero 如何快速學(xué)習(xí)每一種棋類,包括在僅獲得游戲基本規(guī)則、但完全不存在內(nèi)置指導(dǎo)的前提下從隨機(jī)游戲開始,一步步成長(zhǎng)為有史以來(lái)最強(qiáng)大的棋手。

這種從零開始學(xué)習(xí)每種棋類的能力由于不受人類固有思維的約束,因此產(chǎn)生出一種獨(dú)特、有悖于傳統(tǒng),但卻極具創(chuàng)造性與動(dòng)態(tài)思考的對(duì)弈風(fēng)格。國(guó)際象棋大量馬修·薩德勒(Matthew Sadler)與女子國(guó)際象棋大師娜塔莎·里根(Natasha Regan)在即將于明年 1 月出版的《游戲規(guī)則改變者(Game Changer)》一書中分析了 AlphaZero 進(jìn)行的數(shù)千盤國(guó)際象棋對(duì)弈,并發(fā)現(xiàn)其風(fēng)格不同于任何傳統(tǒng)的國(guó)際象棋引擎。馬修表示,“這就像是發(fā)現(xiàn)了古代棋藝大師的秘籍一樣?!?/p>

傳統(tǒng)的國(guó)際象棋引擎——包括世界計(jì)算機(jī)國(guó)際象棋冠軍 Stockfish 與 IBM 廣為人知的“深藍(lán)”——依賴于數(shù)千條由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息嘗試解釋游戲中的每一種可能性。將棋同樣遵循此理,其程序僅適用于將棋本身,但采用與國(guó)際象棋程序類似的搜索引擎與算法。

AlphaZero 采取的方法則完全不同,其利用一套深層神經(jīng)網(wǎng)絡(luò)與大量通用型算法取代了那些手工制作的規(guī)則,而且這些算法除了棋類的基本規(guī)則之外一無(wú)所知。

AlphaZero 進(jìn)化論:從零開始,制霸所有棋類游戲

在國(guó)際象棋當(dāng)中,AlphaZero 僅用了 4 個(gè)小時(shí)便成功擊敗 Stockfish; 在將棋方面,其擊敗 Elmo 則僅用掉 2 個(gè)小時(shí) ; 至于圍棋,AlphaZero 在 30 個(gè)小時(shí)即擊敗曾于 2016 年壓倒世界冠軍李世石的 AlphaGo 版本。注意:每個(gè)訓(xùn)練步驟代表 4096 個(gè)盤面位置。

為了學(xué)習(xí)每種棋類,這套未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)通過(guò)一種被稱為強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)與試錯(cuò)過(guò)程完成數(shù)百萬(wàn)盤自我對(duì)弈。起初,其完全是在隨機(jī)亂下 ; 但隨著時(shí)間的推移,系統(tǒng)會(huì)從勝利、失敗以及平局當(dāng)中學(xué)習(xí)經(jīng)驗(yàn),從而調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù),使其更有可能在未來(lái)的選擇中做出有利判斷。網(wǎng)絡(luò)所需要的訓(xùn)練量取決于游戲的風(fēng)格與復(fù)雜程度——國(guó)際象棋大約需要 9 個(gè)小時(shí),將其大約需要 12 個(gè)小時(shí),而圍棋則需要 13 天。

這套經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)被用于指導(dǎo)一種搜索算法——被稱為蒙特卡洛樹搜索(簡(jiǎn)稱 MCTS)——坐而選擇當(dāng)前盤面下最為有利的棋步。對(duì)于每一步棋,AlphaZero 所需要的位置搜索量只相當(dāng)于傳統(tǒng)國(guó)際象棋引擎的一小部分。例如在國(guó)際象棋當(dāng)中,AlphaZero 每秒只需要搜索 6 萬(wàn)個(gè)位置 ; 相比之下,Stockfish 則需要搜索大約 6000 萬(wàn)個(gè)位置。

AlphaZero 進(jìn)化論:從零開始,制霸所有棋類游戲


經(jīng)過(guò)全面訓(xùn)練之后,這套系統(tǒng)被用于對(duì)抗最強(qiáng)大的傳統(tǒng)國(guó)際象棋(Stockfish)與將棋(Elmo)引擎,甚至還包括 AlphaZero“一奶同胞”的大哥 AlphaGo——全球最強(qiáng)圍棋棋手。

  • 每款程序都運(yùn)行在專門設(shè)計(jì)的硬件之上。Stockfish 與 Elmo 采用 44 個(gè) CPU 核心(與 TCEC 世界錦標(biāo)賽時(shí)的情況保持一致),而 AlphaZero 與 AlphaGo Zero 則使用一臺(tái)配備有 4 個(gè)第一代 TPU 與 44 個(gè) CPU 核心的機(jī)器。第一代 TPU 的推理速度與英偉達(dá) Titan V GPU 等商用硬件大體相似——當(dāng)然,二者的架構(gòu)差別巨大,不具備直接可比性。
  • 所有比賽均采用單場(chǎng) 3 小時(shí)制,每步棋額外增加 15 秒。
  • 在所有對(duì)抗當(dāng)中,AlphaZero 都以毫無(wú)爭(zhēng)議的方式擊敗了對(duì)手:
  • 在國(guó)際象棋方面,AlphaZero 擊敗了 2016 年 TCEC(第 9 季)世界錦標(biāo)賽冠軍 Stockfish——其中 AlphaZero 獲得 155 場(chǎng)勝利,且敗率僅為千分之六。為了驗(yàn)證 AlphaZero 的穩(wěn)健性,我們還刻意為雙方準(zhǔn)備了由人類常規(guī)開盤形成的殘局。無(wú)論是哪種殘局,AlphaZero 仍能順利擊敗 Stockfish。此外,我們亦參加了 2016 年 TCEC 世界錦標(biāo)賽,并在比賽中對(duì)陣近期剛剛進(jìn)行升級(jí)的 Stockfish 版本——其中一種 Stockfish 變體采用了非常強(qiáng)大的開局走法組合,但 AlphaZero 仍無(wú)一例外全部取勝。
  • 在將棋方面,AlphaZero 擊敗了在 2017 年 CSA 世界錦標(biāo)賽上勝出的 Elmo 版本,勝率為 91.2%。
  • 在圍棋方面,AlphaZero 戰(zhàn)勝了 AlphaGo Zero,勝率為 61%。


AlphaZero 進(jìn)化論:從零開始,制霸所有棋類游戲


然而,更令人著迷的是 AlphaZero 在對(duì)弈過(guò)程中展現(xiàn)出的行棋風(fēng)格。例如,在國(guó)際象棋當(dāng)中,AlphaZero 在自我學(xué)習(xí)與訓(xùn)練當(dāng)中獨(dú)立發(fā)現(xiàn)并使用了常見的人類行棋模式,例如開口、保王以及兵陣等等。然而,由于自學(xué)成才且完全不受傳統(tǒng)觀念的影響,AlphaZero 也發(fā)展出了自己的直覺(jué)與策略。其提出的一系列令人興奮的新穎想法,大大拓展了幾個(gè)世紀(jì)以來(lái)人類對(duì)于國(guó)際象棋戰(zhàn)略的理解。

棋手們首先注意到的,一定是 AlphaZero 的行棋風(fēng)格。馬修·薩德勒表示,“它的走法充滿了目的性與攻擊性,始終圍繞著對(duì)方的王進(jìn)行謀劃?!币源藶榛A(chǔ),AlphaZero 還擁有著高度動(dòng)態(tài)化的對(duì)弈能力,這最大限度提高了其棋路的靈活性與移動(dòng)性,同時(shí)最大限制著對(duì)方棋子的靈活性與移動(dòng)性。與直覺(jué)相反,AlphaZero 似乎對(duì)于“棋子角色”的重視程度較低?,F(xiàn)代競(jìng)技項(xiàng)目的一大基礎(chǔ)特性,所有參與方都具有價(jià)值。如果某一選手在棋盤上的棋子價(jià)值高于對(duì)方,則表示前者在棋子角色方面具有優(yōu)勢(shì)。但不同于此,AlphaZero 更傾向于在開局之初就犧牲這些棋子角色,從而獲得更為長(zhǎng)遠(yuǎn)的形勢(shì)性收益。

馬修指出,“令人印象深刻的是,它在各種角色與位點(diǎn)上都表現(xiàn)出這種強(qiáng)烈的行棋風(fēng)格?!彼瑫r(shí)觀察到,AlphaZero 在起步階段會(huì)非??桃獾匾浴芭c人類非常相似的意圖”設(shè)計(jì)開局。

馬修解釋稱,“傳統(tǒng)引擎非常穩(wěn)定,幾乎不會(huì)出現(xiàn)明顯的錯(cuò)誤。但在面對(duì)沒(méi)有具體且可參考解決方案的位置時(shí),則顯得束手無(wú)策。相比之下,AlphaZero 則能夠在這樣的位置上表現(xiàn)出「感覺(jué)」、「洞察」或者「直覺(jué)」。”

這種獨(dú)特的能力是其它傳統(tǒng)國(guó)際象棋引擎所不具備的,而且也在最近的世界國(guó)際象棋錦標(biāo)賽當(dāng)中為國(guó)際象棋愛(ài)好者們帶來(lái)了新的思路與啟發(fā)。馬格努斯·卡爾森(Magnus Carlsen)與法比亞諾·卡魯安納(Fabiano Caruana)之間的比賽就有所體現(xiàn),《游戲規(guī)則改變者》一書就對(duì)此做出了進(jìn)一步探討。娜塔莎·里根表示,“對(duì) AlphaZero 以及頂級(jí)國(guó)際象棋引擎乃至頂級(jí)大師的行棋方式進(jìn)行分析,著實(shí)令人著迷?!?/p>

AlphaZero 帶來(lái)的經(jīng)驗(yàn),也與 2016 年 AlphaGo 與傳奇圍棋大師李世石間的對(duì)弈有所呼應(yīng)。在此次比賽當(dāng)中,AlphaGo 走出了許多極具創(chuàng)造性的取勝手法,包括在第二場(chǎng)比賽中只用 37 步即告勝出——這徹底推翻了數(shù)百年來(lái)人類對(duì)于圍棋運(yùn)動(dòng)的理解。這些棋步已經(jīng)被包括李世石本人在內(nèi)的眾多棋手奉為經(jīng)典案例。在評(píng)論第 37 步時(shí),李世石表示,“我一直認(rèn)為 AlphaGo 屬于那種基于概率的計(jì)算工具,畢竟它只是一臺(tái)機(jī)器。但在看到這一步時(shí),我改變了看法。不可否認(rèn),AlphaGo 擁有真正的創(chuàng)造力?!?/p>

與圍棋一樣,我們也對(duì) AlphaZero 在國(guó)際象棋領(lǐng)域表現(xiàn)出的創(chuàng)造性感到興奮。自從計(jì)算機(jī)時(shí)代開始以來(lái),國(guó)際象棋一直是人工智能技術(shù)面臨的主要挑戰(zhàn)——包括巴貝奇、圖靈、香農(nóng)以及馮·諾伊曼在內(nèi)的眾多早期開拓者都在努力設(shè)計(jì)能夠解決國(guó)際象棋問(wèn)題的方案。但 AlphaZero 的適用于并不僅限于國(guó)際象棋、將棋或者圍棋。為了建立起能夠解決各類現(xiàn)實(shí)問(wèn)題的智能系統(tǒng),我們要求其具備靈活性并能夠適應(yīng)各種新情況。雖然我們已經(jīng)在實(shí)現(xiàn)這一目標(biāo)方面取得了一定進(jìn)展,但其仍然是人工智能研究中的一大核心挑戰(zhàn)。目前的系統(tǒng)雖然能夠以極高的標(biāo)準(zhǔn)掌握特定技能,但卻往往無(wú)法解決甚至只經(jīng)過(guò)略微修改的任務(wù)。

AlphaZero 這種掌握三種不同復(fù)雜棋類(甚至有可能涵蓋一切完美信息類項(xiàng)目)的能力代表著克服這一問(wèn)題的重要一步。這證明單一算法完全有可能在不同的具體規(guī)則之下學(xué)習(xí)并發(fā)現(xiàn)新知識(shí)。另外,盡管尚處于早期發(fā)展階段,但 AlphaZero 的創(chuàng)造性見解加上我們?cè)?AlphaFold 等其它項(xiàng)目中觀察到的振奮人心的結(jié)果,使我們對(duì)于創(chuàng)建通用學(xué)習(xí)系統(tǒng)這一目標(biāo)充滿信心。這意味著我們有望發(fā)現(xiàn)更多新的解決方案,從而攻克那些最重要也最復(fù)雜的科學(xué)問(wèn)題。

下載論文:

https:///documents/260/alphazero_preprint.pdf

原文鏈接:

https:///blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    99久久国产综合精品二区| 国产精品福利精品福利| 亚洲精品福利视频在线观看| 手机在线观看亚洲中文字幕| 国产一区二区不卡在线播放| 日韩不卡一区二区视频| 色鬼综合久久鬼色88| 亚洲一区二区亚洲日本| 国产精品熟女乱色一区二区| 午夜精品国产精品久久久| 日本精品中文字幕人妻| 字幕日本欧美一区二区| 午夜精品黄片在线播放| 九九热这里只有精品哦| 国产美女精品午夜福利视频| 久久国产精品亚州精品毛片| 亚洲欧美黑人一区二区| 偷自拍亚洲欧美一区二页| 成人午夜在线视频观看| 亚洲最新的黄色录像在线| 欧美三级精品在线观看| 午夜视频成人在线免费| 亚洲天堂一区在线播放| 国产原创中文av在线播放| 黄片免费观看一区二区| 99久久精品免费精品国产| 98精品永久免费视频| 麻豆精品视频一二三区| 亚洲中文字幕视频在线观看| 欧美av人人妻av人人爽蜜桃| 欧美野外在线刺激在线观看| 一区二区福利在线视频| 精品人妻一区二区三区在线看| 亚洲精品小视频在线观看| 亚洲国产日韩欧美三级| 日本不卡一区视频欧美| 东北老熟妇全程露脸被内射| 成人国产一区二区三区精品麻豆| 天堂热东京热男人天堂| 99少妇偷拍视频在线| 国产成人精品一区二区在线看|