AlphaZero 進(jìn)化論：從零開始，制霸所有棋類游戲

昵稱32937624 2018-12-09

展開全文

AlphaZero 進(jìn)化論：從零開始，制霸所有棋類游戲

2017 年末，DeepMind 推出了 AlphaZero——一套能夠從零開始自主學(xué)習(xí)國(guó)際象棋、將棋（類似于日本版的國(guó)際象棋）以及圍棋的技藝，從而全面超越各項(xiàng)目世界冠軍的系統(tǒng)。

對(duì)于這一系統(tǒng)帶來(lái)的初步成果，整個(gè)公司的研發(fā)人員都感到非常興奮，并很高興看到國(guó)際象棋界成員對(duì)此做出的熱烈回應(yīng)。他們?cè)?AlphaZero 的棋藝當(dāng)中發(fā)現(xiàn)了一種突破性、高度動(dòng)態(tài)且“不同于傳統(tǒng)”的對(duì)弈風(fēng)格，這也使其完全不同于以往存在過(guò)的任何棋類游戲引擎。

今天，AlphaZero 登上了著名的《科學(xué)》雜志，并以封面論文的形式發(fā)表，它背后的公司 DeepMind 也在官方博客上撰文，為這一系統(tǒng)取得的最新成就進(jìn)行了詳細(xì)解析，InfoQ 將全文翻譯整理如下：

今天，我們很高興地發(fā)布 AlphaZero 的完整評(píng)估報(bào)告，這篇論文已經(jīng)公開發(fā)表在《科學(xué)》雜志上：

http://science./content/362/6419/1140

評(píng)審編輯已經(jīng)確認(rèn)并更新了這些初步結(jié)果。論文描述了 AlphaZero 如何快速學(xué)習(xí)每一種棋類，包括在僅獲得游戲基本規(guī)則、但完全不存在內(nèi)置指導(dǎo)的前提下從隨機(jī)游戲開始，一步步成長(zhǎng)為有史以來(lái)最強(qiáng)大的棋手。

這種從零開始學(xué)習(xí)每種棋類的能力由于不受人類固有思維的約束，因此產(chǎn)生出一種獨(dú)特、有悖于傳統(tǒng)，但卻極具創(chuàng)造性與動(dòng)態(tài)思考的對(duì)弈風(fēng)格。國(guó)際象棋大量馬修·薩德勒（Matthew Sadler）與女子國(guó)際象棋大師娜塔莎·里根（Natasha Regan）在即將于明年 1 月出版的《游戲規(guī)則改變者（Game Changer）》一書中分析了 AlphaZero 進(jìn)行的數(shù)千盤國(guó)際象棋對(duì)弈，并發(fā)現(xiàn)其風(fēng)格不同于任何傳統(tǒng)的國(guó)際象棋引擎。馬修表示，“這就像是發(fā)現(xiàn)了古代棋藝大師的秘籍一樣?！?/p>

傳統(tǒng)的國(guó)際象棋引擎——包括世界計(jì)算機(jī)國(guó)際象棋冠軍 Stockfish 與 IBM 廣為人知的“深藍(lán)”——依賴于數(shù)千條由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息嘗試解釋游戲中的每一種可能性。將棋同樣遵循此理，其程序僅適用于將棋本身，但采用與國(guó)際象棋程序類似的搜索引擎與算法。

AlphaZero 采取的方法則完全不同，其利用一套深層神經(jīng)網(wǎng)絡(luò)與大量通用型算法取代了那些手工制作的規(guī)則，而且這些算法除了棋類的基本規(guī)則之外一無(wú)所知。

AlphaZero 進(jìn)化論：從零開始，制霸所有棋類游戲

在國(guó)際象棋當(dāng)中，AlphaZero 僅用了 4 個(gè)小時(shí)便成功擊敗 Stockfish; 在將棋方面，其擊敗 Elmo 則僅用掉 2 個(gè)小時(shí) ; 至于圍棋，AlphaZero 在 30 個(gè)小時(shí)即擊敗曾于 2016 年壓倒世界冠軍李世石的 AlphaGo 版本。注意：每個(gè)訓(xùn)練步驟代表 4096 個(gè)盤面位置。

為了學(xué)習(xí)每種棋類，這套未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)通過(guò)一種被稱為強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)與試錯(cuò)過(guò)程完成數(shù)百萬(wàn)盤自我對(duì)弈。起初，其完全是在隨機(jī)亂下 ; 但隨著時(shí)間的推移，系統(tǒng)會(huì)從勝利、失敗以及平局當(dāng)中學(xué)習(xí)經(jīng)驗(yàn)，從而調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)，使其更有可能在未來(lái)的選擇中做出有利判斷。網(wǎng)絡(luò)所需要的訓(xùn)練量取決于游戲的風(fēng)格與復(fù)雜程度——國(guó)際象棋大約需要 9 個(gè)小時(shí)，將其大約需要 12 個(gè)小時(shí)，而圍棋則需要 13 天。

這套經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)被用于指導(dǎo)一種搜索算法——被稱為蒙特卡洛樹搜索（簡(jiǎn)稱 MCTS）——坐而選擇當(dāng)前盤面下最為有利的棋步。對(duì)于每一步棋，AlphaZero 所需要的位置搜索量只相當(dāng)于傳統(tǒng)國(guó)際象棋引擎的一小部分。例如在國(guó)際象棋當(dāng)中，AlphaZero 每秒只需要搜索 6 萬(wàn)個(gè)位置 ; 相比之下，Stockfish 則需要搜索大約 6000 萬(wàn)個(gè)位置。

AlphaZero 進(jìn)化論：從零開始，制霸所有棋類游戲

經(jīng)過(guò)全面訓(xùn)練之后，這套系統(tǒng)被用于對(duì)抗最強(qiáng)大的傳統(tǒng)國(guó)際象棋（Stockfish）與將棋（Elmo）引擎，甚至還包括 AlphaZero“一奶同胞”的大哥 AlphaGo——全球最強(qiáng)圍棋棋手。

每款程序都運(yùn)行在專門設(shè)計(jì)的硬件之上。Stockfish 與 Elmo 采用 44 個(gè) CPU 核心（與 TCEC 世界錦標(biāo)賽時(shí)的情況保持一致），而 AlphaZero 與 AlphaGo Zero 則使用一臺(tái)配備有 4 個(gè)第一代 TPU 與 44 個(gè) CPU 核心的機(jī)器。第一代 TPU 的推理速度與英偉達(dá) Titan V GPU 等商用硬件大體相似——當(dāng)然，二者的架構(gòu)差別巨大，不具備直接可比性。
所有比賽均采用單場(chǎng) 3 小時(shí)制，每步棋額外增加 15 秒。
在所有對(duì)抗當(dāng)中，AlphaZero 都以毫無(wú)爭(zhēng)議的方式擊敗了對(duì)手：
在國(guó)際象棋方面，AlphaZero 擊敗了 2016 年 TCEC（第 9 季）世界錦標(biāo)賽冠軍 Stockfish——其中 AlphaZero 獲得 155 場(chǎng)勝利，且敗率僅為千分之六。為了驗(yàn)證 AlphaZero 的穩(wěn)健性，我們還刻意為雙方準(zhǔn)備了由人類常規(guī)開盤形成的殘局。無(wú)論是哪種殘局，AlphaZero 仍能順利擊敗 Stockfish。此外，我們亦參加了 2016 年 TCEC 世界錦標(biāo)賽，并在比賽中對(duì)陣近期剛剛進(jìn)行升級(jí)的 Stockfish 版本——其中一種 Stockfish 變體采用了非常強(qiáng)大的開局走法組合，但 AlphaZero 仍無(wú)一例外全部取勝。
在將棋方面，AlphaZero 擊敗了在 2017 年 CSA 世界錦標(biāo)賽上勝出的 Elmo 版本，勝率為 91.2%。
在圍棋方面，AlphaZero 戰(zhàn)勝了 AlphaGo Zero，勝率為 61%。

AlphaZero 進(jìn)化論：從零開始，制霸所有棋類游戲

然而，更令人著迷的是 AlphaZero 在對(duì)弈過(guò)程中展現(xiàn)出的行棋風(fēng)格。例如，在國(guó)際象棋當(dāng)中，AlphaZero 在自我學(xué)習(xí)與訓(xùn)練當(dāng)中獨(dú)立發(fā)現(xiàn)并使用了常見的人類行棋模式，例如開口、保王以及兵陣等等。然而，由于自學(xué)成才且完全不受傳統(tǒng)觀念的影響，AlphaZero 也發(fā)展出了自己的直覺(jué)與策略。其提出的一系列令人興奮的新穎想法，大大拓展了幾個(gè)世紀(jì)以來(lái)人類對(duì)于國(guó)際象棋戰(zhàn)略的理解。

棋手們首先注意到的，一定是 AlphaZero 的行棋風(fēng)格。馬修·薩德勒表示，“它的走法充滿了目的性與攻擊性，始終圍繞著對(duì)方的王進(jìn)行謀劃?！币源藶榛A(chǔ)，AlphaZero 還擁有著高度動(dòng)態(tài)化的對(duì)弈能力，這最大限度提高了其棋路的靈活性與移動(dòng)性，同時(shí)最大限制著對(duì)方棋子的靈活性與移動(dòng)性。與直覺(jué)相反，AlphaZero 似乎對(duì)于“棋子角色”的重視程度較低?，F(xiàn)代競(jìng)技項(xiàng)目的一大基礎(chǔ)特性，所有參與方都具有價(jià)值。如果某一選手在棋盤上的棋子價(jià)值高于對(duì)方，則表示前者在棋子角色方面具有優(yōu)勢(shì)。但不同于此，AlphaZero 更傾向于在開局之初就犧牲這些棋子角色，從而獲得更為長(zhǎng)遠(yuǎn)的形勢(shì)性收益。

馬修指出，“令人印象深刻的是，它在各種角色與位點(diǎn)上都表現(xiàn)出這種強(qiáng)烈的行棋風(fēng)格?！彼瑫r(shí)觀察到，AlphaZero 在起步階段會(huì)非?？桃獾匾浴芭c人類非常相似的意圖”設(shè)計(jì)開局。

馬修解釋稱，“傳統(tǒng)引擎非常穩(wěn)定，幾乎不會(huì)出現(xiàn)明顯的錯(cuò)誤。但在面對(duì)沒(méi)有具體且可參考解決方案的位置時(shí)，則顯得束手無(wú)策。相比之下，AlphaZero 則能夠在這樣的位置上表現(xiàn)出「感覺(jué)」、「洞察」或者「直覺(jué)」。”

這種獨(dú)特的能力是其它傳統(tǒng)國(guó)際象棋引擎所不具備的，而且也在最近的世界國(guó)際象棋錦標(biāo)賽當(dāng)中為國(guó)際象棋愛(ài)好者們帶來(lái)了新的思路與啟發(fā)。馬格努斯·卡爾森（Magnus Carlsen）與法比亞諾·卡魯安納（Fabiano Caruana）之間的比賽就有所體現(xiàn)，《游戲規(guī)則改變者》一書就對(duì)此做出了進(jìn)一步探討。娜塔莎·里根表示，“對(duì) AlphaZero 以及頂級(jí)國(guó)際象棋引擎乃至頂級(jí)大師的行棋方式進(jìn)行分析，著實(shí)令人著迷?！?/p>

AlphaZero 帶來(lái)的經(jīng)驗(yàn)，也與 2016 年 AlphaGo 與傳奇圍棋大師李世石間的對(duì)弈有所呼應(yīng)。在此次比賽當(dāng)中，AlphaGo 走出了許多極具創(chuàng)造性的取勝手法，包括在第二場(chǎng)比賽中只用 37 步即告勝出——這徹底推翻了數(shù)百年來(lái)人類對(duì)于圍棋運(yùn)動(dòng)的理解。這些棋步已經(jīng)被包括李世石本人在內(nèi)的眾多棋手奉為經(jīng)典案例。在評(píng)論第 37 步時(shí)，李世石表示，“我一直認(rèn)為 AlphaGo 屬于那種基于概率的計(jì)算工具，畢竟它只是一臺(tái)機(jī)器。但在看到這一步時(shí)，我改變了看法。不可否認(rèn)，AlphaGo 擁有真正的創(chuàng)造力?！?/p>

與圍棋一樣，我們也對(duì) AlphaZero 在國(guó)際象棋領(lǐng)域表現(xiàn)出的創(chuàng)造性感到興奮。自從計(jì)算機(jī)時(shí)代開始以來(lái)，國(guó)際象棋一直是人工智能技術(shù)面臨的主要挑戰(zhàn)——包括巴貝奇、圖靈、香農(nóng)以及馮·諾伊曼在內(nèi)的眾多早期開拓者都在努力設(shè)計(jì)能夠解決國(guó)際象棋問(wèn)題的方案。但 AlphaZero 的適用于并不僅限于國(guó)際象棋、將棋或者圍棋。為了建立起能夠解決各類現(xiàn)實(shí)問(wèn)題的智能系統(tǒng)，我們要求其具備靈活性并能夠適應(yīng)各種新情況。雖然我們已經(jīng)在實(shí)現(xiàn)這一目標(biāo)方面取得了一定進(jìn)展，但其仍然是人工智能研究中的一大核心挑戰(zhàn)。目前的系統(tǒng)雖然能夠以極高的標(biāo)準(zhǔn)掌握特定技能，但卻往往無(wú)法解決甚至只經(jīng)過(guò)略微修改的任務(wù)。

AlphaZero 這種掌握三種不同復(fù)雜棋類（甚至有可能涵蓋一切完美信息類項(xiàng)目）的能力代表著克服這一問(wèn)題的重要一步。這證明單一算法完全有可能在不同的具體規(guī)則之下學(xué)習(xí)并發(fā)現(xiàn)新知識(shí)。另外，盡管尚處于早期發(fā)展階段，但 AlphaZero 的創(chuàng)造性見解加上我們?cè)?AlphaFold 等其它項(xiàng)目中觀察到的振奮人心的結(jié)果，使我們對(duì)于創(chuàng)建通用學(xué)習(xí)系統(tǒng)這一目標(biāo)充滿信心。這意味著我們有望發(fā)現(xiàn)更多新的解決方案，從而攻克那些最重要也最復(fù)雜的科學(xué)問(wèn)題。

下載論文：

https:///documents/260/alphazero_preprint.pdf

原文鏈接：

https:///blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱32937624 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)