【原】谷歌論文詳解AlphaZero：為國際象棋、將棋與圍棋帶來新曙光

科技行者 2020-10-12

展開全文

科技行者報(bào)道

來源：deepmind.com

編譯整理：科技行者

2017年年末，Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進(jìn)化到了 AlphaZero，利用自對(duì)弈強(qiáng)化學(xué)習(xí)，在短時(shí)間內(nèi)打敗了頂尖的國際象棋和將棋（日本版國際象棋）程序，也就是說，在只知道基本規(guī)則的情況下，AlphaZero 靠自對(duì)弈精通了圍棋、國際象棋和將棋。上周末，DeepMind 在《科學(xué)（Science）》期刊上發(fā)表了一篇通用強(qiáng)化學(xué)習(xí)算法論文（預(yù)印本PDF），得到了評(píng)審編輯的初步確認(rèn)與更新。論文描述了 AlphaZero 如何快速學(xué)習(xí)三種棋類游戲成為史上最強(qiáng)的棋手，盡管它僅了解游戲基本規(guī)則而沒有其它該領(lǐng)域的知識(shí)、且無需任何內(nèi)置指導(dǎo)。

“I can’t disguise my satisfaction that it plays with a very dynamic style, much like my own!（它在對(duì)弈中表現(xiàn)出的活力與能量讓我感到莫名興奮，在這一點(diǎn)我們是共通的?。?——加里·卡斯帕羅夫（Garry Kasparov），前國際象棋世界冠軍

這種從零開始學(xué)習(xí)棋類技藝的能力不會(huì)受到人類思維方式的束縛，因此催生出一種獨(dú)特、不同于傳統(tǒng)且極具創(chuàng)造力及動(dòng)態(tài)思考風(fēng)格的對(duì)弈方法。國際象棋大師 Matthew Sadler 與女子國際象棋大師 Natasha Regan 在即將于明年1月出版的《Game Changer》一書中對(duì) AlphaZero 的數(shù)千盤對(duì)弈進(jìn)行了分析，發(fā)現(xiàn)其棋路完全不同于任何以往國際象棋引擎。Matthew表示，“它的出現(xiàn)，就像是帶來了古代象棋大師的秘傳一般?！?/span>

包括世界計(jì)算機(jī)國際象棋冠軍 Stockfish 與 IBM 公司打造的“深藍(lán)”在內(nèi)的各種傳統(tǒng)國際象棋引擎，依賴于大量由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息用于解釋對(duì)弈中的每一種可能性。將棋也是如此，因此相關(guān)程序僅適用于一種棋類游戲，只是采用彼此相近的搜索引擎與算法。

AlphaZero的方法完全不同，它利用一套深層神經(jīng)網(wǎng)絡(luò)與大量通用型算法取代了手工編寫的規(guī)則。更重要的是，除了基本規(guī)則之外，這些算法中沒有預(yù)設(shè)任何固有方法。

圖：在國際象棋中，AlphaZero用4小時(shí)成功擊敗Stockfish; 擊敗將棋世界冠軍Elmo只花了2個(gè)小時(shí); 而在圍棋方面，AlphaZero用30個(gè)小時(shí)打敗了曾經(jīng)將圍棋世界冠軍李世石斬于馬下的AlphaGo。（備注：每個(gè)訓(xùn)練步驟代表著4096個(gè)盤面位置）

在學(xué)習(xí)棋藝的過程中，這套未訓(xùn)練神經(jīng)網(wǎng)絡(luò)利用強(qiáng)化學(xué)習(xí)這一實(shí)驗(yàn)與試錯(cuò)流程進(jìn)行數(shù)百萬輪自我對(duì)弈。最初，其基本就是隨意亂下，但隨著時(shí)間推移，系統(tǒng)會(huì)從勝利、失敗與平局當(dāng)中汲取經(jīng)驗(yàn)，調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)，確保自身在未來的選擇中做出更加有利的判斷。

“Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.（它選擇的某些棋步，例如將王移動(dòng)至棋盤中心，與原有將棋理論明顯沖突; 而且從人類的角度看，這可能導(dǎo)致其陷入不利局面。但難以置信的是，AlphaZero仍然牢牢把握著主動(dòng)權(quán)，其獨(dú)特的棋路讓我們意識(shí)到將棋中還隱藏著新的可能性。）"——Yoshiharu Habu，職業(yè)九段，唯一一位斬獲七大將棋賽桂冠的大師

訓(xùn)練完成之后，這套網(wǎng)絡(luò)將指導(dǎo)蒙特卡洛樹搜索（Monte-Carlo Tree Search，簡稱MCTS）算法選擇當(dāng)前盤面中最有利的走法。在每一步棋中，AlphaZero進(jìn)行的位置搜索量只相當(dāng)于傳統(tǒng)棋類引擎的極小一部分。以國際象棋為例，AlphaZero每秒只需要搜索6萬個(gè)位置，Stockfish則需要搜索大約6000萬個(gè)位置。

在訓(xùn)練完成之后，這套系統(tǒng)開始與最強(qiáng)大的傳統(tǒng)國際象棋（Stockfish）與將其（Elmo）引擎對(duì)抗，甚至與其前代版本AlphaGo來了一場“同室操戈”。

各程序運(yùn)行在專門設(shè)計(jì)的硬件上。Stockfish與Elmo需要44個(gè)CPU核心（與TCEC世界大賽時(shí)的硬件配置相同），AlphaZero與AlphaGo Zero則采用4個(gè)第一代TPU與44個(gè)CPU核心。第一代TPU的推理速度與英偉達(dá)Titan V GPU等商用硬件基本相當(dāng)，不過二者架構(gòu)差別很大，難以做出直接比較。
所有比賽時(shí)長均為3小時(shí)，每步棋額外增加15秒。

最終，AlphaZero在全部比拼中都以大比分勝出：

國際象棋中，AlphaZero打敗了206年第9屆TCEC世界錦標(biāo)賽冠軍Stockfish——AlphaZero勝出155場，且?guī)茁蕛H為千分之六。為了證明AlphaZero的發(fā)揮穩(wěn)定性，我們還為雙方準(zhǔn)備了人類常規(guī)開盤后的多種殘局。在各盤殘局中，AlphaZero仍能擊敗Stockfish。另外，我們也讓AlphaZero面對(duì)了2016年實(shí)際比賽中的真實(shí)開局，而其對(duì)手則換成近期剛剛進(jìn)行升級(jí)的Stockfish版本以及另一個(gè)擁有強(qiáng)大開局走法儲(chǔ)備的變體版本。雖然壓力很大，但AlphaZero仍然獲得了全勝戰(zhàn)績。
將棋比賽中，AlphaZero擊敗了2017年CSA世界錦標(biāo)賽冠軍Elmo，勝率為91.2%。
圍棋方面，AlphaZero擊敗了AlphaGo Zero，勝率為61%。

除了勝負(fù)之外，更重要的是AlphaZero在對(duì)弈中展現(xiàn)出的風(fēng)格。仍然以國際象棋為例，AlphaZero在自主學(xué)習(xí)與訓(xùn)練中就自行發(fā)現(xiàn)了不少常見的傳統(tǒng)技巧，例如開口、保王以及列兵等。但由于完全不受傳統(tǒng)思維的束縛，AlphaZero也發(fā)展出了自己的直覺與策略。其提出的一系列極為新穎的想法，大大擴(kuò)展了幾個(gè)世紀(jì)以來人類對(duì)于國際象棋策略的理解。

“Chess has been used as a Rosetta Stone of both human and machine cognition for over a century. AlphaZero renews the remarkable connection between an ancient board game and cutting-edge science by doing something extraordinary.（一個(gè)多世紀(jì)以來，國際象棋一直被視為區(qū)分人類與機(jī)器人認(rèn)知能力的羅塞塔石碑。AlphaZero擁有卓越的表現(xiàn)，讓我們開始從新的角度審視古老棋類與前沿科學(xué)之間的緊密關(guān)聯(lián)。）”——Garry Kasparov，前國際象棋世界冠軍

AlphaZero的棋路給棋手們留下了深刻的印象。Matthew Sadler表示，“它的走法擁有強(qiáng)烈的目的性與攻擊性，且一直將矛頭指向?qū)Ψ降耐?。”在此基礎(chǔ)上，AlphaZero還在對(duì)抗中極具動(dòng)態(tài)能力，包括盡可能提高我方棋子的靈活度與可移動(dòng)性，同時(shí)最大程度限制對(duì)方棋子的靈活度與可移動(dòng)性。同樣值得一提的是，現(xiàn)代棋藝?yán)砟钪姓J(rèn)為所有棋子具有價(jià)值，因此某一選手棋盤上棋子價(jià)值總高更高，則表明其在對(duì)弈中占據(jù)優(yōu)勢(shì)。與AlphaZero也并不太重視各種棋子的具體價(jià)值，而更傾向于在開局階段通過犧牲部分棋子獲得中遠(yuǎn)期競爭優(yōu)勢(shì)。

Matthew評(píng)論稱，“它在各種棋子類型及位置上都表現(xiàn)出這種強(qiáng)烈的價(jià)值取向，這無疑令人印象深刻?！彼瑫r(shí)觀察到，AlphaZero會(huì)在開局階段非常刻意地選擇“與人類高度相似的棋步?！?/span>

Matthew還提到，“傳統(tǒng)引擎非常穩(wěn)定，幾乎不會(huì)出現(xiàn)明顯的失誤。但在沒有可供參考的具體解決思路時(shí)，其往往有點(diǎn)無所適從。相比之下，AlphaZero能夠在這樣的情況下表現(xiàn)出「感覺」、「洞察」與「直觀」等傾向?！?/span>

“The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well, but we can actually learn from the new knowledge they produce.（這種影響絕不僅限于我最深愛的棋盤……這些自我學(xué)習(xí)的專業(yè)機(jī)器不僅棋藝超群，也能夠讓我們從其產(chǎn)生的新知識(shí)中得到啟發(fā)。）"——Garry Kasparov，前國際象棋世界冠軍

這種其它傳統(tǒng)棋類引擎所不具備的獨(dú)特能力，給眾多棋類愛好者們帶來了新的思路與啟發(fā)。Magnus Carlsen與Fabiano Caruana在最近的世界國際象棋錦標(biāo)賽當(dāng)中就采取了類似的戰(zhàn)略。Natasha Regan在《Game Changer》一書中提到，“對(duì)AlphaZero、各類頂級(jí)國際象棋引擎乃至頂級(jí)大師的棋路進(jìn)行分析，確實(shí)是件令人著迷的事。AlphaZero有可能成為整個(gè)棋壇的重要學(xué)習(xí)工具?！?/span>

不止是AlphaZero，AphaGo在2016年與傳奇大師李世石對(duì)陣時(shí)同樣表現(xiàn)出類似的驚艷棋步。在這輪比賽中，AlphaGo拿出了不少極具創(chuàng)造力的表現(xiàn)，特別是在第二場比賽中僅用37步就快速勝出——這徹底顛覆了人類幾百年來對(duì)圍棋的理解。李世石本人在內(nèi)的眾多棋手也開始進(jìn)行深入研究。在對(duì)第37步棋進(jìn)行評(píng)論時(shí)，李世石說道“我一直認(rèn)為AlphaGo屬于一種以概率為基礎(chǔ)的計(jì)算工具，畢竟它終究只是一臺(tái)機(jī)器。但在看到這一步后，我的看法發(fā)生了改變。必須承認(rèn)，AlphaGo確實(shí)具有創(chuàng)造力?！?/span>

與圍棋類似，我們對(duì)AlphaZero在國際象棋中表現(xiàn)出的創(chuàng)造力同樣感到興奮。自計(jì)算機(jī)時(shí)代開始以來，國際象棋一直是人工智能面臨的重要挑戰(zhàn)之一。巴貝奇、圖靈、香農(nóng)以及馮-諾依曼等眾多先驅(qū)都在努力尋找能夠解決國際象棋難題的方案。AlphaZero的出色之處，在于它的用途不限于國際象棋、將棋或者圍棋。為了解決各種現(xiàn)實(shí)問題，我們要求智能系統(tǒng)擁有強(qiáng)大的靈活性并能夠適應(yīng)不同新情況。雖然我們?cè)谶@方面取得了一定進(jìn)展，但問題在根本層面仍然沒有得到克服?，F(xiàn)有智能系統(tǒng)雖然能夠以極高的標(biāo)準(zhǔn)學(xué)會(huì)特定技能，卻仍無法處理哪怕只是做出了略微調(diào)整的任務(wù)。

AlphaZero能夠掌握三種不同的復(fù)雜棋類項(xiàng)目——甚至有望搞定一切可提供完美信息的項(xiàng)目——這代表著我們?cè)趯?shí)現(xiàn)通用型智能系統(tǒng)方面邁出了重要一步。就此來看，單一算法完全有可能在不同的規(guī)則束縛之下學(xué)習(xí)并發(fā)現(xiàn)新的知識(shí)。另外，尚處于早期發(fā)展階段的AlphaZero已經(jīng)能夠帶來創(chuàng)造性的見解; 再加上我們?cè)贏lphaFold等其它項(xiàng)目中得出的激動(dòng)人心的成果，如今我們對(duì)于建立通用學(xué)習(xí)系統(tǒng)開始充滿信心。總結(jié)來講，我們也許能夠發(fā)現(xiàn)更多新型解決方案，并最終克服那些最為重要、最為復(fù)雜的科學(xué)問題。