2017 年末,DeepMind 推出了 AlphaZero——一套能夠從零開始自主學(xué)習(xí)國(guó)際象棋、將棋(類似于日本版的國(guó)際象棋)以及圍棋的技藝,從而全面超越各項(xiàng)目世界冠軍的系統(tǒng)。 對(duì)于這一系統(tǒng)帶來(lái)的初步成果,整個(gè)公司的研發(fā)人員都感到非常興奮,并很高興看到國(guó)際象棋界成員對(duì)此做出的熱烈回應(yīng)。他們?cè)?AlphaZero 的棋藝當(dāng)中發(fā)現(xiàn)了一種突破性、高度動(dòng)態(tài)且“不同于傳統(tǒng)”的對(duì)弈風(fēng)格,這也使其完全不同于以往存在過(guò)的任何棋類游戲引擎。 今天,AlphaZero 登上了著名的《科學(xué)》雜志,并以封面論文的形式發(fā)表,它背后的公司 DeepMind 也在官方博客上撰文,為這一系統(tǒng)取得的最新成就進(jìn)行了詳細(xì)解析,InfoQ 將全文翻譯整理如下: 今天,我們很高興地發(fā)布 AlphaZero 的完整評(píng)估報(bào)告,這篇論文已經(jīng)公開發(fā)表在《科學(xué)》雜志上: http://science./content/362/6419/1140 評(píng)審編輯已經(jīng)確認(rèn)并更新了這些初步結(jié)果。論文描述了 AlphaZero 如何快速學(xué)習(xí)每一種棋類,包括在僅獲得游戲基本規(guī)則、但完全不存在內(nèi)置指導(dǎo)的前提下從隨機(jī)游戲開始,一步步成長(zhǎng)為有史以來(lái)最強(qiáng)大的棋手。 這種從零開始學(xué)習(xí)每種棋類的能力由于不受人類固有思維的約束,因此產(chǎn)生出一種獨(dú)特、有悖于傳統(tǒng),但卻極具創(chuàng)造性與動(dòng)態(tài)思考的對(duì)弈風(fēng)格。國(guó)際象棋大量馬修·薩德勒(Matthew Sadler)與女子國(guó)際象棋大師娜塔莎·里根(Natasha Regan)在即將于明年 1 月出版的《游戲規(guī)則改變者(Game Changer)》一書中分析了 AlphaZero 進(jìn)行的數(shù)千盤國(guó)際象棋對(duì)弈,并發(fā)現(xiàn)其風(fēng)格不同于任何傳統(tǒng)的國(guó)際象棋引擎。馬修表示,“這就像是發(fā)現(xiàn)了古代棋藝大師的秘籍一樣?!?/p> 傳統(tǒng)的國(guó)際象棋引擎——包括世界計(jì)算機(jī)國(guó)際象棋冠軍 Stockfish 與 IBM 廣為人知的“深藍(lán)”——依賴于數(shù)千條由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息嘗試解釋游戲中的每一種可能性。將棋同樣遵循此理,其程序僅適用于將棋本身,但采用與國(guó)際象棋程序類似的搜索引擎與算法。 AlphaZero 采取的方法則完全不同,其利用一套深層神經(jīng)網(wǎng)絡(luò)與大量通用型算法取代了那些手工制作的規(guī)則,而且這些算法除了棋類的基本規(guī)則之外一無(wú)所知。 在國(guó)際象棋當(dāng)中,AlphaZero 僅用了 4 個(gè)小時(shí)便成功擊敗 Stockfish; 在將棋方面,其擊敗 Elmo 則僅用掉 2 個(gè)小時(shí) ; 至于圍棋,AlphaZero 在 30 個(gè)小時(shí)即擊敗曾于 2016 年壓倒世界冠軍李世石的 AlphaGo 版本。注意:每個(gè)訓(xùn)練步驟代表 4096 個(gè)盤面位置。 為了學(xué)習(xí)每種棋類,這套未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)通過(guò)一種被稱為強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)與試錯(cuò)過(guò)程完成數(shù)百萬(wàn)盤自我對(duì)弈。起初,其完全是在隨機(jī)亂下 ; 但隨著時(shí)間的推移,系統(tǒng)會(huì)從勝利、失敗以及平局當(dāng)中學(xué)習(xí)經(jīng)驗(yàn),從而調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù),使其更有可能在未來(lái)的選擇中做出有利判斷。網(wǎng)絡(luò)所需要的訓(xùn)練量取決于游戲的風(fēng)格與復(fù)雜程度——國(guó)際象棋大約需要 9 個(gè)小時(shí),將其大約需要 12 個(gè)小時(shí),而圍棋則需要 13 天。 這套經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)被用于指導(dǎo)一種搜索算法——被稱為蒙特卡洛樹搜索(簡(jiǎn)稱 MCTS)——坐而選擇當(dāng)前盤面下最為有利的棋步。對(duì)于每一步棋,AlphaZero 所需要的位置搜索量只相當(dāng)于傳統(tǒng)國(guó)際象棋引擎的一小部分。例如在國(guó)際象棋當(dāng)中,AlphaZero 每秒只需要搜索 6 萬(wàn)個(gè)位置 ; 相比之下,Stockfish 則需要搜索大約 6000 萬(wàn)個(gè)位置。 經(jīng)過(guò)全面訓(xùn)練之后,這套系統(tǒng)被用于對(duì)抗最強(qiáng)大的傳統(tǒng)國(guó)際象棋(Stockfish)與將棋(Elmo)引擎,甚至還包括 AlphaZero“一奶同胞”的大哥 AlphaGo——全球最強(qiáng)圍棋棋手。
然而,更令人著迷的是 AlphaZero 在對(duì)弈過(guò)程中展現(xiàn)出的行棋風(fēng)格。例如,在國(guó)際象棋當(dāng)中,AlphaZero 在自我學(xué)習(xí)與訓(xùn)練當(dāng)中獨(dú)立發(fā)現(xiàn)并使用了常見的人類行棋模式,例如開口、保王以及兵陣等等。然而,由于自學(xué)成才且完全不受傳統(tǒng)觀念的影響,AlphaZero 也發(fā)展出了自己的直覺(jué)與策略。其提出的一系列令人興奮的新穎想法,大大拓展了幾個(gè)世紀(jì)以來(lái)人類對(duì)于國(guó)際象棋戰(zhàn)略的理解。 棋手們首先注意到的,一定是 AlphaZero 的行棋風(fēng)格。馬修·薩德勒表示,“它的走法充滿了目的性與攻擊性,始終圍繞著對(duì)方的王進(jìn)行謀劃?!币源藶榛A(chǔ),AlphaZero 還擁有著高度動(dòng)態(tài)化的對(duì)弈能力,這最大限度提高了其棋路的靈活性與移動(dòng)性,同時(shí)最大限制著對(duì)方棋子的靈活性與移動(dòng)性。與直覺(jué)相反,AlphaZero 似乎對(duì)于“棋子角色”的重視程度較低?,F(xiàn)代競(jìng)技項(xiàng)目的一大基礎(chǔ)特性,所有參與方都具有價(jià)值。如果某一選手在棋盤上的棋子價(jià)值高于對(duì)方,則表示前者在棋子角色方面具有優(yōu)勢(shì)。但不同于此,AlphaZero 更傾向于在開局之初就犧牲這些棋子角色,從而獲得更為長(zhǎng)遠(yuǎn)的形勢(shì)性收益。 馬修指出,“令人印象深刻的是,它在各種角色與位點(diǎn)上都表現(xiàn)出這種強(qiáng)烈的行棋風(fēng)格?!彼瑫r(shí)觀察到,AlphaZero 在起步階段會(huì)非??桃獾匾浴芭c人類非常相似的意圖”設(shè)計(jì)開局。 馬修解釋稱,“傳統(tǒng)引擎非常穩(wěn)定,幾乎不會(huì)出現(xiàn)明顯的錯(cuò)誤。但在面對(duì)沒(méi)有具體且可參考解決方案的位置時(shí),則顯得束手無(wú)策。相比之下,AlphaZero 則能夠在這樣的位置上表現(xiàn)出「感覺(jué)」、「洞察」或者「直覺(jué)」。” 這種獨(dú)特的能力是其它傳統(tǒng)國(guó)際象棋引擎所不具備的,而且也在最近的世界國(guó)際象棋錦標(biāo)賽當(dāng)中為國(guó)際象棋愛(ài)好者們帶來(lái)了新的思路與啟發(fā)。馬格努斯·卡爾森(Magnus Carlsen)與法比亞諾·卡魯安納(Fabiano Caruana)之間的比賽就有所體現(xiàn),《游戲規(guī)則改變者》一書就對(duì)此做出了進(jìn)一步探討。娜塔莎·里根表示,“對(duì) AlphaZero 以及頂級(jí)國(guó)際象棋引擎乃至頂級(jí)大師的行棋方式進(jìn)行分析,著實(shí)令人著迷?!?/p> AlphaZero 帶來(lái)的經(jīng)驗(yàn),也與 2016 年 AlphaGo 與傳奇圍棋大師李世石間的對(duì)弈有所呼應(yīng)。在此次比賽當(dāng)中,AlphaGo 走出了許多極具創(chuàng)造性的取勝手法,包括在第二場(chǎng)比賽中只用 37 步即告勝出——這徹底推翻了數(shù)百年來(lái)人類對(duì)于圍棋運(yùn)動(dòng)的理解。這些棋步已經(jīng)被包括李世石本人在內(nèi)的眾多棋手奉為經(jīng)典案例。在評(píng)論第 37 步時(shí),李世石表示,“我一直認(rèn)為 AlphaGo 屬于那種基于概率的計(jì)算工具,畢竟它只是一臺(tái)機(jī)器。但在看到這一步時(shí),我改變了看法。不可否認(rèn),AlphaGo 擁有真正的創(chuàng)造力?!?/p> 與圍棋一樣,我們也對(duì) AlphaZero 在國(guó)際象棋領(lǐng)域表現(xiàn)出的創(chuàng)造性感到興奮。自從計(jì)算機(jī)時(shí)代開始以來(lái),國(guó)際象棋一直是人工智能技術(shù)面臨的主要挑戰(zhàn)——包括巴貝奇、圖靈、香農(nóng)以及馮·諾伊曼在內(nèi)的眾多早期開拓者都在努力設(shè)計(jì)能夠解決國(guó)際象棋問(wèn)題的方案。但 AlphaZero 的適用于并不僅限于國(guó)際象棋、將棋或者圍棋。為了建立起能夠解決各類現(xiàn)實(shí)問(wèn)題的智能系統(tǒng),我們要求其具備靈活性并能夠適應(yīng)各種新情況。雖然我們已經(jīng)在實(shí)現(xiàn)這一目標(biāo)方面取得了一定進(jìn)展,但其仍然是人工智能研究中的一大核心挑戰(zhàn)。目前的系統(tǒng)雖然能夠以極高的標(biāo)準(zhǔn)掌握特定技能,但卻往往無(wú)法解決甚至只經(jīng)過(guò)略微修改的任務(wù)。 AlphaZero 這種掌握三種不同復(fù)雜棋類(甚至有可能涵蓋一切完美信息類項(xiàng)目)的能力代表著克服這一問(wèn)題的重要一步。這證明單一算法完全有可能在不同的具體規(guī)則之下學(xué)習(xí)并發(fā)現(xiàn)新知識(shí)。另外,盡管尚處于早期發(fā)展階段,但 AlphaZero 的創(chuàng)造性見解加上我們?cè)?AlphaFold 等其它項(xiàng)目中觀察到的振奮人心的結(jié)果,使我們對(duì)于創(chuàng)建通用學(xué)習(xí)系統(tǒng)這一目標(biāo)充滿信心。這意味著我們有望發(fā)現(xiàn)更多新的解決方案,從而攻克那些最重要也最復(fù)雜的科學(xué)問(wèn)題。 下載論文: https:///documents/260/alphazero_preprint.pdf 原文鏈接: https:///blog/alphazero·shedding·new·light·grand·games·chess·shogi·and·go/ |
|
來(lái)自: 昵稱32937624 > 《待分類》