科技行者報(bào)道 來源:deepmind.com 編譯整理:科技行者 2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進(jìn)化到了 AlphaZero,利用自對(duì)弈強(qiáng)化學(xué)習(xí),在短時(shí)間內(nèi)打敗了頂尖的國際象棋和將棋(日本版國際象棋)程序,也就是說,在只知道基本規(guī)則的情況下,AlphaZero 靠自對(duì)弈精通了圍棋、國際象棋和將棋。上周末,DeepMind 在《科學(xué)(Science)》期刊上發(fā)表了一篇通用強(qiáng)化學(xué)習(xí)算法論文(預(yù)印本PDF),得到了評(píng)審編輯的初步確認(rèn)與更新。論文描述了 AlphaZero 如何快速學(xué)習(xí)三種棋類游戲成為史上最強(qiáng)的棋手,盡管它僅了解游戲基本規(guī)則而沒有其它該領(lǐng)域的知識(shí)、且無需任何內(nèi)置指導(dǎo)。 “I can’t disguise my satisfaction that it plays with a very dynamic style, much like my own!(它在對(duì)弈中表現(xiàn)出的活力與能量讓我感到莫名興奮,在這一點(diǎn)我們是共通的?。?——加里·卡斯帕羅夫(Garry Kasparov),前國際象棋世界冠軍 這種從零開始學(xué)習(xí)棋類技藝的能力不會(huì)受到人類思維方式的束縛,因此催生出一種獨(dú)特、不同于傳統(tǒng)且極具創(chuàng)造力及動(dòng)態(tài)思考風(fēng)格的對(duì)弈方法。國際象棋大師 Matthew Sadler 與女子國際象棋大師 Natasha Regan 在即將于明年1月出版的《Game Changer》一書中對(duì) AlphaZero 的數(shù)千盤對(duì)弈進(jìn)行了分析,發(fā)現(xiàn)其棋路完全不同于任何以往國際象棋引擎。Matthew表示,“它的出現(xiàn),就像是帶來了古代象棋大師的秘傳一般?!?/span> 包括世界計(jì)算機(jī)國際象棋冠軍 Stockfish 與 IBM 公司打造的“深藍(lán)”在內(nèi)的各種傳統(tǒng)國際象棋引擎,依賴于大量由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息用于解釋對(duì)弈中的每一種可能性。將棋也是如此,因此相關(guān)程序僅適用于一種棋類游戲,只是采用彼此相近的搜索引擎與算法。 AlphaZero的方法完全不同,它利用一套深層神經(jīng)網(wǎng)絡(luò)與大量通用型算法取代了手工編寫的規(guī)則。更重要的是,除了基本規(guī)則之外,這些算法中沒有預(yù)設(shè)任何固有方法。 圖:在國際象棋中,AlphaZero用4小時(shí)成功擊敗Stockfish; 擊敗將棋世界冠軍Elmo只花了2個(gè)小時(shí); 而在圍棋方面,AlphaZero用30個(gè)小時(shí)打敗了曾經(jīng)將圍棋世界冠軍李世石斬于馬下的AlphaGo。(備注:每個(gè)訓(xùn)練步驟代表著4096個(gè)盤面位置) 在學(xué)習(xí)棋藝的過程中,這套未訓(xùn)練神經(jīng)網(wǎng)絡(luò)利用強(qiáng)化學(xué)習(xí)這一實(shí)驗(yàn)與試錯(cuò)流程進(jìn)行數(shù)百萬輪自我對(duì)弈。最初,其基本就是隨意亂下,但隨著時(shí)間推移,系統(tǒng)會(huì)從勝利、失敗與平局當(dāng)中汲取經(jīng)驗(yàn),調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù),確保自身在未來的選擇中做出更加有利的判斷。 “Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.(它選擇的某些棋步,例如將王移動(dòng)至棋盤中心,與原有將棋理論明顯沖突; 而且從人類的角度看,這可能導(dǎo)致其陷入不利局面。但難以置信的是,AlphaZero仍然牢牢把握著主動(dòng)權(quán),其獨(dú)特的棋路讓我們意識(shí)到將棋中還隱藏著新的可能性。)"——Yoshiharu Habu,職業(yè)九段,唯一一位斬獲七大將棋賽桂冠的大師 訓(xùn)練完成之后,這套網(wǎng)絡(luò)將指導(dǎo)蒙特卡洛樹搜索(Monte-Carlo Tree Search,簡稱MCTS)算法選擇當(dāng)前盤面中最有利的走法。在每一步棋中,AlphaZero進(jìn)行的位置搜索量只相當(dāng)于傳統(tǒng)棋類引擎的極小一部分。以國際象棋為例,AlphaZero每秒只需要搜索6萬個(gè)位置,Stockfish則需要搜索大約6000萬個(gè)位置。 在訓(xùn)練完成之后,這套系統(tǒng)開始與最強(qiáng)大的傳統(tǒng)國際象棋(Stockfish)與將其(Elmo)引擎對(duì)抗,甚至與其前代版本AlphaGo來了一場“同室操戈”。
最終,AlphaZero在全部比拼中都以大比分勝出:
除了勝負(fù)之外,更重要的是AlphaZero在對(duì)弈中展現(xiàn)出的風(fēng)格。仍然以國際象棋為例,AlphaZero在自主學(xué)習(xí)與訓(xùn)練中就自行發(fā)現(xiàn)了不少常見的傳統(tǒng)技巧,例如開口、保王以及列兵等。但由于完全不受傳統(tǒng)思維的束縛,AlphaZero也發(fā)展出了自己的直覺與策略。其提出的一系列極為新穎的想法,大大擴(kuò)展了幾個(gè)世紀(jì)以來人類對(duì)于國際象棋策略的理解。 “Chess has been used as a Rosetta Stone of both human and machine cognition for over a century. AlphaZero renews the remarkable connection between an ancient board game and cutting-edge science by doing something extraordinary.(一個(gè)多世紀(jì)以來,國際象棋一直被視為區(qū)分人類與機(jī)器人認(rèn)知能力的羅塞塔石碑。AlphaZero擁有卓越的表現(xiàn),讓我們開始從新的角度審視古老棋類與前沿科學(xué)之間的緊密關(guān)聯(lián)。)”——Garry Kasparov,前國際象棋世界冠軍 AlphaZero的棋路給棋手們留下了深刻的印象。Matthew Sadler表示,“它的走法擁有強(qiáng)烈的目的性與攻擊性,且一直將矛頭指向?qū)Ψ降耐?。”在此基礎(chǔ)上,AlphaZero還在對(duì)抗中極具動(dòng)態(tài)能力,包括盡可能提高我方棋子的靈活度與可移動(dòng)性,同時(shí)最大程度限制對(duì)方棋子的靈活度與可移動(dòng)性。同樣值得一提的是,現(xiàn)代棋藝?yán)砟钪姓J(rèn)為所有棋子具有價(jià)值,因此某一選手棋盤上棋子價(jià)值總高更高,則表明其在對(duì)弈中占據(jù)優(yōu)勢(shì)。與AlphaZero也并不太重視各種棋子的具體價(jià)值,而更傾向于在開局階段通過犧牲部分棋子獲得中遠(yuǎn)期競爭優(yōu)勢(shì)。 Matthew評(píng)論稱,“它在各種棋子類型及位置上都表現(xiàn)出這種強(qiáng)烈的價(jià)值取向,這無疑令人印象深刻?!彼瑫r(shí)觀察到,AlphaZero會(huì)在開局階段非常刻意地選擇“與人類高度相似的棋步?!?/span> Matthew還提到,“傳統(tǒng)引擎非常穩(wěn)定,幾乎不會(huì)出現(xiàn)明顯的失誤。但在沒有可供參考的具體解決思路時(shí),其往往有點(diǎn)無所適從。相比之下,AlphaZero能夠在這樣的情況下表現(xiàn)出「感覺」、「洞察」與「直觀」等傾向?!?/span> “The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well, but we can actually learn from the new knowledge they produce.(這種影響絕不僅限于我最深愛的棋盤……這些自我學(xué)習(xí)的專業(yè)機(jī)器不僅棋藝超群,也能夠讓我們從其產(chǎn)生的新知識(shí)中得到啟發(fā)。)"——Garry Kasparov,前國際象棋世界冠軍 這種其它傳統(tǒng)棋類引擎所不具備的獨(dú)特能力,給眾多棋類愛好者們帶來了新的思路與啟發(fā)。Magnus Carlsen與Fabiano Caruana在最近的世界國際象棋錦標(biāo)賽當(dāng)中就采取了類似的戰(zhàn)略。Natasha Regan在《Game Changer》一書中提到,“對(duì)AlphaZero、各類頂級(jí)國際象棋引擎乃至頂級(jí)大師的棋路進(jìn)行分析,確實(shí)是件令人著迷的事。AlphaZero有可能成為整個(gè)棋壇的重要學(xué)習(xí)工具?!?/span> 不止是AlphaZero,AphaGo在2016年與傳奇大師李世石對(duì)陣時(shí)同樣表現(xiàn)出類似的驚艷棋步。在這輪比賽中,AlphaGo拿出了不少極具創(chuàng)造力的表現(xiàn),特別是在第二場比賽中僅用37步就快速勝出——這徹底顛覆了人類幾百年來對(duì)圍棋的理解。李世石本人在內(nèi)的眾多棋手也開始進(jìn)行深入研究。在對(duì)第37步棋進(jìn)行評(píng)論時(shí),李世石說道“我一直認(rèn)為AlphaGo屬于一種以概率為基礎(chǔ)的計(jì)算工具,畢竟它終究只是一臺(tái)機(jī)器。但在看到這一步后,我的看法發(fā)生了改變。必須承認(rèn),AlphaGo確實(shí)具有創(chuàng)造力?!?/span> 與圍棋類似,我們對(duì)AlphaZero在國際象棋中表現(xiàn)出的創(chuàng)造力同樣感到興奮。自計(jì)算機(jī)時(shí)代開始以來,國際象棋一直是人工智能面臨的重要挑戰(zhàn)之一。巴貝奇、圖靈、香農(nóng)以及馮-諾依曼等眾多先驅(qū)都在努力尋找能夠解決國際象棋難題的方案。AlphaZero的出色之處,在于它的用途不限于國際象棋、將棋或者圍棋。為了解決各種現(xiàn)實(shí)問題,我們要求智能系統(tǒng)擁有強(qiáng)大的靈活性并能夠適應(yīng)不同新情況。雖然我們?cè)谶@方面取得了一定進(jìn)展,但問題在根本層面仍然沒有得到克服?,F(xiàn)有智能系統(tǒng)雖然能夠以極高的標(biāo)準(zhǔn)學(xué)會(huì)特定技能,卻仍無法處理哪怕只是做出了略微調(diào)整的任務(wù)。 AlphaZero能夠掌握三種不同的復(fù)雜棋類項(xiàng)目——甚至有望搞定一切可提供完美信息的項(xiàng)目——這代表著我們?cè)趯?shí)現(xiàn)通用型智能系統(tǒng)方面邁出了重要一步。就此來看,單一算法完全有可能在不同的規(guī)則束縛之下學(xué)習(xí)并發(fā)現(xiàn)新的知識(shí)。另外,尚處于早期發(fā)展階段的AlphaZero已經(jīng)能夠帶來創(chuàng)造性的見解; 再加上我們?cè)贏lphaFold等其它項(xiàng)目中得出的激動(dòng)人心的成果,如今我們對(duì)于建立通用學(xué)習(xí)系統(tǒng)開始充滿信心。總結(jié)來講,我們也許能夠發(fā)現(xiàn)更多新型解決方案,并最終克服那些最為重要、最為復(fù)雜的科學(xué)問題。 |
|