專家評圍棋之神“阿爾法元”：成績令人欣喜，但AI還在路上

讀思行666 2017-10-21

展開全文

在金庸的小說《射雕英雄傳》里，周伯通“左手畫圓，右手畫方”，左手攻擊右手，右手及時反搏，自娛自樂，終無敵于天下。

現實世界中，亦有這么一個“幼童”，他沒見過一個棋譜，也沒有得到一個人指點，從零開始，自娛自樂，自己參悟，用了僅僅40天，便稱霸圍棋武林。

這個“幼童”，叫阿爾法元(AlphaGo Zero)，就是今年5月在烏鎮(zhèn)圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門“師弟”。不過，這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄，在“師弟”阿爾法元從零自學第21天后，便被其擊敗。

通知：來領專屬紅包福利！

10月19日，一手創(chuàng)造了AlphaGo神話的谷歌DeepMind團隊在Nature雜志上發(fā)表重磅論文Mastering the game of Go without human knowledge，介紹了團隊最新研究成果——阿爾法元的出世，引起業(yè)內轟動。

雖師出同門，但是師兄弟的看家本領卻有本質的差別。

“過去所有版本的AlphaGo都從利用人類數據進行培訓開始，它們被告知人類高手在這個地方怎么下，在另一個地方又怎么下?！?DeepMind阿爾法狗項目負責人David Silver博士在一段采訪中介紹，“而阿爾法元不使用任何人類數據，完全是自我學習，從自我對弈中實踐?！?

展開剩余81%

David Silver博士介紹，在他們所設計的算法中，阿爾法元的對手，或者叫陪練，總是被調成與其水平一致?！八运菑淖罨A的水平起步，從零開始，從隨機招式開始，但在學習過程中的每一步，它的對手都會正好被校準為匹配器當前水平，一開始，這些對手都非常弱，但是之后漸漸變得越來越強大?！?

這種學習方式正是當今人工智能最熱門的研究領域之一——強化學習（Reinforcement learning）。

昆山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞（www.thepaper.cn）介紹，DeepMind團隊此次所利用的一種新的強化學習方式，是從一個對圍棋沒有任何知識的神經網絡開始，然后與一種強大的搜索算法相結合，“簡單地解釋就是，它開始不知道該怎么做，就去嘗試，嘗試之后，看到了結果，若是正面結果，就知道做對了，反之，就知道做錯了，這就是它自我學習的方法?！?

這一過程中，阿爾法元成為自己的“老師”，神經網絡不斷被調整更新，以評估預測下一個落子位置以及輸贏，更新后的神經網絡又與搜索算法重新組合，進而創(chuàng)建一個新的、更強大的版本，然而再次重復這個過程，系統(tǒng)性能經過每一次迭代得到提高，使得神經網絡預測越來越準確，阿爾法元也越來越強大。

其中值得一提的是，以前版本的阿爾法狗通常使用預測下一步的“策略網絡(policy network)”和評估棋局輸贏的“價值網絡(value network)”兩個神經網絡。而更為強大的阿爾法元只使用了一個神經網絡，也就是兩個網絡的整合版本。

這個意義上而言，“AlphaGo Zero”譯成“阿爾法元”，而不是字面上的“阿爾法零”，“內涵更加豐富，代表了人類認知的起點——神經元?！崩铌拷淌谡f。

上述研究更新了人們對于機器學習的認知。“人們一般認為，機器學習就是關于大數據和海量計算，但是通過阿爾法元，我們發(fā)現，其實算法比所謂計算或數據可用性更重要。”DavidSilver博士說。

李昕教授長期專注于制造業(yè)大數據研究，他認為，這個研究最有意義的一點在于，證明了人工智能在某些領域，也許可以擺脫對人類經驗和輔助的依賴?！叭斯ぶ悄艿囊淮箅y點就是，需要大量人力對數據樣本進行標注，而阿爾法元則證明，人工智能可以通過'無監(jiān)督數據（unsupervised data）'，也就是人類未標注的數據，來解決問題。”

有人暢想，類似的深度強化學習算法，或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標注數據的領域。

不過，究竟有多大實際意義，能應用到哪些現實領域，李昕教授表示“還前途未卜”，“下圍棋本身是一個比較局限的應用，人類覺得下圍棋很復雜，但是對于機器來說并不難。而且，下圍棋只是一種娛樂方式，不算作人們在生活中遇到的實際問題?！?

那么，谷歌的AI為什么會選擇圍棋？

據《第一財經》報道，歷史上，電腦最早掌握的第一款經典游戲是井字游戲，這是1952年一位博士在讀生的研究項目；隨后是1994年電腦程序Chinook成功挑戰(zhàn)西洋跳棋游戲；3年后，IBM深藍超級計算機在國際象棋比賽中戰(zhàn)勝世界冠軍加里· 卡斯帕羅夫。

除了棋盤游戲外，IBM的Watson系統(tǒng)在2011年成功挑戰(zhàn)老牌智力競賽節(jié)目Jeopardy游戲一戰(zhàn)成名；2014年，Google自己編寫的算法，學會了僅需輸入初始像素信息就能玩幾十種Atari游戲。

但有一項游戲仍然是人類代表著頂尖水平，那就是圍棋。

谷歌DeepMind創(chuàng)始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明，有著3000多年歷史的圍棋是人類有史以來發(fā)明出來的最復雜的游戲，對于人工智能來說，這是一次最尖端的大挑戰(zhàn)，需要直覺和計算，要想熟練玩圍棋需要將模式識別和運籌帷幄結合。

“圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數量級單位，10的100次方，甚至比宇宙中的原子數量還要多)?！币虼?，傳統(tǒng)的人工智能方法也就是“為所有可能的步數建立搜索樹”，在圍棋游戲中幾乎無法實現。

而打敗了人類的AlphaGo系統(tǒng)的關鍵則是，將圍棋巨大無比的搜索空間壓縮到可控的范圍之內。David Silver博士此前曾介紹，策略網絡的作用是預測下一步，并用來將搜索范圍縮小至最有可能的那些步驟。另一個神經網絡“價值網絡(valuenetwork)”則是用來減少搜索樹的深度，每走一步估算一次游戲的贏家，而不是搜索所有結束棋局的途徑。

李昕教授對阿爾法元帶來的突破表示欣喜，但同時他也提到，“阿爾法元證明的只是在下圍棋這個游戲中，無監(jiān)督學習（unsupervised learning）比有監(jiān)督學習（supervised learning）'更優(yōu)'，但并未證明這就是'最優(yōu)'方法，也許兩者結合的semi-supervised learning，也就是在不同時間和階段，結合有監(jiān)督或無監(jiān)督學習各自的優(yōu)點，可以得到更優(yōu)的結果。”

李昕教授說，人工智能的技術還遠沒有達到人們所想象的程度，“比如，互聯網登錄時用的reCAPTCHA驗證碼（圖像或者文字），就無法通過機器學習算法自動識別”，他說，在某些方面，機器人確實比人做得更好，但目前并不能完全替換人。“只有當科研證明，一項人工智能技術能夠解決一些實際問題和人工痛點時，才真正算作是一個重大突破?！?

昆山杜克大學常務副校長、中美科技政策和關系專家丹尼斯·西蒙（Denis Simon）博士在接受澎湃新聞采訪時表示，阿爾法元在圍棋領域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現了自身能力的提升，每一次它都變得更聰明，每一次棋局也更有挑戰(zhàn)性。這種重復性的、充分參與的學習增強了阿爾法元處理更高層次的、戰(zhàn)略復雜問題的能力。但缺點是這是一個封閉的系統(tǒng)?！鞍柗ㄔ绾文軌虺^自身的局限獲得進一步的成長？換句話說，它能跳出框框思考嗎？”

聲明：本文由入駐搜狐號作者撰寫，除搜狐官方賬號外，觀點僅代表作者本人，不代表搜狐立場。