“AlphaGo 之父”杰米斯·哈薩比斯(Demis Hassabis)有燦爛的笑容,這位來自英國的國際象棋神童、連續(xù)創(chuàng)業(yè)者,有點像極客版憨豆。與人們印象中呆板的程序員不同,哈薩比斯有自如的社交控制力,當(dāng)在場數(shù)十位記者幾乎都舉起手來要提問時,他開心地笑了。 5月下旬是烏鎮(zhèn)的好季節(jié),梅雨未至,陽光燦爛。在柯潔大戰(zhàn)AlphaGo后的夜晚,哈薩比斯帶著他的員工在古鎮(zhèn)的酒吧里暢飲。 哈薩比斯少年成名,但他廣為中國人所知,是在2016年春天之后。AlphaGo在韓國戰(zhàn)勝世界排名第二的職業(yè)圍棋選手李世石后,“深度學(xué)習(xí)”“機器學(xué)習(xí)”以及“人工智能超越人類”的論調(diào)廣為傳播,而在中國,這變成了世界排名第一的柯潔挑戰(zhàn)AlphaGo。 AlphaGo也需要與人類高手對戰(zhàn),以便在對戰(zhàn)中學(xué)習(xí)人類高手的棋路,每多學(xué)習(xí)一次,AlphaGo大腦中的數(shù)據(jù)庫就會完善一次,就像吸星大法一樣把各大高手的招數(shù)都學(xué)會了,才能天下無敵。在烏鎮(zhèn)之戰(zhàn)之前,哈薩比斯謙虛地說,他是帶著AlphaGo來學(xué)習(xí)的,之前,AlphaGo只是在自我對弈中學(xué)習(xí),“它要跟人類專家對弈才能改善”,他是來“測試AlphaGo系統(tǒng)”的。 與柯潔之戰(zhàn)是AlphaGo的終極之戰(zhàn)。 “上帝”的出其不意。 從去年李世石之戰(zhàn)后,柯潔就開始分析AlphaGo的棋路??聺嵉年犛阎茴Q蛞驗槟7翧lphaGo的下法,在與人類的比賽上屢獲戰(zhàn)果,被稱為“阿爾法羊”。 2016年12月29日,一個名為Master的圍棋高手在網(wǎng)絡(luò)上擊敗中韓十多位圍棋世界冠軍,其中包括中韓第一人柯潔和樸廷桓,連勝60場。之后,DeepMind聯(lián)合創(chuàng)始人、CEO哈薩比斯在推特上發(fā)聲明:Master就是擊敗李世石后的AlphaGo最新版,代為落子的是AlphaGo團隊的黃士杰博士?!皠傔^去的幾天,我們在網(wǎng)絡(luò)的對弈平臺進行了一些非正式的快棋對局,目的是為了檢驗我們最新版本的AlphaGo是否如我們的預(yù)期?!?/p> 自那以后,所有人都認為,柯潔必敗。柯潔也是這么認為的。5月23日,“柯狗首戰(zhàn)”,柯潔的時間還剩下13分28秒,解說員華以剛說:其實柯潔心里已經(jīng)知道結(jié)果了,但他還是把最后的棋下完。這有點像一個多月前柯潔在北京中國棋院二樓應(yīng)下這場比賽時的心態(tài)。比賽之后,柯潔說:“很早就知道要輸1/4子,輸?shù)脹]什么脾氣,確實很厲害。AlphaGo跟去年完全是兩個人,第一次時,(它的下法)很接近人,現(xiàn)在的棋太不一樣了。它以前還是有弱點的,現(xiàn)在越來越像上帝?!?/p> 上帝經(jīng)常出些意外,比如“點三三”。四千多年的圍棋有著成熟的套路,“四路外勢線,三路實地線,二路失敗線”。點三三即是在X和Y都是三的坐標(biāo)上下子,這是AlphaGo在連勝的60場中常用的開局手法,在烏鎮(zhèn)首戰(zhàn)上,柯潔也在開局就下了“三三”,賽后,柯潔自述:我是想看看AlphaGo怎么應(yīng)對“點三三”。 “如果我小時候這么早點三三,一定被老師罵死?!睔W洲圍棋冠軍、西安人樊輝,是最早與AlphaGo正式對弈的職業(yè)選手,在0:5完敗后,加入了DeepMind公司,“去年以來,自從AlphaGo一早點了三三,很多棋手都開始學(xué)這一手?!?/p> AlphaGo對圍棋界的沖擊,被上升到“進入一個新時代”的高度。 烏鎮(zhèn)敗后,柯潔痛哭:“AI進步速度實在太快了,每一次都是巨大的顛覆。人跟它的差距,不是靠努力就能彌補的。到最后,人贏的概率接近于零?!?/p> 人算不如天算。 即使有再充足的時間—圍棋賽制每人總時間是3小時,柯潔也不能在比賽期間每下一子都算到50步,這是AlphaGo設(shè)定的推算步數(shù),這個計算能力,在2015年戰(zhàn)勝樊輝時就已經(jīng)達到。 圍棋一直被認為是人類智力對抗電腦的“最后堡壘”,由19乘以19個落點組成的棋盤,第一步就有361個可能,應(yīng)對這一步棋的下法有360個可能……如此類推,窮舉法的運算結(jié)果是一個天文數(shù)字。哈薩比斯說:“圍棋是所有游戲里復(fù)雜程度最高的,即使運用這個星球上所有電腦,運算一百萬年,也不能計算出所有的可能性?!?/p> 在AlphaGo出現(xiàn)以前,北京郵電大學(xué)圍棋研究所所長劉知青教授據(jù)此寫了一本書,他在書中預(yù)言,圍棋軟件要戰(zhàn)勝職業(yè)棋手,還需要十年。 哈薩比斯博士打了劉教授的臉。 1997年,戰(zhàn)勝國際象棋冠軍卡斯帕羅夫的IBM“深藍”是一臺超級計算機,把每一步棋都算出來了。然而,計算機運算能力的20年提升并不是AlphaGo勝出的原因,機器自己學(xué)會了下圍棋才是。 哈薩比斯解釋,“深藍”是一個預(yù)編程的電腦,棋譜都存在數(shù)據(jù)庫里?!拔覀冋J為,這種(戰(zhàn)勝人類的)智慧不在機器里,而是在程序員心中?!盇lphaGo并沒有預(yù)設(shè)的棋譜,“AlphaGo每下一步棋,都要計算這一步棋的最大獲勝概率”。只有概率,所以AlphaGo點了“三三”。 AlphaGo最先學(xué)習(xí)人類的棋譜,后來自我對戰(zhàn),再后來在與職業(yè)棋手對弈中訓(xùn)練,“機器學(xué)習(xí)”是去年AlphaGo對戰(zhàn)李世石后流行的一個詞。 “機器學(xué)習(xí)”最典型的案例由“谷歌大腦”創(chuàng)始人吳恩達做出,AI不認識貓,但在掃描了互聯(lián)網(wǎng)上無數(shù)貓的圖片后,AI“認識”了貓。 在DeepMind創(chuàng)業(yè)之初,哈薩比斯也在玩機器學(xué)習(xí)。他設(shè)計了一個AI用來玩80年代流行的Atari(雅達利)游戲,AI事先并未獲得任何如何玩游戲的信息,只提供控制器、顯示器、游戲得分等數(shù)據(jù),并輸入指令:盡可能得高分。在無數(shù)次學(xué)習(xí)和試錯后,AI成為游戲高手。后來,《太空入侵者》以及《乒乓球》等紅白機年代的游戲,AI都很快從零開始學(xué)習(xí)成為高手。 圍棋是游戲之王,“棋盤中有巨大的落子位置,就像宇宙中的原子一樣”,在試過各種小游戲后,哈薩比斯最終挑戰(zhàn)圍棋。AlphaGo就是DeepMind的最強大腦。 柯潔與AlphaGo的對戰(zhàn),不僅開創(chuàng)了圍棋的新時代,也開創(chuàng)了人工智能的新時代。 DeepMind,很可能是人工智能的序幕。 神童的頓悟。 在成為AlphaGo之父以前,哈薩比斯是世界國際象棋大師、電腦游戲設(shè)計師、神經(jīng)學(xué)家以及企業(yè)家。 哈薩比斯4歲開始下國際象棋,一年之后“在國內(nèi)立于不敗之地”。11歲他去列支敦士登參加了國際巡回賽,“一個非常大的比賽大廳,幾百名來自世界各國的棋手”。哈薩比斯的對手是當(dāng)時的丹麥冠軍,下到第10個小時,他突然有頓悟的感覺,站起來認輸,說:“我們是不是在浪費大腦?這個級別的比賽選手都是頂尖的,為什么不用我們的腦力去做點更有意義的事情,比如解決癌癥問題,找到其他疾病的治愈方法,那不是更好嗎?” 丹麥冠軍被這個當(dāng)時在兒童組排名世界第二的神童嚇到了?!八腥硕枷氘?dāng)然地認為這就是我將來的職業(yè),下棋是我生活的全部?!?017年,哈薩比斯接受BBC廣播節(jié)目《荒島唱片》專訪時提到他的父母,“我的父母也非常有意思,如果用一個詞形容的話,那就是'放蕩不羈’。我的父母都喜歡按自己的喜好做事,這對我們?nèi)齻€人都有影響,那就是不要循規(guī)蹈矩,走自己的路,并且一直走下去。” 哈薩比斯注定有不平凡的人生,提前兩年完成高中學(xué)業(yè),17歲就領(lǐng)導(dǎo)了經(jīng)典模擬游戲Theme Park(《主題公園》,1994年推出)的開發(fā)工作,在劍橋大學(xué)取得計算機學(xué)位后,在1998年成立了自己的游戲公司。 游戲公司業(yè)績平平,2005年,哈薩比斯進入倫敦大學(xué)攻讀認知神經(jīng)科學(xué)博士,開創(chuàng)性地發(fā)現(xiàn)大腦中海馬體與情景記憶間的關(guān)系。2011年,哈薩比斯決定放棄博士后的研究生生活,與人工智能專家同事雷格(Shane Legg)以及連續(xù)創(chuàng)業(yè)家蘇萊曼(Mustafa Suleyman)一起創(chuàng)立DeepMind公司,目標(biāo)是“解決智能問題”。 DeepMind早期的投資人是特斯拉創(chuàng)始人Musk和Skype聯(lián)合創(chuàng)始人Jaan Tallinn。開局就高屋建瓴,但DeepMind一直很低調(diào),直到2013年12月在美國出席著名的機器學(xué)習(xí)研究大會(NIPS),自動學(xué)習(xí)玩紅白機游戲的DeepMind AI把在場的人工智能研究高手都嚇呆了。當(dāng)時還沒有人知道會自動學(xué)習(xí)的AI有什么作用,但谷歌知道。在太浩湖展示后的一個月,谷歌以6.28億美元收購了DeepMind。那時還沒有AlphaGo。 DeepBlue的時代已經(jīng)結(jié)束了, AlphaGo的時代才剛開始。 哈薩比斯在成立DeepMind時,目標(biāo)是研究人工通用智能(AGI),也就是用人工智能解決所有的問題?!叭祟愂峭ㄟ^經(jīng)驗來解決問題的,把在一個任務(wù)中學(xué)到的經(jīng)驗,用在另一個任務(wù)中,機器也可以這樣。”哈薩比斯把這個目標(biāo)形容為“21 世紀的阿波羅登月計劃”。 今天的DeepMind團隊有400人,其中250人擁有國際知名學(xué)府博士學(xué)位,“即使這樣,我們的進展還很慢”。 哈薩比斯是個夜貓子,他說自己的工作習(xí)慣跟別人不太一樣:“我早上4點才睡,晚上10點或者11點開始第二天的工作,一直工作到第二天早上。通常,我會在這幾個小時里進行研究,讀最新的學(xué)術(shù)論文,創(chuàng)造性地思考。” AlphaGo只是哈薩比斯的一個小實驗品。在烏鎮(zhèn)賽后的新聞發(fā)布會上,哈薩比斯宣布這是AlphaGo參加的最后一場賽事。 AlphaGo的退役并不奇怪,曾經(jīng)和DeepBlue(深藍)對戰(zhàn)的象棋世界冠軍卡斯帕羅夫研究AlphaGo后,表達了這樣的觀點:DeepBlue的時代已經(jīng)結(jié)束了,AlphaGo的時代才剛開始。 “我相信這是對的,AlphaGo的設(shè)計不僅僅是為了圍棋,更是為了通用的問題?!闭?1歲的哈薩比斯說的,這么強的大腦用來下棋,不如用來思考如何解決癌癥。哈薩比斯希望AlphaGo也有解決癌癥的能力。 在烏鎮(zhèn)的人工智能大會上,哈薩比斯表達了他對人工智能的觀點:“第一,必須造福全人類,不能用于研發(fā)武器,而是用于科學(xué)制藥;第二,技術(shù)不能只限于幾大公司,而應(yīng)該是全人類共享?!?/p> 跟他的校友霍金教授一樣,哈薩比斯喜歡思考宇宙的終極問題。他喜歡看《星際穿越》:“這部電影和我的最終目標(biāo)關(guān)聯(lián)緊密,我想理解我們周圍的整個宇宙,《星際穿越》的主題正是這樣:時間、黑洞、我們在整個宇宙中的真正地位?!惫_比斯說,解開宇宙之謎團,解答生命的意義,“這正是未來我想用AI做的事”。 |
|