圍棋領(lǐng)域,人類最強(qiáng)大的大腦,也終于宣告完敗。 首發(fā) | 黑智(ID:VR-2014) 文 | 黑君 實(shí)際上,無論柯潔在今天的棋局上表現(xiàn)如何,AlphaGo在5月23日和5月25日,連續(xù)兩場戰(zhàn)勝,從前天起,這個(gè)結(jié)果已經(jīng)就被鎖定了。在昨日還進(jìn)行了配對(duì)賽和團(tuán)體賽,而在團(tuán)隊(duì)賽中,中國的5位世界冠軍聯(lián)手群戰(zhàn)AlphaGo,最后還是執(zhí)黑254手中盤告負(fù)。 圍棋領(lǐng)域,人類最強(qiáng)大的大腦,也終于宣告完敗。 圍棋比賽,看似離我們的生活還比較遙遠(yuǎn)。但是,我們又能不能把這場烏鎮(zhèn)的全民關(guān)注的棋局,單純看成一場娛樂的表演秀? 在有些人看來,似乎就是如此,我們還沒有看到AlphaGo下圍棋能夠給我們帶來何等改變。 但對(duì)另外一些人來說,這是令人恐懼的開端。機(jī)器會(huì)和我們一樣思考?它比我們強(qiáng)大,不需要受情緒、感情和身體因素的影響,如果搭配一個(gè)強(qiáng)有力的大腦,還有什么是它不能做的? 我們可以思考的問題,還有很多。AlphaGo究竟因?yàn)槭裁炊绱藦?qiáng)大,人類在機(jī)器面前是否就全無可以反攻的余地;除了下棋之外,AlphaGo還想告訴我們什么,它究竟能給未來帶來何等改變;以及,下一場,人類和機(jī)器,又將在什么戰(zhàn)局中對(duì)峙? 對(duì)弈中的AlphaGo有多可怕? 我已經(jīng)很拼了。能讓AlphaGo的主機(jī)發(fā)燙一下也好啊。 ——by:柯潔 今天的第三局,在上一局落敗后,柯潔提出本局仍由他執(zhí)白,哈薩比斯痛快地答應(yīng)了。第三局柯潔“回歸自然”,做回自己,不再受對(duì)手的影響。而AlphaGo在開局依然將第一手落在了右下角的位置上。雙方前4手常規(guī)開局,但隨后AlphaGo下出新手,柯潔開始長考,最終只能無奈脫先。 讓我們?cè)賮砘仡櫼幌虑皫讏銎寰?,以及AlphaGo讓我們?cè)?jīng)吃驚的地方。 1、勝半目是AlphaGo刻意而為之? 第一場,柯潔執(zhí)黑先行,以小目、三三開場。經(jīng)過4小時(shí)17分37秒,289手的激戰(zhàn)后,最后AlphaGo以1/4子取勝。盡管這是中國規(guī)則中最小的差距,但最可怕的是,賽后人們對(duì)此結(jié)果的猜測(cè):贏半目,是AlphaGo故意設(shè)置好的? 第一局棋到中盤時(shí),阿爾法狗已經(jīng)領(lǐng)先差不多一個(gè)貼目。但是之后,它采取了保守的下法,沒有寸土必爭。在賽后點(diǎn)棋的時(shí)候,柯潔就苦笑表示:“我很早就知道自己要輸1/4子,AlphaGo每步棋都是勻速,在最后單官階段也是如此,所以我就有時(shí)間點(diǎn)目?!?/p> 獨(dú)立IT評(píng)論人keso就在賽后第一時(shí)間評(píng)論表示這可能是AlphaGo特意而為之。 但業(yè)界對(duì)此也有不同的看法。畢竟,對(duì)于電腦而言,AlphaGo被設(shè)定的目標(biāo)就是勝利,而不是“贏幾目”。AlphaGo給自己的命令,是用最穩(wěn)妥的方法去贏,哪怕只是贏半目。極客幫創(chuàng)投合伙人蔣濤就認(rèn)為,這一說法尚不能證實(shí)。但是,他也同樣認(rèn)可,“最后能夠出現(xiàn)這么細(xì)微的局面,說明棋局是在AlphaGo的掌控之中的。畢竟它要確保的,是結(jié)果的勝利。至于勝1目還是勝10目,對(duì)電腦來說判斷都是一樣的?!?/p> 2、效仿對(duì)手開局?評(píng)價(jià)柯潔近乎“完美” 5月25日,第二局比賽進(jìn)行。 而比第一戰(zhàn)更加出乎人意料的是,比賽進(jìn)行到當(dāng)天中午13:37時(shí),柯潔主動(dòng)投子認(rèn)輸,AlphaGo提前一個(gè)多小時(shí),中盤取勝。 在第二局,AlphaGo執(zhí)黑先行。而它在落子前,不同以往地經(jīng)過了思索,最后選擇了第一局柯潔采用的小目、三三開局。 這是頗有意味的。要知道,AlphaGo公開問世以來到本次人機(jī)大戰(zhàn)之前,一共下了70局,包括與樊麾的5局、與李世石的5局、以Master網(wǎng)名在網(wǎng)上下的60局。這70局里,沒有一局開局就走了三三。 而柯潔在本場,則相對(duì)更加的沉穩(wěn)??梢钥闯?,柯潔在布局的策略上,本局下了更大的功夫。甚至在前面十幾手,能夠預(yù)料到AlphaGo多步棋的落子。比賽進(jìn)行到1小時(shí)的時(shí)候,DeepMind創(chuàng)始人、AlphaGo之父哈比薩斯在自己的推特寫道:“簡直不敢相信,根據(jù)AlphaGo的判斷,柯潔現(xiàn)在下得非常完美。” 之前一直有AlphaGo不擅長打劫的傳言,但本局中,面對(duì)柯潔引爆的劫爭,AlphaGo處理得非常得當(dāng),根本沒有回避打劫之舉。 在左下角的劫爭中,柯潔的一步失誤,頓時(shí)讓局勢(shì)無可挽回??聺嵲谶M(jìn)行了近20手的嘗試后,于155手投子認(rèn)輸。 這一局棋的震動(dòng)也是無可比擬的。在賽后發(fā)布會(huì)上,雙方都承認(rèn),當(dāng)天的棋局,在前面,AlphaGo根本沒有顯示出勝率優(yōu)勢(shì)。DeepMind方也表示:“柯潔在比賽中擁有了很多機(jī)會(huì),AlphaGo一度無法處理……我們作為開發(fā)者,從來沒有見過AlphaGo出現(xiàn)這么勢(shì)均力敵的情況?!?/p> 這可以說是,迄今為止,人類棋手在和AlphaGo的對(duì)弈中,最精彩的一局。 3、面對(duì)劣勢(shì)時(shí)AlphaGo怎么辦?認(rèn)輸、逼隊(duì)友認(rèn)輸…… 之后的最有趣和最令人懵逼的一幕,則出現(xiàn)在昨日的配對(duì)賽中。這場賽制規(guī)定,兩名中國棋手古力、連笑將分別和AlphaGo組隊(duì),雙方對(duì)壘。 之前,很多人猜測(cè)過,AlphaGo會(huì)不會(huì)有故意輸?shù)舯荣?、或者下臭棋的可能。那么,?dāng)AlphaGo真正面對(duì)劣勢(shì)時(shí),它是怎么處理的?這場比賽或許會(huì)告訴你答案。 在對(duì)決即將結(jié)束之時(shí),與古力搭檔的AlphaGo決定投子認(rèn)輸,古力卻拒絕了AlphaGo的要求,仍堅(jiān)持鏖戰(zhàn)。而之后,AlphaGo的棋路變得越來越消極,最終,古力在不可逆轉(zhuǎn)的情勢(shì)下,也只得認(rèn)輸。 不管你如何認(rèn)為,但明顯,AlphaGo已經(jīng)成為了控制棋局的關(guān)鍵。 現(xiàn)在的AlphaGo有多強(qiáng)大? 或許,關(guān)于AlphaGo的很多問題,可以在DeepMind對(duì)其算法的講解中得到解釋。 早在去年,AlphaGo就已經(jīng)以4:1戰(zhàn)勝過李世乭。而在今年年初,Master橫空出世,在弈城和野狐兩大圍棋網(wǎng)站上,和各國頂尖棋手快棋對(duì)弈,最后以60:0的戰(zhàn)績橫掃棋壇。而賽后,Master自揭真身,正是AlphaGo的最新版本。 而這次在烏鎮(zhèn)和柯潔對(duì)弈的,正是Master。年初的對(duì)弈中,柯潔已經(jīng)在快棋上,敗給了它。 AlphaGo Master和戰(zhàn)勝李世乭的AlphaGo Lee相比,有哪些區(qū)別?第一局賽后,DeepMind首席科學(xué)家席爾瓦在演講中透露,去年與李世乭對(duì)戰(zhàn)的AlphaGo Lee有50個(gè)TPUs在運(yùn)作,搜索50個(gè)棋步為10000個(gè)位置/秒,而昨天打敗柯潔的AlphaGo Master則是在單個(gè)TPU上進(jìn)行游戲,計(jì)算量只是去年那個(gè)版本的十分之一。 和柯潔對(duì)戰(zhàn)的是年初戰(zhàn)勝60位高手的AlphaGo Master。 目前的AlphaGo是單機(jī)版。 配備了4塊TPU。 與去年3月與李世石的比賽時(shí)相比,當(dāng)前的版本在處理計(jì)算時(shí)所消耗的能量僅為過去的十分之一。 目前,與柯潔對(duì)戰(zhàn)的AlphaGo Master的等級(jí)分已經(jīng)接近了4800分。 現(xiàn)在的AlphaGo采用強(qiáng)化學(xué)習(xí),讓人工智能進(jìn)行自我博弈,產(chǎn)生更強(qiáng)的神經(jīng)網(wǎng)絡(luò)。這一次AlphaGo用自我對(duì)弈訓(xùn)練出的策略網(wǎng)絡(luò),可以做到不需要更多運(yùn)算,直接給出下一步的決策。 相比之下,現(xiàn)在的AlphaGo比去年擊敗了李世石那一版的AlphaGo Lee相比要“強(qiáng)三子”。 4塊TPU,單機(jī)版,完虐了人類。而“強(qiáng)三子”的概念是什么?讓柯潔的反應(yīng)來告訴你。 如果說打敗了李世乭的AlphaGo是利用卷及神經(jīng)網(wǎng)絡(luò),讓它了解規(guī)則、了解棋局,從而進(jìn)行處理,那么,現(xiàn)在的AlphaGo,就增強(qiáng)了“思考”能力,并且,可以自學(xué)成才了。 在這次賽前,很多媒體報(bào)道,此次參戰(zhàn)的 AlphaGo 2.0 可能采用了全新的算法模型,放棄了監(jiān)督學(xué)習(xí),即未先學(xué)習(xí)人類棋譜的經(jīng)驗(yàn),而是直接通過對(duì)戰(zhàn)來獲得認(rèn)知和能力。但哈比薩斯在賽后發(fā)布會(huì)上回答,這明顯是個(gè)誤解。AlphaGo還是要學(xué)習(xí)人類經(jīng)驗(yàn),但這個(gè)版本的AlphaGo更依賴自我博弈來學(xué)習(xí)。 如何讓AlphaGo進(jìn)行監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),席爾瓦解釋,是讓AlphaGo先通過訓(xùn)練形成一個(gè)策略網(wǎng)絡(luò),將棋盤上的局勢(shì)作為輸入信息,并對(duì)所有可行的落子位置生成一個(gè)概率分布。然后,訓(xùn)練出一個(gè)價(jià)值網(wǎng)絡(luò),以 -1(對(duì)手的絕對(duì)勝利)到1(AlphaGo的絕對(duì)勝利)的標(biāo)準(zhǔn),預(yù)測(cè)所有可行落子位置的結(jié)果。也就是說,在這個(gè)過程中, AlphaGo不僅會(huì)算出自己的最優(yōu)選項(xiàng),還會(huì)根據(jù)自己下過的棋,經(jīng)過多層處理形成一個(gè)“值”,值高意味著自己贏,低意味著對(duì)手贏,并在棋局中的某一步判斷是否是關(guān)鍵的一步。 并且,AlphaGo的搜索算法能在計(jì)算能力之上,加入和人類直覺近似的判斷,讓它更接近人腦。 為什么選擇棋牌? 那么,為什么科學(xué)家都執(zhí)著于讓機(jī)器和棋牌類游戲過不去呢?讓一個(gè)電腦學(xué)會(huì)下棋,對(duì)我們究竟有什么好處? 原因很簡單。首先,棋牌類是人類智力活動(dòng)的象征,它的宣傳和號(hào)召能力自然也是其他運(yùn)動(dòng)所不能比擬的。 其次,自然是因?yàn)槠孱惙浅_m合作為AI算法的標(biāo)桿。機(jī)器和人對(duì)弈,是一個(gè)博弈的過程,它具有抽象的特性,而棋牌游戲的規(guī)則非常明確,狀態(tài)顯示則比較明確。 而在棋牌類中,圍棋是非常難以攻克的一類。我們都知道,搜索算法的復(fù)雜程度取決于分支系數(shù)——每一步棋可能的走法。相比起來,國際象棋的平均分支因子大約是35,而圍棋的平均分支因子為250,一局步數(shù)為350步,搜索樹有250^350個(gè)節(jié)點(diǎn),需要更加復(fù)雜和先進(jìn)的搜索算法。在1997年之前,就沒有出現(xiàn)過有競爭力的圍棋程序。 而戰(zhàn)勝眾多棋手的AlphaGo,使用的是蒙特卡洛樹搜索算法,借助值網(wǎng)絡(luò)(value network)與策略網(wǎng)絡(luò)(policy network)這兩種深度神經(jīng)網(wǎng)絡(luò),通過值網(wǎng)絡(luò)來評(píng)估大量選點(diǎn),并通過策略網(wǎng)絡(luò)選擇落點(diǎn)。 神經(jīng)網(wǎng)絡(luò)系統(tǒng)是以人類大腦為原型的信息處理模式,可以根據(jù)特定的輸入產(chǎn)生特定輸出,并實(shí)現(xiàn)圖片識(shí)別、語音識(shí)別等功能。谷歌做了兩個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)神經(jīng)網(wǎng)絡(luò)用于動(dòng)態(tài)評(píng)估——計(jì)算對(duì)手下一步棋落子的各自可能性,依靠計(jì)算機(jī)遠(yuǎn)遠(yuǎn)超過棋手的計(jì)算能力,在某種程度上會(huì)占據(jù)一定優(yōu)勢(shì)。另一個(gè)神經(jīng)網(wǎng)絡(luò)用于靜態(tài)評(píng)估——評(píng)估棋局交戰(zhàn)雙方總體態(tài)勢(shì)。 谷歌輸入了海量棋譜,讓AlphaGo以此為基礎(chǔ)進(jìn)行了難以計(jì)數(shù)的自我對(duì)局,以豐富其數(shù)據(jù)庫,預(yù)測(cè)對(duì)手的落子。 AlphaGo勝利后,今年1月,在美國賓夕法尼亞,卡內(nèi)基梅隆大學(xué)開發(fā)的德州撲克人工智能系統(tǒng)Libratus擊敗了四名頂尖人類高手,一舉獲得了20萬美元將近和177萬美元籌碼。 德?lián)浜虯lphaGo所擅長的圍棋不同。圍棋、國際象棋和西洋雙陸等被AI逐個(gè)攻破的游戲,都是“完美信息”游戲。也即是,所有玩家在游戲中,能夠獲得公開和對(duì)稱的確定信息。游戲中需要作出的決策點(diǎn)的數(shù)量,決定了機(jī)器的計(jì)算量。 而與之相比,德?lián)鋭t是“不完整信息”游戲。其中包含了更多的隱藏信息,每個(gè)玩家掌握的信息都是不對(duì)稱的,他只能看到自己的牌,卻不知道對(duì)手的牌,需要根據(jù)直覺推測(cè)對(duì)手手牌,選擇下注和放棄,并判斷對(duì)手的打法。因此,“不完整信息”博弈,就成為難以攻克的計(jì)算機(jī)難題。 而Libratus,基于在匹茲堡超級(jí)計(jì)算中心大約1500萬核心小時(shí)的計(jì)算,用算法分析德?lián)湟?guī)則,預(yù)測(cè)所有步驟的勝率,來進(jìn)行自己的下一步。和AlphaGo用大量棋局做訓(xùn)練不同,它沒有用專業(yè)牌局進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,而是用隨機(jī)生成的牌局(隨機(jī)產(chǎn)生公共牌、底池籌碼、玩家拿牌概率)和嘗試性的動(dòng)作帶來的結(jié)果(在隨機(jī)生成的輸入情況下模擬玩家跟牌后的結(jié)果)來作為訓(xùn)練數(shù)據(jù)。Libratus還采用了博弈論,它通過納什均衡來計(jì)算如何應(yīng)對(duì)對(duì)手的招數(shù),通過平衡風(fēng)險(xiǎn)和收益,對(duì)自身的下一步進(jìn)行修正,以期達(dá)到收益最大化。其程序名Libratus,就是來源于拉丁文“制衡”。 是的,所以,你知道,風(fēng)靡我國的“國民運(yùn)動(dòng)”麻將,就是不完美信息博弈的一種。目前雖然已經(jīng)有比較強(qiáng)的AI,但是和人類頂尖高手相比,還是有較大的差距。 柯潔之后,或許我們可以期待一場高水平的麻將人機(jī)大賽。 但據(jù)微軟亞洲研究院研究員楊懋和秦濤的文章,最難被AI攻克的,還是星際爭霸和我的世界這類游戲。它們不僅信息不對(duì)稱,而且游戲規(guī)則是開放性的。除了運(yùn)行速度上占優(yōu)勢(shì)外,計(jì)算機(jī)還還需要處理不斷出現(xiàn)的復(fù)雜的新情況?,F(xiàn)在,計(jì)算機(jī)還沒有在這些游戲中證明過自己的能力。 AlphaGo下完棋能做什么? “AlphaGo 贏了李世石,so what?下圍棋本來的樂趣就是對(duì)方下一把臭棋,結(jié)果機(jī)器不會(huì)下臭棋,那還有什么意思呢?” ——by:馬云 所以,我們可以意識(shí)到,棋牌類游戲,對(duì)于人工智能而言,是一種早期的演練?;蛟S它能夠讓游戲更有趣味,會(huì)挑戰(zhàn)專業(yè)棋手的價(jià)值,會(huì)引發(fā)很多人的思考和恐懼,但是,AlphaGo,或者說DeepMind,它的最終目標(biāo)不僅僅是下棋。DeepMind的最終目標(biāo),還是智能助手、醫(yī)療和機(jī)器人等領(lǐng)域。 谷歌現(xiàn)在有兩套人工智能系統(tǒng),包括谷歌的機(jī)器學(xué)習(xí)開發(fā)者工具TensorFlow,以及DeepMind的AlphaGo系統(tǒng),AlphaGo未來將計(jì)劃應(yīng)用在醫(yī)療看護(hù)、自動(dòng)駕駛車等部分。 在烏鎮(zhèn)的人工智能峰會(huì)上,Alphabet 董事長 Eric Schmidt談到機(jī)器學(xué)習(xí)和人工智能引領(lǐng)了“智能時(shí)代”的發(fā)展,他表示:“神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的爆發(fā)是我所經(jīng)歷過的最大變革”。他還表示,這些新技術(shù)不僅提升了日常的生產(chǎn)效率,更為企業(yè)帶來了無限機(jī)遇,尤其是在“醫(yī)療、交通以及政務(wù)”等領(lǐng)域。而谷歌的各項(xiàng)AI研究成果,也在這場交流中向國內(nèi)觀眾做了完全的展示。 比如機(jī)器學(xué)習(xí)在消費(fèi)產(chǎn)品中的應(yīng)用,包括 Google Photos以及Gmail。以 Google Photos最新版本為例,通過機(jī)器學(xué)習(xí)技術(shù),可以將照片中的雨滴去除,并為照片添加濾鏡,使其擁有與知名藝術(shù)作品一般的效果。 還比如,如何利用電腦工具幫助缺乏醫(yī)療資源的國家更廣泛地進(jìn)行眼疾診斷,這其中就包括了印度。印度擁有13億人口,總計(jì)缺少 127,000 名眼科醫(yī)生。Google 的機(jī)器學(xué)習(xí)模型診斷眼疾的準(zhǔn)確率,甚至略微高于一些通過美國認(rèn)證委員會(huì)認(rèn)證的眼科醫(yī)生。這個(gè)技術(shù)還有很大的潛能可以應(yīng)用到其它疾病的診斷,例如斯坦福的研究者近期已經(jīng)開始使用 TensorFlow 利用圖像進(jìn)行皮膚癌的診斷。 TensorFlow 是現(xiàn)在 GitHub 上世界第一的機(jī)器學(xué)習(xí)知識(shí)庫,其使用增長率遠(yuǎn)遠(yuǎn)高于其它同類型平臺(tái)。比利時(shí)公司Connecterra 就將TensorFlow 應(yīng)用到了牧場當(dāng)中,而澳大利亞的研究者則將此項(xiàng)技術(shù)用于判斷海牛種群的健康狀況。 Google 翻譯也用到了TensorFlow。隨著神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的引入,翻譯結(jié)果有了顯著提高。同時(shí),結(jié)合了“計(jì)算機(jī)視覺”使得 Google 翻譯 App 能夠利用手機(jī)攝像頭進(jìn)行即時(shí)圖像翻譯,這項(xiàng)功能正是通過TensorFlow 在移動(dòng)設(shè)備上的版本來實(shí)現(xiàn)的。在文藝領(lǐng)域,還有“Portrait Matcher” ,一個(gè)可以利用攝像頭將你的面部特征與類似藝術(shù)品匹配的功能。 柯潔戰(zhàn)后說:“未來是人工智能的?!倍斯ぶ悄?,終究是人類所開發(fā)的。 暫時(shí)我們也不必?fù)?dān)憂,人類將被機(jī)器所完全取代和統(tǒng)治。李開復(fù)的答案是,人工智能目前只有在符合以下三個(gè)前提的領(lǐng)域里,將全面戰(zhàn)勝人類: 第一,有海量的數(shù)據(jù); 第二,數(shù)據(jù)有標(biāo)準(zhǔn); 第三,單一領(lǐng)域。 在前不久的IT領(lǐng)袖峰會(huì)上,李彥宏也說:“強(qiáng)人工智能時(shí)代,也許永遠(yuǎn)不會(huì)到來?!?/p> 也許,機(jī)器并不值得我們?nèi)タ謶帧5嬲膳碌氖聦?shí),其實(shí)是,我們并不知道,人類會(huì)將它推向哪一步…… |
|