AlphaGo VS Lee Sedol
這段時間大家(主要是中韓英三國)都非常關注圍棋人機對戰(zhàn)?,F(xiàn)在來看,結局真的不太重要的,其實當?shù)谝痪諥lphago贏了之后,Google的目的也就達到了(簡直一石二鳥,不僅測試了自己的程序,還將人工智能從行業(yè)討論推到了公眾討論層面),所以現(xiàn)在來說,無論結局如何,意義都已經(jīng)不在勝負本身了。Google也不是無聊到花這么多錢就想弄個東西來虐虐大師們,還大張旗鼓地這么宣傳,主要啊還是想弄清楚自己的程序是不是足夠優(yōu)秀了,之前算法的改進路徑是不是對的,這個也就一前奏罷了,更多的野心體現(xiàn)在以后的專業(yè)領域(例如Google自己說在醫(yī)療領域)可以幫助人類更好的完成任務,至于怎么幫助,還得先從AlphaGo本身說起。 今年的Nature有一篇文章對AlphaGo進行了詳細介紹(http://www./nature/journal/v529/n7587/full/nature16961.html),大意是說AlphaGo是一套為了圍棋優(yōu)化的設計周密的深度學習引擎,使用了神經(jīng)網(wǎng)路加上蒙特卡羅樹搜索,并且用上了巨大的谷歌云計算資源,結合CPU+GPU,加上從高手棋譜和自我學習的功能。這套系統(tǒng)比以前的圍棋系統(tǒng)提高了接近1000分的Elo(圍棋等級分),從業(yè)余5段提升到可以擊敗職業(yè)2段的水平,超越了前人對圍棋領域的預測,更達到了人工智能領域的重大里程碑。 但是不久前才打敗了歐洲冠軍樊麾的Alphago,怎么會進步這么快,在這幾天和李世乭的對弈中連拿兩局呢?想弄清楚這一點我們得先了解下AlphaGo的系統(tǒng)構成,簡單點說,Alphago就是一個黑盒子,但是他整合了不同機器學習技術、棋譜學習和自我學習、相對非??蓴U張的architecture(讓其充分利用谷歌的計算資源)、CPU+GPU并行發(fā)揮優(yōu)勢的整合。這套“工程”不但有世界頂級的機器學習技術,也有非常高效的代碼,還有谷歌強大的計算資源。 具體來說,這個系統(tǒng)主要由幾個部分組成:
1. 走棋網(wǎng)絡(Policy Network),給定當前局面,預測/采樣下一步的走棋。 2. 快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質(zhì)量的條件下,速度要比1快1000倍。 3. 估值網(wǎng)絡(Value Network),給定當前局面,估計是白勝還是黑勝。 4. 蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統(tǒng)。
當然繼續(xù)解釋下去就應該是電腦下棋的基本原理以及幫助電腦下圍棋的兩個核心模塊“落子選擇器”和“棋局評估器”的解釋了,這樣講下去貌似有點跑題了,打住打住~(對AlphaGo工作原理感興趣的同學可以看下這篇文章:http://www./2016/01/28/alphago)
“國際象棋電腦程序想要在人類大師級(Master)選手中贏得一場比賽的唯一可能,是等到這位大師喝得爛醉、同時在下著50盤棋、并且犯下一個他一年才可能犯一次的錯誤時?!?/p> “電腦永遠也不可能擊敗特級大師(Grand Master)?!?/p>
“電腦永遠也不可能擊敗實力強勁的特級大師?!?/p>
“也許電腦可以擊敗實力強勁的特級大師,但它永遠也無法擊敗國際象棋世界冠軍卡斯帕羅夫。”
“AlphaGo這次的比賽打敗李世乭比較懸?!?/p>
“AlphaGo永遠也不可能擊敗實力強勁的中國圍棋選手,因為它根本就連不上服務器!”
想想人工智能一路走來也是挺不容易的,從最初的Deep Blue到現(xiàn)在的AlphaGo,AI科學家們總在想著法子來證明自己,但是就目前來看,AI究竟發(fā)展到什麼程度了呢?從這個點入手來分析這次棋局得背后博弈我覺得再合適不過了。 首先是在增強學習方面。在AlphaGo中,增強學習(Reinforcement Learning)所扮演的角色并沒有想像中那么大。理想情況下,我們希望人工智能系統(tǒng)能在對局中動態(tài)地適應環(huán)境和對手的招式并且找到辦法反制之,但是在AlphaGo中增強學習更多地是用于提供更多質(zhì)量更好的樣本,給有監(jiān)督學習(Supervised Learning)以訓練出更好的模型。所以這上面AlphaGo落了下風。 而情感方面,人類所蘊含的諸多情感,到今天為止也沒有任何信息學家、生物學家能更證實感性作用在戰(zhàn)略上是不占優(yōu)勢的。但是高度理性的特點確實在局部戰(zhàn)略上可以獲得優(yōu)勢。如果從另外一個側面思考,我們所有人都能大體體會別人的感覺和情緒,那么這就鑄就了另外一種信息傳遞和表達的通道,在社會網(wǎng)絡和群體中的信息優(yōu)勢可以通過這種信息感知過程和表達過程發(fā)揮出長期的戰(zhàn)略優(yōu)勢,如藝術的修養(yǎng)、文學的修養(yǎng)、同情等。這些優(yōu)勢相對直接的理性優(yōu)勢可以表達為幼年期兒童的哭鬧,因為兒童明白感性也是可以通過向特定感性對象傳達才能得意理解的,兒童明白向父母哭,但是從來不向IPAD哭,因為可能他們實驗過幾次,但是沒有得到任何感性的回應。 而感性的回應從策略上講是非常模糊的,所以很難界定回應的真實戰(zhàn)略意義,一般我們就稱其為情感回應。從博弈上來看是信息和策略的運用,而感性系統(tǒng)和理性系統(tǒng)交叉在人類的行為中,所以從AI的角度,更加難理解李世石的每一步?jīng)Q策,因為這些決策雖然是相同的神經(jīng)網(wǎng)絡做出的決策,但是卻受到激素、經(jīng)驗、情感的多重干預,對AI來講可能包含著某種更加深意的策略行為,而ANN是純的算法和數(shù)學,所以它并沒有能力理解Lee所傳遞的綜合信息,所以在雙方博弈的時候,只有很少的部分能回應他。KBA轉(zhuǎn)播中李世石情不自禁的轉(zhuǎn)頭看向Alpha GO,但是這一弊Alpha GO是不能夠理解的。人類的博弈游戲從來都不是純理性的結果,是理性和感性交織組合的結果。兩個人類棋手的相互直視間其實完成了理性、感性、社會優(yōu)勢、生理優(yōu)勢多方面的交叉比較,而Alpha GO只能是個下棋工具,情感方面人類是占有優(yōu)勢的。 從計算量來衡量,我覺得雙方的計算和信息輸入量是均等的。Alpha GO的能耗比可能更高一些,李世石的能耗是225千卡/小時,而Alpha GO的能耗約是280000瓦特時, 從能耗比方面李是更加綠色環(huán)保的圍棋大師。從神經(jīng)計算信息量來測量,Lee的神經(jīng)系統(tǒng)裝機總量小于AlphaGo,有2億個神經(jīng)元。AL GO大約有 200億個計算單元(一次0/1換量為2),最麻煩的是李世石之能調(diào)動1-3%的神經(jīng)元量(他下棋的時候),而Alpha Go可以調(diào)動90-100%的裝機總量。所以他們在計算力上有生物功能上的差距。這種差距是生物需氧量的限制,因為活動大量神經(jīng)元系統(tǒng)需要很多能量,調(diào)動全部腦神經(jīng)需要更多氧氣,人類的呼吸能力不能達標。其次是過度氧化衰老的問題,過度氧化產(chǎn)生后果就是衰老和糖化。所以我們在能量效應上來看,這是一場不太公平的對決。 總得來看,AI和實際人類的自然構造結構雖然在一定程度上逼近了,但是人類系統(tǒng)過于復雜,想高度模仿或者超越人類系統(tǒng),哪怕是最容易模仿的神經(jīng)系統(tǒng),從物理環(huán)境、介質(zhì)、能耗、復雜系統(tǒng)各個方面均很難超越。似乎這和事實很不相符啊,畢竟AlphaGo昨天才又贏了一盤。但是前面說過了,Lee是在和機器下棋,確切地說是和算法對弈,所以上面的這些優(yōu)勢也就在一定情況下變成了劣勢。 估計這些我們普通人也看不大懂,也沒什么興趣看,畢竟離我們的生活有點遠。其實有個問題我一直不理解,為啥AI科學家執(zhí)意要讓機器人往情感方向上走呢?這里就和大家討論下這個問題。
看看Apple的Siri,Microsoft的Cortana、小冰對于自然語言的理解,不得不承認在近些年上有巨大的進步,但是距離人類的語言水平依然差距甚遠。 這里我們所說的AI,并不是真正的和人類一樣,具有獨立思維,能夠進行獨立判斷。目前所有號稱所謂的AI應該是沒有這方面能力的,只是由一堆天才將事先設計好的數(shù)學模型用計算機能理解的方式,告知計算機,然后根據(jù)這個模型進行模式判斷,從事某個專一功能。當然這個過程中,可能會對模型本身進行修正,也就是所謂的”自主學習” 那么一個人機對戰(zhàn)我們可以理解為一個棋類大師對戰(zhàn)一堆數(shù)學怪才,是的,沒錯,就是一堆。由這一堆怪才分析了大量的棋譜等各種資料,建立一套龐大且復雜的體系,最終建模。然后依托于計算機強大的計算能力。在這里,AI首先得益于背后強大的科研團隊,獲得了大量研究成果,其次將這些研究成果交由電腦,根據(jù)實際情況判斷并處理,再次依賴電腦強大的計算能力。在這一過程中,AI擁有得天獨厚的優(yōu)勢,先是規(guī)避了計算機沒有獨立分析能力的劣勢,有專業(yè)人員將分析結果直接告訴電腦,其次,極大發(fā)揮了電腦善于數(shù)學運算的優(yōu)勢。相對于人腦,也許每秒只能做幾次加法運算,而電腦可以做幾億次,幾十億次每秒的運算,這大概就是所說的“勤能補拙”吧。 而人腦的優(yōu)勢則在于抽象、分析、理解能力,比如一個老朋友10年沒見面,10年后的某一天也許見面,這個人的長相、衣著都有了比較大的變化,但人腦依舊可以迅速給出反應,這是我以前的同學/同事/上司…相比于電腦,簡直不能說甩了幾條街,是甩了無數(shù)個宇宙。 所以人和機器在優(yōu)勢上就有著本質(zhì)的區(qū)別,那么為什么不讓機器做自己擅長的事,人類的事兒則由人類完成呢?如果這樣,是不是就不會有機器取代人類之類的說法了呢?這里只是提出了幾個疑問,問題的解答仍然需要AI界的科學家來完成。 回到正題,昨天人機大戰(zhàn)第二盤結果出來之后,看到很多朋友表示興奮之余又不緊背后發(fā)涼,驚呼AI將統(tǒng)治人類,或者是不久的將來AI智力將超越人類,我覺得這個不能這么看,角度不對。
電腦戰(zhàn)勝國際象棋冠軍,其實也摧毀了國際象棋這項運動,國際象棋的受關注程度大幅降低。這次的角色換成了人工智能和圍棋。這次比賽結束后,盡管人與人之間的對弈還會繼續(xù),但是棋手心理陰影的面積和人類自己對這項運動的評價,只有自己知道。 昨天朋友圈就有一棋友發(fā)文:“難道以后的棋神就是一臺機器了?OMG~” 其實換個角度來想想,這事兒還挺好玩的。大家應該知道,與之前的圍棋系統(tǒng)相比,AlphaGo較少依賴圍棋的領域知識,但還遠未達到通用系統(tǒng)的程度。職業(yè)棋手可以在看過了寥寥幾局之后明白對手的風格并采取相應策略,一位資深游戲玩家也可以在玩一個新游戲幾次后很快上手,但到目前為止,人工智能系統(tǒng)要達到人類水平,還是需要大量樣本的訓練的??梢哉f,沒有千年來眾多棋手在圍棋上的積累,就沒有圍棋AI的今天。 這也就是說,如果我們自身沒法繼續(xù)提高自己,按照模式學習這套辦法來看,就算再多幾個月,它能夠收集使用的人類頂尖棋手的新棋譜不會增加很多,利用這個機制能夠獲得的提升會很有限。這就好比兩個業(yè)余1段的小孩,如果讓他們自己不斷對弈也許能提升到2段,但如果沒有更多的高手信息(例如棋譜或者指導),那他們倆哪怕每天互相下一千萬盤棋,仍然提升不到4、5段。 因為目前機器學習技術的一大瓶頸,是需要大量的高質(zhì)量樣本才能構建出強大的模型;但是人類在許多任務上往往只需很少的樣本就能顯著提升能力,這是目前的機器學習技術做不到的。 另一方面,AlphaGo還不是一個可以自主運行的系統(tǒng),還需要人的參與;也就是說,人類的智慧進步過程中,通過輸入和輸出的持續(xù)反饋,人腦的硬件結構并沒有直接被外界干預,而人腦的思維(算法)又是完全依賴于各種細胞和分子構件的硬件,相比之下,AlphaGo可能還不會通過輸入和輸出的各種反饋而自己改變算法(不知道實際情況是不是這樣),而是要依靠人類設計者團隊去優(yōu)化算法。人類的知識進步本來就是拉馬克式遺傳或者叫獲得性遺傳,因此,至少目前來看AlphaGo仍然應該被視為人類知識積累在計算機硬件輔助下的一種延伸,而不是一種簡單的并行或競爭關系。 所以我們應該樂觀點(這是促使我們進步的好機會呀),機器是人類創(chuàng)造的,機器學習的提升速度取決于我們?nèi)祟愖约海覀儜嗟脧倪@次比賽中看到機器的缺陷和人類的優(yōu)勢所在。在今天Lee得到了他關于AlphaGo的第一個樣本(幾個月前的AlphaGo和今天的AlphaGo,從機器學習角度看已經(jīng)不是同一個東西),他將如何根據(jù)這個樣本來提高自己對付AlphaGo的能力?能提高到什么程度?這個真的非常值得觀察,因為這一定程度上代表了該任務上人類頂級專家的學習能力。 其實這部分才是筆者最為關注的,即:如何用好AlphaGo? 其實早前Hassabis也很明白地表露過自己的想法:“現(xiàn)在我并沒有做太多AI編程方面的事情,更多得則是對于公司未來的直覺思考,空閑時我會想一些當天在文章和新聞中看到的東西,思考我們的研究如何和那些東西結合起來。因為商業(yè)化才是每個公司的未來方向。目前大部分大部分人工智能系統(tǒng)應用范圍都很“窄”,訓練預設程序的機器去執(zhí)行特定任務,除此之外再沒什么了,但我們致力于構建一個“通用學習機器”,即一套能像生物系統(tǒng)一樣學習的靈活、自適應的算法,僅使用原始數(shù)據(jù)就能從頭開始掌握任何任務。我希望最終我們能將這些技術用于重要的真實世界的問題,例如氣候模型或者復雜的疾病分析,很酷不是嗎?” 說到疾病分析,Watson應該算AI在這上面應用的典范了,其第一個真正嚴肅的應用就是作為癌癥醫(yī)學輔助診斷手段。從2011年開始,Watson就一直在協(xié)助腫瘤科醫(yī)生,它能夠?qū)Σ∪说牟v進行深入的分析,并且還能將該病歷和存儲的其它來源的相關病歷、臨床專業(yè)知識和學術研究進行比對和篩選;這使得Watson甚至能夠自行推導出連醫(yī)生自己也未曾考慮過的治療方案,這些工作長期以來都是人類無法完全掌握的工作,而在機器面前,卻非常簡單。但根據(jù)Google一貫的野心,應該遠不止這樣。拋開一些幻想的因素,我們來從各大科技公司的動作來整理一下思路(投資界的網(wǎng)友已整理好,這里借用一下,感謝?。? 2013年:收購深度神經(jīng)網(wǎng)絡公司DNNresearch。
2014年:收購深度學習公司DeepMind。 2015年:無人車上路測試,預計2020年商業(yè)化;開源深度學習系統(tǒng)TensorFlow代碼。 2016年:Google DeepMind AlphaGo系統(tǒng)打敗圍棋高手;Google與半導體新創(chuàng)企業(yè)Movidius合作深度學習手機;欲將神經(jīng)網(wǎng)路RankBrain結合搜索引擎。 2014年:推出個人語音助理Cortana。
2015年:推出亞洲聊天機器小冰;收購R語言商業(yè)方案提供商Revolution Analytics與以色列文本分析新創(chuàng)公司Equivio;推出應用測年齡http://和測雙胞胎http://TwinsOrNot.net。 2016年:收購智能輸入公司SwiftKey;開源深度學習語音圖像識別CNTK;推出測你是哪種狗應用http://What-dog.net。 2012年:收購人力資源管理公司Kenexa。2014年華生已應用在醫(yī)療、金融、法律、學術、煮飯。
2015年:收購自然語言處理服務商AlchemyAPI、IBM宣布開源機器學習平臺SystemML。 2016年:軟銀機器人Pepper已成功導入IBM超級電腦華生。 2015年:正式成立人工智能研究團隊;展示人工智能助理M;公布人工智能硬件框架Big Sur并開源;收購語音識別技術Wit.ai。
2016年底:打造AI管家;訓練人工智能系統(tǒng)下圍棋。 2013年:收購自動語音識別技術公司Novauris。
2015年:收購口語識別新創(chuàng)VocalIQ和影像辨識新創(chuàng)公司Perceptio。 2016年:收購人臉及情緒識別技術的新創(chuàng)公司Emotient;雇用教Siri運動知識的軟件工程師。 2014年:投資模仿人腦的人工智能公司Vicarious。
2015年:投資非盈利人工智能中心OpenAI,防止AI危害人類;推出電動車自動駕駛系統(tǒng)。 2012年:收購機器人倉庫設備商Kiva Systems。
2013年:收購文字轉(zhuǎn)語音公司Ivona和語音識別App Evi Technology。 2015年:用人工智能技術發(fā)現(xiàn)假評論及評分;推出語音助理Echo;發(fā)布Alexa開發(fā)套件。 從這里來看,AI目前仍然在做一些非常底層的事,也就是邏輯方面的計算,作為一種工具,我想這是AI最好的歸宿了,想象力與創(chuàng)造力是我們?nèi)祟惖膶@?,因為機器沒有自我思想,它們的思想就是我們的設計。 雖然大公司在AI醫(yī)療上似乎沒有太大的動作,但不可否認這仍然是一片藍海。目前在醫(yī)療上,利用人工智來為病人望聞問切似乎還不大靠譜,但是,利用人工智能解決醫(yī)療面臨的核心問題:安全與質(zhì)量、管理與效益,是現(xiàn)在就可以實現(xiàn)的。比如:在醫(yī)學診斷系統(tǒng)是否可以借助AI實現(xiàn)流程標準化,將醫(yī)生的角色上升為系統(tǒng)的監(jiān)控與糾錯?從目前來看,Enlitic, 3SCAN, ENTOPSIS這三家初創(chuàng)公司在這方面做得還不錯;而在藥品評估領域,已經(jīng)有ADMET Predictor這樣的,利用計算機模擬藥物藥理,代謝和副作用的評估軟件了。 那么,能否利用人工智能/機器學習+超級計算機+臨床實驗&醫(yī)療大數(shù)據(jù),借助“模糊測試思想”,幫助分離出病毒/細菌/腫瘤細胞的靶向特征作用點,從而幫助發(fā)現(xiàn)并加速各種新型藥品的開發(fā)?或者是優(yōu)化已經(jīng)存在的藥物效果?亦或降低個體化醫(yī)療的成本?抱歉,這個已經(jīng)不是我這個非專業(yè)人士所能解答的了,歡迎諸位前輩指教。 行文至此,也應該可以告一段落了,其實以上的內(nèi)容就是筆者對這幾個問題的一些看法: 1.為什么Alpha go的勝利會讓我們覺得如此驚天動地? 2.這次人機對戰(zhàn)意味著什麼?能為我們帶來什麼?棋局的背后有何深意? 3.機器與人類的思維方式到底有哪些不同呢?Alpha Go真的在模仿人腦下圍棋嗎? 4.DeepMind 掌門人 Demis Hassabis對人工智能文化、生活與工作的觀點有何獨特之處? 5.對待人機對戰(zhàn),我們應該持什麼樣的立場?
身在這個年代,真的很幸運,能夠見證希格斯玻色子的發(fā)現(xiàn),能夠見證引力波的探測,現(xiàn)在又見證了人工智能的標志性事件。身在這個年代,真的很不幸,誰都無法預測,這些潘朵拉的盒子一旦打開,里面會出現(xiàn)什么。 過去幾天的比賽對于AlphaGo來說,不過是其海量的圍棋樣本庫中多增加了微不足道的一個樣本而已,而對于Lee,則是一種不同的經(jīng)歷。即使AlphaGo最終將獲勝,但我仍然相信人類的潛力,今天的比賽,Keep Fighting,Lee! ▲明天,讓患者記住我的名字?“我是MVP”醫(yī)生品牌加速計劃全面啟動 專業(yè)的互聯(lián)網(wǎng)醫(yī)療創(chuàng)業(yè)服務平臺
|