1新智元推薦 【作者介紹】鄧志東,清華大學(xué)計算機系教授,博士生導(dǎo)師。兼任中國自動化學(xué)會理事,中國自動化學(xué)會智能自動化專業(yè)委員會主任。 我報告的題目是《人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢》,主要涉及四個方面的內(nèi)容:一個是深度學(xué)習(xí)——人工智能的最新突破;第二個是深度學(xué)習(xí)方法一定要和大數(shù)據(jù)結(jié)合起來,即大數(shù)據(jù)驅(qū)動下的感知智能產(chǎn)品研發(fā);第三個是舉一反三的認知智能前沿研究;最后一個是支撐人工智能應(yīng)用的硬件引擎。 深度學(xué)習(xí):人工智能的最新突破 我們首先來看一下深度學(xué)習(xí)這一人工智能的最新突破。剛好60年之前,人工智能有一個定義,即把人工智能視為研究與設(shè)計智能體,這個智能體要能感知環(huán)境,要能采取行動,并使自己成功的機會最大化。所以它包括三個方面的內(nèi)容:一是感知,二是決策——決策也就是認知,三是行動。首先很明確,現(xiàn)在人工智能是通過學(xué)習(xí),而不是編程來實現(xiàn)的。 人的大腦里面肯定沒程序,我們一定是通過學(xué)習(xí),來獲得視、聽覺的能力,還有記憶、推理、規(guī)劃、決策、知識學(xué)習(xí)與思考等,這些認知能力也都是通過學(xué)習(xí)而非編程得到的。總之就是所謂的習(xí)而識之。 人工智能可以分類為感知智能、認知智能和創(chuàng)造性智能三種,這是我們的觀點。感知智能,簡單說就是對人的直覺(intuition)能力的模擬,這主要涉及人的視覺、聽覺、觸覺等,這屬于感知部分。還有一部分是認知智能,即對人類深思熟慮行為的模擬,比如人的推理、規(guī)劃、決策、知識學(xué)習(xí)。另外就是創(chuàng)造性智能,包括人的靈感和頓悟,這一塊顯然還沒有開始這方面的研究。 人工智能是一個影響面極廣的共性科學(xué)問題,同時也是一個戰(zhàn)略性前沿技術(shù)。它的突破從2006年開始,可以說人工神經(jīng)網(wǎng)絡(luò)由此進入了第三次復(fù)興。 1970年、2000年前后人工神經(jīng)網(wǎng)絡(luò)置身寒冬,在人工智能領(lǐng)域中是被邊緣化的。2012年的時候因為和大數(shù)據(jù)結(jié)合,又考慮了GPU硬件加速這個計算引擎,所以真正取得了全球的矚目。2013年開始,國際科技巨頭高強度深度介入,這是人工神經(jīng)網(wǎng)絡(luò)前兩次研究熱潮中從沒發(fā)生過的。 現(xiàn)在大家?guī)缀跆焯於寄芸吹礁鞣N人工智能的新聞,許多IT巨頭都決心用人工智能重塑企業(yè)的產(chǎn)品線,實現(xiàn)企業(yè)產(chǎn)品結(jié)構(gòu)的轉(zhuǎn)型升級。未來2到5年,人工智能還將給我們這個世界帶來更多深刻的改變和驚喜。 人工神經(jīng)網(wǎng)絡(luò)本身可看成是對生物神經(jīng)系統(tǒng)的模擬或者近似。方法有兩種,一個是對外部輸入輸出的模擬,一個是對內(nèi)部機制的模擬。它的發(fā)展里程可歸結(jié)為“三起兩落”。最早于1943年就出現(xiàn)了MP模型,目前的大部分神經(jīng)網(wǎng)絡(luò)都還在使用這種人工神經(jīng)元模型。1957年Rosenblatt提出了Perceptron(感知機),這是第一種人工神經(jīng)網(wǎng)絡(luò),因此Rosenblatt也被稱之為“人工神經(jīng)網(wǎng)絡(luò)之父”。所以說,人工神經(jīng)網(wǎng)絡(luò)至今只有59年歷史,而人工智能是60年歷程。 這后面還有一系列里程碑式的結(jié)果,比如20世紀80年代出現(xiàn)的掀起第二次人工神經(jīng)網(wǎng)絡(luò)研究熱潮的Hopfield網(wǎng)絡(luò)和BP網(wǎng)絡(luò)。30年前,在20世紀80年代中后期、90年代初期,人工神經(jīng)網(wǎng)絡(luò)也如同現(xiàn)在一樣,那個時候非常熱,也有無限美好的憧憬。 當(dāng)時各行各業(yè)都去做神經(jīng)網(wǎng)絡(luò),不過與現(xiàn)在不太一樣,都僅限于學(xué)術(shù)圈和研究機構(gòu),企業(yè)參與很少。后來發(fā)現(xiàn)這些神經(jīng)網(wǎng)絡(luò)并非想象那樣,能力不行,做不了多少事情,因此神經(jīng)網(wǎng)絡(luò)研究一下又跌入嚴冬。 現(xiàn)在這一輪復(fù)興,跨國企業(yè),比如目前做得比較好的Google(DeepMind、Brain)、Facebook、微軟、IBM Watson、Amazon、百度等,全都進來了。還有一個趨勢比較明顯,就是企業(yè)逐漸成為人工智能研究的第一梯隊,產(chǎn)業(yè)與學(xué)術(shù)研究的距離不斷縮短,國內(nèi)外都這樣,非常明顯。我舉一個例子,現(xiàn)在許多公認的頂級國際會議論文都出自于Google、Facebook、微軟這樣的跨國企業(yè),而并非高校和政府科研機構(gòu)。 除了企業(yè)以外,還有兩大國際學(xué)術(shù)研究中心,一個是以Geoff Hinton教授為領(lǐng)軍人物的加拿大多倫多大學(xué),另一個是以Yann LeCun教授為領(lǐng)軍人物的紐約大學(xué)。事實上,人工智能領(lǐng)域有一個以Hinton為首的人工神經(jīng)網(wǎng)絡(luò)學(xué)派,主要包括Hinton、LeCun和Bengio,是全球深度學(xué)習(xí)研究的三大靈魂人物。 具有完全監(jiān)督學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展至今,Yann LeCun居功甚偉。1987年LeCun取得博士學(xué)位,曾是Hinton的博士后,在AT&T貝爾實驗室工作了14年,2013年12月9日受聘于Facebook,創(chuàng)建了著名的Facebook人工智能研究院(FAIR)。深度神經(jīng)網(wǎng)絡(luò)主要就是指深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),這是目前在某些垂直細分領(lǐng)域惟一能夠達到人類水平的神經(jīng)網(wǎng)絡(luò)計算模型,其他如深度信念網(wǎng)絡(luò)(DBN)和深度自動編碼器,都達不到這樣的高水平。 卷積神經(jīng)網(wǎng)絡(luò)的最初版本實際是由一個日本人福島邦彥提出來的,當(dāng)時叫認知機與神經(jīng)認知機,20世紀70年代就有這個模型,目前卷積神經(jīng)網(wǎng)絡(luò)中的卷積、池化、感受野、ReLU等概念與激發(fā)函數(shù)在這些模型中就有了。1989年LeCun將誤差反向傳播引入神經(jīng)認知機,使后者獲得了監(jiān)督學(xué)習(xí)能力。1995年和Bengio將其命名為卷積神經(jīng)網(wǎng)絡(luò),2006年叫深度神經(jīng)網(wǎng)絡(luò)。他還創(chuàng)建了手寫體數(shù)字識別數(shù)據(jù)集MNIST,2006年做到了0.39%的錯誤識別率,性能超過傳統(tǒng)計算機視覺方法很多。 深度CNN具有強大的分層特征表達能力,而且特征是自動學(xué)習(xí)得到的,不是人工設(shè)計的,包括底層、中層、高層特征,而且通過感受野的提高可同時獲得局部和全局特征。就某個特定的應(yīng)用場景,結(jié)合大數(shù)據(jù)和人工智能硬件引擎,既然它的分類識別精度能夠達到人類的水平,自然就可以進行工程產(chǎn)品的開發(fā)了。 大數(shù)據(jù)下驅(qū)動下感知智能產(chǎn)品研發(fā) 讓我們來看看大數(shù)據(jù)驅(qū)動下感知智能產(chǎn)品的研發(fā)。 深度CNN標志性的突破出現(xiàn)在2012年,Hinton帶領(lǐng)他的兩位博士生,在2012年的ILSVRC 比賽中獲得了冠軍。ILSVRC 比賽相當(dāng)于什么呢?可以理解為計算機視覺物體識別中的“世界杯足球賽”,每年都舉行。其訓(xùn)練與測試數(shù)據(jù)集ImageNet有1500萬幅圖片,涉及22000種物體的分類(2011年秋版本),如貓、狗、大象等等。他們當(dāng)時使用了2塊GPU加速,訓(xùn)練了一周,取得了15.3%的Top-5錯誤率。而傳統(tǒng)視覺方法的最好結(jié)果是26.2%,2016年這個結(jié)果已經(jīng)下降到3.08%,比人類的5.1%好了不少。創(chuàng)新之處就是將深度卷積神經(jīng)網(wǎng)絡(luò)與大數(shù)據(jù)(1500萬幅圖片)和GPU Cuda并行編程結(jié)合起來了??梢哉f由此揭開了深度學(xué)習(xí)在計算機視覺、語音識別和自然語言理解中大規(guī)模研究的序幕。 2013年開始產(chǎn)業(yè)界真正高強度深度介入。很多標志性的事件,比如說,2013年3月Hinton受聘于Google(包括Google收購其3人初創(chuàng)企業(yè)DNNresearch)。2013年12月9日LeCun獲邀受聘于Facebook,創(chuàng)建并執(zhí)掌Facebook的人工智能研究院。2014年1月Google以5億多美元收購Demis Hassabis的人工智能創(chuàng)業(yè)公司DeepMind,2年后該公司推出了引起全社會高度關(guān)注的AlphaGo。2014年5月吳恩達受聘于百度,擔(dān)任百度首席科學(xué)家等。 大數(shù)據(jù)驅(qū)動下感知智能產(chǎn)業(yè)的框架結(jié)構(gòu):一是應(yīng)用層,也就是人工智能 細分領(lǐng)域,比如說無人駕駛、機器視覺或者語音識別;二是技術(shù)層,涉及模型/算法,開源代碼;三是基礎(chǔ)層,就是大數(shù)據(jù),計算引擎/深度學(xué)習(xí)芯片這兩點支撐。深度學(xué)習(xí)的市場圖譜,包括四個方面:技術(shù)巨頭,開源代碼、大學(xué)研究,還有半導(dǎo)體公司——做芯片的,主要是做計算引擎。 什么是大數(shù)據(jù)?我就說一個觀點。我們說大數(shù)據(jù)通常體量巨大,一般不能用常規(guī)的統(tǒng)計學(xué)與平穩(wěn)隨機過程方法來處理,因為已經(jīng)不滿足i.i.d獨立同分布假設(shè)了。而且通常只關(guān)注整體的關(guān)聯(lián)關(guān)系,而不是因果關(guān)系。從這個角度來說,現(xiàn)在很多所謂的大數(shù)據(jù)分析都是炒概念,其實就是常規(guī)的統(tǒng)計分析或者說數(shù)據(jù)挖掘,不是真正含義上的大數(shù)據(jù)分析。 真正意義上的大數(shù)據(jù)分析是什么呢?四個V特別重要,數(shù)據(jù)體量巨大,從TB級別上升到PB級別;數(shù)據(jù)類型眾多;價值密度低,但商業(yè)價值高,也就是數(shù)據(jù)中大量都是垃圾,垃圾里面找金礦,很少很少,去找這個東西,這個是不能用傳統(tǒng)方法處理的,因為大部分是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。事實上,結(jié)構(gòu)化數(shù)據(jù)用傳統(tǒng)數(shù)據(jù)挖掘手段就可以處理,現(xiàn)在很多人其實干的是這件事情。 對深度學(xué)習(xí)來說有很多開源代碼框架和工具集,比如谷歌的TensorFlow,加州伯克利的Caffe,Bengio的Theano,F(xiàn)acebook的Torch,微軟的CNTK,都開源了,目的就是為了形成一個人工智能產(chǎn)業(yè)生態(tài)。 ImageNet有1500多萬張照片,還有Caltech-101,Caltech-256,CIFAR-10,CIFAR-100,MNIST,US-PS,SVHN,還有人臉識別庫LFW等等,這些都是公開的,而且公開的數(shù)據(jù)集也逐漸增多,但它們是屬于研究性質(zhì)的。 真正有價值的私有大數(shù)據(jù),其重要性如同原油一樣屬于戰(zhàn)略資源,被跨國企業(yè)擁有和貪婪追求,這個重要性特別大,國內(nèi)外的差距在不斷加大。 我們知道,深度卷積神經(jīng)網(wǎng)絡(luò)采集與喂食的大數(shù)據(jù)越多,越能獲得更好的直覺模擬。現(xiàn)在需要更大的數(shù)據(jù),這個模型真正的進展,數(shù)據(jù)越多越好,這個是以前完全不能想象的事情。舉個例子,Google的無人駕駛汽車它的總行駛里程已超過241萬km,還有特斯拉六個月就采集了超過7500萬km的大數(shù)據(jù),每天都在大量采集數(shù)據(jù)。 對算法公司來講,無論是采用以前的傳統(tǒng)計算機視覺還是現(xiàn)在的深度學(xué)習(xí)方法,企業(yè)最大的優(yōu)勢之一,就是它擁有的大數(shù)據(jù)優(yōu)勢,例如做ADAS產(chǎn)品的以色列標桿企業(yè)Mobileye。既然要做大數(shù)據(jù),就要對它進行清洗和標簽。為此一定要選擇一個特定的應(yīng)用場景,或者說一定要做一個非常細的劃分,垂直領(lǐng)域里面還要有細分領(lǐng)域,這樣才有可能得到各種工況、各種情形下的完整大數(shù)據(jù),才可以進行標簽等等。 在移動互聯(lián)網(wǎng)時代,大數(shù)據(jù)的采集可以采用“眾集”的方法,標簽可以采取“眾包”的方法,比如說現(xiàn)在Google有54輛車,已經(jīng)開始考慮到大數(shù)據(jù)中潮濕情況怎么辦,多雨情況怎么辦,還有高溫、多塵等等,商業(yè)化進程不斷推進。 目前使用的完全監(jiān)督學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)有一個缺點,要求配合使用大數(shù)據(jù)。換句話說,要認識飛機,必須將全世界所有飛機的照片都給他看,包括不同氣候條件下,不同時間段,不同地方與背景、姿態(tài)等等,都要給它看;做無人駕駛則必須要考慮到各種天氣、各種道路、各種時間段的大數(shù)據(jù)等等。這是現(xiàn)在這個方法的缺點。人可不是這么干的。人要認識一個東西很簡單,要他看兩、三架飛機他就把所有的飛機都認得了。這就是小樣本學(xué)習(xí)或者說是“舉一反三”。 在大數(shù)據(jù)和計算引擎的驅(qū)動下,基于深度學(xué)習(xí)方法的視覺物體識別能力,在許多Benchmark評測中,正在達到或超過人類的水平,語音識別再過2-5年也能達到人的水平,文本理解也比過去飛速進步了許多,許多確實可以進行工程產(chǎn)品的開發(fā)了。 我們舉幾個例子,2012年以后深度學(xué)習(xí)成為視覺物體識別的主流方法,2014年以來,又成為人臉識別的主流方法;同時大數(shù)據(jù)成為性能提升的關(guān)鍵。在ILSVRC 比賽中,從2013年開始就再也沒有傳統(tǒng)機器視覺方法了,全部是深度學(xué)習(xí)方法;就這個問題,人的水平是5.1%,微軟去年初的4.94%第一次超過人類的水平,去年底該比賽的冠軍也是微軟,錯誤率降低為3.57%,目前全世界最好的記錄是Google的3.08%,都是企業(yè)取得的成績,這種趨勢非常明顯,因為這些科技巨頭才擁有高效的研發(fā)團隊和計算資源。 人臉識別也是這么一個故事。針對LFM人臉識別數(shù)據(jù)集,深度CNN超過了人類的識別能力,香港中文大學(xué)的湯曉鷗團隊第一次超過了人類97.53%的正確率。百度現(xiàn)在做的最好,99.77%,第二名是騰訊的優(yōu)圖,99.65%,第三是谷歌的99.63%,已經(jīng)超過人不少了。 至于基于深度學(xué)習(xí)的視覺物體檢測與定位,目前也可以做到像素水平的分割。例如,這是長頸鹿、斑馬,進行像素水平的物體分割,再分類識別;分類做的很好了,比人做的還好。 還有一個標志性結(jié)果就是把深度卷積神經(jīng)網(wǎng)絡(luò)與再勵學(xué)習(xí)結(jié)合起來,應(yīng)用于神經(jīng)動態(tài)規(guī)劃問題。AlphaGo學(xué)術(shù)上就叫神經(jīng)動態(tài)規(guī)劃問題,這個問題很多年以前就有研究?,F(xiàn)在唯一的區(qū)別就是有了大數(shù)據(jù),有了深度卷積神經(jīng)網(wǎng)絡(luò),所以叫深度再勵學(xué)習(xí)。其實在AlphaGo之前,在去年2月份,Google的DeepMind就有了深度再勵學(xué)習(xí)的結(jié)果,發(fā)表在《自然》雜志上,只不過沒有引起那么大的社會關(guān)注。利用深度再勵學(xué)習(xí)發(fā)展的深度Q-網(wǎng)絡(luò),用于玩Atari像素游戲。49種游戲里面,不是靠編程,而是靠學(xué)習(xí)的方法去建立深度Q-網(wǎng)絡(luò);這49種游戲,包括太空入侵者、功夫大師等等,學(xué)49種游戲,一個職業(yè)選手在那玩,它就在邊上學(xué),看屏幕上的像素和評分,輸出是一個虛擬的游戲操縱桿;看像素怎么運動,打多少分?學(xué)完以后49種游戲里面,29種超過職業(yè)選手水平;這條線是人類水平,假設(shè)是100分“智商”,計算機的評分最高達到2500多,比人還玩得好很多,它完全通過學(xué)習(xí)的方法,這是與IBM深藍不同的。AlphaGo這個也是發(fā)表在《自然》上,也是封面論文。這個事情我就不說了,因為全社會都在熱烈討論。把人類戰(zhàn)勝了,而且以后看起來人類也很難再戰(zhàn)勝它,因為它可以學(xué)習(xí),每天都在學(xué),很可怕。 總之,深度卷積神經(jīng)網(wǎng)絡(luò)在量級上開始與生物神經(jīng)系統(tǒng),比如說皮層上的功能柱接近了。已經(jīng)有幾十萬個神經(jīng)元,訓(xùn)練樣本幾億、幾十億,未來可能還能達到上百億的大數(shù)據(jù),這個需要很強的計算硬件支撐。神經(jīng)網(wǎng)絡(luò)的突觸連接權(quán)最多已達到10億,微軟的ResNet網(wǎng)絡(luò),深度為152層,甚至可以做到1000層;2萬多種物體都可以識別出來,狗、貓都能認出來,叫出名字來,以后可以有更多種類的物體可以被識別,實現(xiàn)更寬垂直領(lǐng)域的通用人工智能。 現(xiàn)在看來,神經(jīng)網(wǎng)絡(luò)的發(fā)展歷經(jīng)“三起兩落”,1970年、2000年前后是寒冬,什么事都做不了,在人工智能領(lǐng)域中被邊緣化?,F(xiàn)在一枝獨秀,應(yīng)該說主要是時代進步了,因為互聯(lián)網(wǎng)時代我們才有可能采集大數(shù)據(jù),然后采用“眾包”的方法做標簽。另外就是由于游戲的超速發(fā)展出現(xiàn)了強有力的GPU,采用GPU分布式集群系統(tǒng)后,才能為深度學(xué)習(xí)提供超強的計算硬件引擎。 深度卷積神經(jīng)網(wǎng)絡(luò)為什么那么好呢?因為它首先是一種仿生模型。但是必須指出,深度卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)在的方法是完全監(jiān)督學(xué)習(xí)的,這個跟人腦是不相同的。人的大腦視覺皮層有兩個通路,一個是腹側(cè)通路管分類的,一個背側(cè)通路是管定位的,應(yīng)該說它們的學(xué)習(xí)是半監(jiān)督的,LGN、V1等可塑性幾乎沒有。 另外,美國MIT麥戈文腦科學(xué)研究所用電極陣列完成的獼猴高級視皮層實驗表明,生物系統(tǒng)的V4、IT皮層的特征映射圖,與深度卷積神經(jīng)網(wǎng)絡(luò)非常接近,令人嘆為觀止??傊?,作為一種感知智能模型,深度卷積神經(jīng)網(wǎng)絡(luò)迄今最好地模擬了生物視覺通路,在大數(shù)據(jù)和深度學(xué)習(xí)芯片的強力支撐下,具有強大的自動分層特征學(xué)習(xí)能力,在上述列舉的細分領(lǐng)域超過了人類的識別能力。大數(shù)據(jù)下的感知智能的發(fā)展為環(huán)境理解與自然人機交流、人機協(xié)作和人機共融的進步,帶來了歷史性的機遇與挑戰(zhàn)。 “大數(shù)據(jù) 深度CNN”,這是實實在在的進步,確實可以鼓吹大家著手進行以完全監(jiān)督深度CNN為核心的人工智能產(chǎn)品開發(fā)了。它具有的達到人類水平的分類識別能力,前面已經(jīng)說了很多例子了,比如谷歌DeepMind的AlphaGo與DQN,谷歌ImageNet,IBM Watson,微軟同聲傳譯,百度IDL集成模型(人臉識別)和Deep Speech 2(語音識別)等等,都見證了深度CNN的強大能力,極有可能催生一場弱人工智能革命,重塑很多產(chǎn)業(yè)。 AI成為目前全球最熱的投資風(fēng)口,像無人駕駛、自動駕駛、消費類機器人、VR/AR、認知商業(yè)、聊天機器人、智能個人助理等等。總而言之,人工智能技術(shù)與產(chǎn)業(yè)開始扮演著基礎(chǔ)性、關(guān)鍵性和前沿性的核心角色,但我們叫“弱人工智能 ”,可以加很多東西進去?!叭酢笔且驗楸仨毧紤]特定的應(yīng)用場景,人工智能離全面達到人類的水平還差得遠。 認知智能前沿研究 第三個講一下認知智能前沿研究。這可能意義更大,但目前不適合進行工程應(yīng)用。我們前面說過必須要用大數(shù)據(jù)把所有飛機給深度監(jiān)督學(xué)習(xí)模型看,它才會認識飛機。我們?nèi)耸切颖緦W(xué)習(xí)或者叫“舉一反三”,看到兩三輛汽車就知道這是什么東西了。 “大數(shù)據(jù) 深度CNN”的感知智能的方法,我們叫“舉三反一”,或者叫數(shù)據(jù)驅(qū)動的方法。但是感知智能的進步,我覺得這個是實現(xiàn)智能模擬的一個基石。我們?nèi)藶槭裁磿兄悄苣??我們一張開眼,眼前的一切物體都分類了,沒有這種“模式”識別能力就談不上進一步的認知智能。 以前的人工智能研究就卡在這里,這個叫語義鴻溝,一直跨不過去。感知問題沒突破,數(shù)據(jù)到語義之間沒有突破,只是在符號層次研究邏輯、推理等“專家系統(tǒng)”。從今以后,我們可以在這個基礎(chǔ)之上,在新的起點上再做語義水平的認知智能研究了,所以現(xiàn)在相關(guān)的研究非常之多,也是非常激動人心的。 不過需要提醒的是,現(xiàn)在還是前沿研究階段,未到做產(chǎn)品研發(fā)階段。例如高考人工智能機器人、智能金融、智能醫(yī)療、智能新聞寫作等等。還有IBM的沃森醫(yī)生等認知商業(yè)。還有想法向量,更多種類的物體識別,比如說這是狗,各種各樣的狗我都能認識,哪怕有遮擋,姿態(tài)發(fā)生變化,不同背景等。然后再把各種“概念”或想法向量聯(lián)系起來,也是通過學(xué)習(xí)的方法進行時空遞歸,進行長短期記憶和與記憶的交互式學(xué)習(xí)等,不是通過編程。再加上注意力機制、記憶整合、通道整合等,還包括知識蒸餾、知識遷移?,F(xiàn)在比較火的還有長短期記憶網(wǎng)絡(luò)(LSTM),這個網(wǎng)絡(luò)是端到端的序列學(xué)習(xí),它里面也有非常好的模擬,例如具有學(xué)習(xí)能力的神經(jīng)元門控機制的模擬。 學(xué)習(xí)方法有三種:監(jiān)督學(xué)習(xí)、再勵學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。再勵學(xué)習(xí)(reinforcement learning)也稱強化學(xué)習(xí)或稱增強學(xué)習(xí),“再勵”這個術(shù)語最初來自于心理學(xué)。你做出決策后跟環(huán)境交互,最后的結(jié)局你失敗了或成功了,失敗就要受懲罰,成功就要受獎勵。人和動物的局部行為學(xué)習(xí)方式,就是這樣的。這方面的研究很早就有了。 現(xiàn)在看來,深度卷積神經(jīng)網(wǎng)和再勵學(xué)習(xí),這兩個是成功的,它們的結(jié)合更成功。深度監(jiān)督學(xué)習(xí),大數(shù)據(jù)一定要有標簽,選定細分領(lǐng)域這是有可能的,如果領(lǐng)域選大之后很難做到。AlphaGo有深度監(jiān)督學(xué)習(xí),也有深度再勵學(xué)習(xí),就是自己跟自己對弈學(xué)習(xí),自己跟環(huán)境交互得到懲罰或者獎勵。這樣通過與環(huán)境反復(fù)的交互,重演“長記性”。 最重要的是深度無監(jiān)督學(xué)習(xí),這個現(xiàn)在還沒有成功,這個也是大家最感興趣的,更像人類“舉一反三”的學(xué)習(xí)方式。如果這個突破以后,我們也許就不需要那么多的大數(shù)據(jù)了。大數(shù)據(jù)成本太高,而且很多情況下得不到。我們很多技巧性或過程性的東西靠經(jīng)驗或與記憶進行交互式學(xué)習(xí),這種經(jīng)驗學(xué)習(xí)就是深度無監(jiān)督學(xué)習(xí)研究的內(nèi)容。 深度無監(jiān)督學(xué)習(xí)是人工智能的“黑科技”。一個人看幾輛火車,你從語義上告訴他這個東西名字叫火車,他就知道了,他就馬上聯(lián)系起來,全世界的火車他都認識了。實際上,你不會告訴他火車是什么什么物理特性,是什么什么外部描述,你告訴他火車這個“名稱”就行了,所以它首先要進行無監(jiān)督學(xué)習(xí),然后才是跟語義結(jié)合起來,從而輕松地獲得技巧和常識。 不幸的是,這些研究結(jié)果都沒有像深度卷積神經(jīng)網(wǎng)絡(luò)一樣,具有一定的腦科學(xué)基礎(chǔ)。 深度無監(jiān)督學(xué)習(xí)、深度遞歸神經(jīng)網(wǎng)絡(luò),包括長短期記憶網(wǎng)絡(luò)(LSTM),在腦科學(xué)上都沒有理論與實驗依據(jù),所以很難說短時間內(nèi)會出現(xiàn)強人工智能。我想一定是這樣的趨勢,先做弱人工智能,做圖象識別、語音識別或者文本理解,再逐步把垂直領(lǐng)域擴大,變成一個通用人工智能,再擴大到全方位,此時什么能力都比人強了,它可以看懂、聽懂,同時還可以替你做決策,替你做情感分析與交流,完全代替人,這種強人工智能,現(xiàn)在看來相當(dāng)長一段時間之內(nèi)完全不太可能實現(xiàn)。 另外,關(guān)于人工智能是否能讓機器擁有意識?其實人腦是有獎賞機制或有這樣的功能模塊的。你做一件事情感到很愉悅、很幸福、很成功,這就是一個評價機制,這部分我就不展開了??傊?,大腦里肯定是沒有編程、沒有符號、沒有靈魂的,神經(jīng)信息的載體是神經(jīng)元的發(fā)放序列,同時它是通過學(xué)習(xí)而不是編程獲得的感知與認知能力。 支撐人工智能應(yīng)用的硬件引擎 最后再介紹一下人工智能芯片。前面已反復(fù)指出,大數(shù)據(jù)和人工智能芯片是兩個基礎(chǔ)點,可以說支撐了人工智能技術(shù)與產(chǎn)業(yè)的迅猛發(fā)展。前面的報告介紹了Hadoop、Spark和Petuum等高性能分布式CPU/GPU集群系統(tǒng)的研究。 作為支撐人工智能應(yīng)用的硬件引擎,我想強調(diào)如下三個方面的應(yīng)用:一是基于超級GPU或者TPU集群的離線訓(xùn)練,這是必不可少的。比如說訓(xùn)練1000個小時、2000個小時,用了這個超算系統(tǒng)后10分鐘可能就解決問題了,這是一定要有的,但這塊主要依賴于GPU和TPU,功耗太高、成本太貴。例如2000塊GPU大致需要1個億的投入。二是基于云平臺的在線應(yīng)用,這可以用FPGA來做,既可以降低成本,也可以大幅減少功耗。三是直接進行終端應(yīng)用。 在超級GPU或者TPU集群服務(wù)器方面,英偉達(Nvdia)的深度學(xué)習(xí)芯片Tesla P100,具有150億個晶體管,運算速度達到21.2萬億次,研發(fā)預(yù)算超過20億美元。利用P100構(gòu)建的超級計算機DGX-1速度達到170萬億次。因為卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是張量(Tensor)處理,Google數(shù)據(jù)中心研發(fā)的張量處理器(TPU),是它的秘密武器。它對CPU計算能力要求不高,是專門為深度學(xué)習(xí)定制的ASIC。無論是GPU還是TPU,我們中國企業(yè)的機會不多,技術(shù)門檻太高。實際上,GPU或TPU的成本太貴,功耗太高。我們的機會就在FPGA上面,也就是進行基于FPGA的深度學(xué)習(xí)芯片(DPU)的研發(fā)。相對于GPU。不但靈活度更高,成本很低,而且其能耗比可提升至少1000倍。對于基于云平臺的在線應(yīng)用或者移動端應(yīng)用,拿FPGA來做,它的成本、功耗、體積都有很大的優(yōu)勢,這或許是我們惟一能夠做的事情。 還有一類功耗更低,且更有前瞻性的是類腦芯片。包括兩種類型:一是利用傳統(tǒng)CMOS工藝進行生物突觸模擬,就是用幾個晶體管去模擬突觸連接權(quán);二是直接使用新型憶阻器件去模擬生物突觸。IBM的TrueNorth和高通的Zeroth是前一類神經(jīng)形態(tài)芯片的典型代表。 IBM的TrueNorth,2014年8月發(fā)表在《科學(xué)》雜志上。它有什么特點呢?這個芯片里面有100萬個發(fā)放神經(jīng)元,模擬了2.56億突觸連接。人腦的神經(jīng)元就是發(fā)放的,可以理解為很多個脈沖。以前覺得發(fā)放神經(jīng)元沒有什么用,現(xiàn)在發(fā)現(xiàn)由它組成的神經(jīng)網(wǎng)絡(luò),功耗很低,TrueNorth類腦芯片才只有63個毫瓦!我們知道人腦的全部功耗只有區(qū)區(qū)20瓦,但皮層神經(jīng)元的個數(shù)卻有140億。IBM最近還有一個實驗,它使用48塊TrueNorth芯片構(gòu)建了一個小型數(shù)字化鼠腦,相當(dāng)于有4800萬個發(fā)放神經(jīng)元,這個數(shù)字化的鼠腦可以進行深度學(xué)習(xí),可以識別圖片和語音,也可理解一些自然語言,還可通過在線增量學(xué)習(xí)以適應(yīng)新環(huán)境。 除此之外,還有一個更新的、比IBM和高通類腦芯片功耗更低的基于憶阻器的類腦芯片。憶阻器也叫記憶電阻,是硬件模擬生物突觸的理想方式。簡單說,憶阻器隨流經(jīng)的電荷的變化其阻值就會發(fā)生變化,而且在斷流時還具有阻值記憶功能。1971年提出憶阻器設(shè)想,2008年的時候惠普用納米薄膜把它制備成功了。最新的結(jié)果是2015年加州大學(xué)等研制了一款基于Crossbars的憶阻類腦芯片,發(fā)表在2015年5月的《自然》雜志上。它的特點是集成度更高,讀寫速度更快,尤其是功耗會更低更低。當(dāng)然前面和后面這兩類人工智能芯片,技術(shù)門檻特別高,我們能做的事情可能不多。 最后是三句話的結(jié)語。第一,弱人工智能的產(chǎn)業(yè)發(fā)展正處于爆發(fā)期,大家可以開始做工程化的應(yīng)用產(chǎn)品開發(fā)了,深度卷積神經(jīng)網(wǎng)絡(luò)確實是非常大的進步,尤其是得到大數(shù)據(jù)和超強計算能力的支撐。第二,即使是深度卷積神經(jīng)網(wǎng)絡(luò)的一點點進步,也會給人類社會進步帶來巨大的變革。第三,私有大數(shù)據(jù)和深度學(xué)習(xí)芯片是制勝的關(guān)鍵和法寶。 【作者介紹】鄧志東,1991年獲哈工大博士學(xué)位。2000年起擔(dān)任清華大學(xué)計算機系教授,博士生導(dǎo)師。兼任中國自動化學(xué)會理事,中國自動化學(xué)會智能自動化專業(yè)委員會主任。曾任國家863計劃智能機器人主題專家組組長助理(1998-2001)。目前的研究方向:人工智能、深度神經(jīng)網(wǎng)絡(luò)、計算神經(jīng)科學(xué),先進機器人、無人駕駛汽車等。曾從事的研究領(lǐng)域:虛擬現(xiàn)實(1998-2001)、無線傳感器網(wǎng)絡(luò)(2001-2009)、計算生物學(xué)(2002-2010)。 新智元 616 有獎?wù)鞲辶?/strong> 自5月31日起,新智元開辟【名家專欄】,刊登人工智能專家寫給新智元的原創(chuàng)稿件。 新智元致力于促進人工智能產(chǎn)業(yè)的發(fā)展,技術(shù)研發(fā)與進步,在人工智能產(chǎn)業(yè)界、學(xué)術(shù)界有強大的影響力,為了進一步繁榮人工智能業(yè)界思想與技術(shù)的交流與分享,特向業(yè)界領(lǐng)袖和名家征稿: 1. 凡產(chǎn)業(yè)、學(xué)術(shù)界領(lǐng)袖、名家向新智元公眾平臺投稿,新智元標識名家專欄的原創(chuàng)稿件,采用為公眾號頭條的,稿費標準3000元以上; 2. 凡產(chǎn)業(yè)、學(xué)術(shù)界領(lǐng)袖、名家向新智元公眾平臺投稿,新智元標識名家專欄的原創(chuàng)稿件,采用為公眾號2-3條的,稿費標準千字300元以上; 3. 凡產(chǎn)業(yè)、學(xué)術(shù)界精英、骨干向新智元公眾平臺投稿,新智元標識業(yè)界、學(xué)術(shù)的深度稿件,采用為公眾號頭條的,稿費標準千字300元以上。 4. 凡在其他媒體或個人博客已經(jīng)發(fā)布的稿件、投稿的專家或研發(fā)機構(gòu)稿件獲新智元采納轉(zhuǎn)載的,不付稿費,但可以附上個人簡歷、照片或者所在公司、實驗室簡短介紹或者原文鏈接。 |
|