報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

mentor007 2016-07-07

展開全文

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

1新智元推薦

【作者介紹】鄧志東，清華大學(xué)計算機系教授，博士生導(dǎo)師。兼任中國自動化學(xué)會理事，中國自動化學(xué)會智能自動化專業(yè)委員會主任。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

我報告的題目是《人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢》，主要涉及四個方面的內(nèi)容：一個是深度學(xué)習(xí)——人工智能的最新突破；第二個是深度學(xué)習(xí)方法一定要和大數(shù)據(jù)結(jié)合起來，即大數(shù)據(jù)驅(qū)動下的感知智能產(chǎn)品研發(fā)；第三個是舉一反三的認知智能前沿研究；最后一個是支撐人工智能應(yīng)用的硬件引擎。

深度學(xué)習(xí)：人工智能的最新突破

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

我們首先來看一下深度學(xué)習(xí)這一人工智能的最新突破。剛好60年之前，人工智能有一個定義，即把人工智能視為研究與設(shè)計智能體，這個智能體要能感知環(huán)境，要能采取行動，并使自己成功的機會最大化。所以它包括三個方面的內(nèi)容：一是感知，二是決策——決策也就是認知，三是行動。首先很明確，現(xiàn)在人工智能是通過學(xué)習(xí)，而不是編程來實現(xiàn)的。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

人的大腦里面肯定沒程序，我們一定是通過學(xué)習(xí)，來獲得視、聽覺的能力，還有記憶、推理、規(guī)劃、決策、知識學(xué)習(xí)與思考等，這些認知能力也都是通過學(xué)習(xí)而非編程得到的。總之就是所謂的習(xí)而識之。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

人工智能可以分類為感知智能、認知智能和創(chuàng)造性智能三種，這是我們的觀點。感知智能，簡單說就是對人的直覺（intuition）能力的模擬，這主要涉及人的視覺、聽覺、觸覺等，這屬于感知部分。還有一部分是認知智能，即對人類深思熟慮行為的模擬，比如人的推理、規(guī)劃、決策、知識學(xué)習(xí)。另外就是創(chuàng)造性智能，包括人的靈感和頓悟，這一塊顯然還沒有開始這方面的研究。

人工智能是一個影響面極廣的共性科學(xué)問題，同時也是一個戰(zhàn)略性前沿技術(shù)。它的突破從2006年開始，可以說人工神經(jīng)網(wǎng)絡(luò)由此進入了第三次復(fù)興。

1970年、2000年前后人工神經(jīng)網(wǎng)絡(luò)置身寒冬，在人工智能領(lǐng)域中是被邊緣化的。2012年的時候因為和大數(shù)據(jù)結(jié)合，又考慮了GPU硬件加速這個計算引擎，所以真正取得了全球的矚目。2013年開始，國際科技巨頭高強度深度介入，這是人工神經(jīng)網(wǎng)絡(luò)前兩次研究熱潮中從沒發(fā)生過的。

現(xiàn)在大家?guī)缀跆焯於寄芸吹礁鞣N人工智能的新聞，許多IT巨頭都決心用人工智能重塑企業(yè)的產(chǎn)品線，實現(xiàn)企業(yè)產(chǎn)品結(jié)構(gòu)的轉(zhuǎn)型升級。未來2到5年，人工智能還將給我們這個世界帶來更多深刻的改變和驚喜。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

人工神經(jīng)網(wǎng)絡(luò)本身可看成是對生物神經(jīng)系統(tǒng)的模擬或者近似。方法有兩種，一個是對外部輸入輸出的模擬，一個是對內(nèi)部機制的模擬。它的發(fā)展里程可歸結(jié)為“三起兩落”。最早于1943年就出現(xiàn)了MP模型，目前的大部分神經(jīng)網(wǎng)絡(luò)都還在使用這種人工神經(jīng)元模型。1957年Rosenblatt提出了Perceptron（感知機），這是第一種人工神經(jīng)網(wǎng)絡(luò)，因此Rosenblatt也被稱之為“人工神經(jīng)網(wǎng)絡(luò)之父”。所以說，人工神經(jīng)網(wǎng)絡(luò)至今只有59年歷史，而人工智能是60年歷程。

這后面還有一系列里程碑式的結(jié)果，比如20世紀80年代出現(xiàn)的掀起第二次人工神經(jīng)網(wǎng)絡(luò)研究熱潮的Hopfield網(wǎng)絡(luò)和BP網(wǎng)絡(luò)。30年前，在20世紀80年代中后期、90年代初期，人工神經(jīng)網(wǎng)絡(luò)也如同現(xiàn)在一樣，那個時候非常熱，也有無限美好的憧憬。

當(dāng)時各行各業(yè)都去做神經(jīng)網(wǎng)絡(luò)，不過與現(xiàn)在不太一樣，都僅限于學(xué)術(shù)圈和研究機構(gòu)，企業(yè)參與很少。后來發(fā)現(xiàn)這些神經(jīng)網(wǎng)絡(luò)并非想象那樣，能力不行，做不了多少事情，因此神經(jīng)網(wǎng)絡(luò)研究一下又跌入嚴冬。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

現(xiàn)在這一輪復(fù)興，跨國企業(yè)，比如目前做得比較好的Google（DeepMind、Brain）、Facebook、微軟、IBM Watson、Amazon、百度等，全都進來了。還有一個趨勢比較明顯，就是企業(yè)逐漸成為人工智能研究的第一梯隊，產(chǎn)業(yè)與學(xué)術(shù)研究的距離不斷縮短，國內(nèi)外都這樣，非常明顯。我舉一個例子，現(xiàn)在許多公認的頂級國際會議論文都出自于Google、Facebook、微軟這樣的跨國企業(yè)，而并非高校和政府科研機構(gòu)。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

除了企業(yè)以外，還有兩大國際學(xué)術(shù)研究中心，一個是以Geoff Hinton教授為領(lǐng)軍人物的加拿大多倫多大學(xué)，另一個是以Yann LeCun教授為領(lǐng)軍人物的紐約大學(xué)。事實上，人工智能領(lǐng)域有一個以Hinton為首的人工神經(jīng)網(wǎng)絡(luò)學(xué)派，主要包括Hinton、LeCun和Bengio，是全球深度學(xué)習(xí)研究的三大靈魂人物。

具有完全監(jiān)督學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展至今，Yann LeCun居功甚偉。1987年LeCun取得博士學(xué)位，曾是Hinton的博士后，在AT&T貝爾實驗室工作了14年，2013年12月9日受聘于Facebook，創(chuàng)建了著名的Facebook人工智能研究院（FAIR）。深度神經(jīng)網(wǎng)絡(luò)主要就是指深度卷積神經(jīng)網(wǎng)絡(luò)（CNN），這是目前在某些垂直細分領(lǐng)域惟一能夠達到人類水平的神經(jīng)網(wǎng)絡(luò)計算模型，其他如深度信念網(wǎng)絡(luò)（DBN）和深度自動編碼器，都達不到這樣的高水平。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

卷積神經(jīng)網(wǎng)絡(luò)的最初版本實際是由一個日本人福島邦彥提出來的，當(dāng)時叫認知機與神經(jīng)認知機，20世紀70年代就有這個模型，目前卷積神經(jīng)網(wǎng)絡(luò)中的卷積、池化、感受野、ReLU等概念與激發(fā)函數(shù)在這些模型中就有了。1989年LeCun將誤差反向傳播引入神經(jīng)認知機，使后者獲得了監(jiān)督學(xué)習(xí)能力。1995年和Bengio將其命名為卷積神經(jīng)網(wǎng)絡(luò)，2006年叫深度神經(jīng)網(wǎng)絡(luò)。他還創(chuàng)建了手寫體數(shù)字識別數(shù)據(jù)集MNIST，2006年做到了0.39%的錯誤識別率，性能超過傳統(tǒng)計算機視覺方法很多。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

深度CNN具有強大的分層特征表達能力，而且特征是自動學(xué)習(xí)得到的，不是人工設(shè)計的，包括底層、中層、高層特征，而且通過感受野的提高可同時獲得局部和全局特征。就某個特定的應(yīng)用場景，結(jié)合大數(shù)據(jù)和人工智能硬件引擎，既然它的分類識別精度能夠達到人類的水平，自然就可以進行工程產(chǎn)品的開發(fā)了。

大數(shù)據(jù)下驅(qū)動下感知智能產(chǎn)品研發(fā)

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

讓我們來看看大數(shù)據(jù)驅(qū)動下感知智能產(chǎn)品的研發(fā)。

深度CNN標志性的突破出現(xiàn)在2012年，Hinton帶領(lǐng)他的兩位博士生，在2012年的ILSVRC 比賽中獲得了冠軍。ILSVRC 比賽相當(dāng)于什么呢？可以理解為計算機視覺物體識別中的“世界杯足球賽”，每年都舉行。其訓(xùn)練與測試數(shù)據(jù)集ImageNet有1500萬幅圖片，涉及22000種物體的分類（2011年秋版本），如貓、狗、大象等等。他們當(dāng)時使用了2塊GPU加速，訓(xùn)練了一周，取得了15.3%的Top-5錯誤率。而傳統(tǒng)視覺方法的最好結(jié)果是26.2%，2016年這個結(jié)果已經(jīng)下降到3.08%，比人類的5.1%好了不少。創(chuàng)新之處就是將深度卷積神經(jīng)網(wǎng)絡(luò)與大數(shù)據(jù)（1500萬幅圖片）和GPU Cuda并行編程結(jié)合起來了?？梢哉f由此揭開了深度學(xué)習(xí)在計算機視覺、語音識別和自然語言理解中大規(guī)模研究的序幕。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

2013年開始產(chǎn)業(yè)界真正高強度深度介入。很多標志性的事件，比如說，2013年3月Hinton受聘于Google（包括Google收購其3人初創(chuàng)企業(yè)DNNresearch）。2013年12月9日LeCun獲邀受聘于Facebook，創(chuàng)建并執(zhí)掌Facebook的人工智能研究院。2014年1月Google以5億多美元收購Demis Hassabis的人工智能創(chuàng)業(yè)公司DeepMind，2年后該公司推出了引起全社會高度關(guān)注的AlphaGo。2014年5月吳恩達受聘于百度，擔(dān)任百度首席科學(xué)家等。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

大數(shù)據(jù)驅(qū)動下感知智能產(chǎn)業(yè)的框架結(jié)構(gòu)：一是應(yīng)用層，也就是人工智能細分領(lǐng)域，比如說無人駕駛、機器視覺或者語音識別；二是技術(shù)層，涉及模型/算法，開源代碼；三是基礎(chǔ)層，就是大數(shù)據(jù)，計算引擎/深度學(xué)習(xí)芯片這兩點支撐。深度學(xué)習(xí)的市場圖譜，包括四個方面：技術(shù)巨頭，開源代碼、大學(xué)研究，還有半導(dǎo)體公司——做芯片的，主要是做計算引擎。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

什么是大數(shù)據(jù)？我就說一個觀點。我們說大數(shù)據(jù)通常體量巨大，一般不能用常規(guī)的統(tǒng)計學(xué)與平穩(wěn)隨機過程方法來處理，因為已經(jīng)不滿足i.i.d獨立同分布假設(shè)了。而且通常只關(guān)注整體的關(guān)聯(lián)關(guān)系，而不是因果關(guān)系。從這個角度來說，現(xiàn)在很多所謂的大數(shù)據(jù)分析都是炒概念，其實就是常規(guī)的統(tǒng)計分析或者說數(shù)據(jù)挖掘，不是真正含義上的大數(shù)據(jù)分析。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

真正意義上的大數(shù)據(jù)分析是什么呢？四個V特別重要，數(shù)據(jù)體量巨大，從TB級別上升到PB級別；數(shù)據(jù)類型眾多；價值密度低，但商業(yè)價值高，也就是數(shù)據(jù)中大量都是垃圾，垃圾里面找金礦，很少很少，去找這個東西，這個是不能用傳統(tǒng)方法處理的，因為大部分是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。事實上，結(jié)構(gòu)化數(shù)據(jù)用傳統(tǒng)數(shù)據(jù)挖掘手段就可以處理，現(xiàn)在很多人其實干的是這件事情。

對深度學(xué)習(xí)來說有很多開源代碼框架和工具集，比如谷歌的TensorFlow，加州伯克利的Caffe，Bengio的Theano，F(xiàn)acebook的Torch，微軟的CNTK，都開源了，目的就是為了形成一個人工智能產(chǎn)業(yè)生態(tài)。

ImageNet有1500多萬張照片，還有Caltech-101，Caltech-256，CIFAR-10，CIFAR-100，MNIST，US-PS，SVHN，還有人臉識別庫LFW等等，這些都是公開的，而且公開的數(shù)據(jù)集也逐漸增多，但它們是屬于研究性質(zhì)的。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

真正有價值的私有大數(shù)據(jù)，其重要性如同原油一樣屬于戰(zhàn)略資源，被跨國企業(yè)擁有和貪婪追求，這個重要性特別大，國內(nèi)外的差距在不斷加大。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

我們知道，深度卷積神經(jīng)網(wǎng)絡(luò)采集與喂食的大數(shù)據(jù)越多，越能獲得更好的直覺模擬。現(xiàn)在需要更大的數(shù)據(jù)，這個模型真正的進展，數(shù)據(jù)越多越好，這個是以前完全不能想象的事情。舉個例子，Google的無人駕駛汽車它的總行駛里程已超過241萬km，還有特斯拉六個月就采集了超過7500萬km的大數(shù)據(jù)，每天都在大量采集數(shù)據(jù)。

對算法公司來講，無論是采用以前的傳統(tǒng)計算機視覺還是現(xiàn)在的深度學(xué)習(xí)方法，企業(yè)最大的優(yōu)勢之一，就是它擁有的大數(shù)據(jù)優(yōu)勢，例如做ADAS產(chǎn)品的以色列標桿企業(yè)Mobileye。既然要做大數(shù)據(jù)，就要對它進行清洗和標簽。為此一定要選擇一個特定的應(yīng)用場景，或者說一定要做一個非常細的劃分，垂直領(lǐng)域里面還要有細分領(lǐng)域，這樣才有可能得到各種工況、各種情形下的完整大數(shù)據(jù)，才可以進行標簽等等。

在移動互聯(lián)網(wǎng)時代，大數(shù)據(jù)的采集可以采用“眾集”的方法，標簽可以采取“眾包”的方法，比如說現(xiàn)在Google有54輛車，已經(jīng)開始考慮到大數(shù)據(jù)中潮濕情況怎么辦，多雨情況怎么辦，還有高溫、多塵等等，商業(yè)化進程不斷推進。

目前使用的完全監(jiān)督學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)有一個缺點，要求配合使用大數(shù)據(jù)。換句話說，要認識飛機，必須將全世界所有飛機的照片都給他看，包括不同氣候條件下，不同時間段，不同地方與背景、姿態(tài)等等，都要給它看；做無人駕駛則必須要考慮到各種天氣、各種道路、各種時間段的大數(shù)據(jù)等等。這是現(xiàn)在這個方法的缺點。人可不是這么干的。人要認識一個東西很簡單，要他看兩、三架飛機他就把所有的飛機都認得了。這就是小樣本學(xué)習(xí)或者說是“舉一反三”。

在大數(shù)據(jù)和計算引擎的驅(qū)動下，基于深度學(xué)習(xí)方法的視覺物體識別能力，在許多Benchmark評測中，正在達到或超過人類的水平，語音識別再過2-5年也能達到人的水平，文本理解也比過去飛速進步了許多，許多確實可以進行工程產(chǎn)品的開發(fā)了。

我們舉幾個例子，2012年以后深度學(xué)習(xí)成為視覺物體識別的主流方法，2014年以來，又成為人臉識別的主流方法；同時大數(shù)據(jù)成為性能提升的關(guān)鍵。在ILSVRC 比賽中，從2013年開始就再也沒有傳統(tǒng)機器視覺方法了，全部是深度學(xué)習(xí)方法；就這個問題，人的水平是5.1%，微軟去年初的4.94%第一次超過人類的水平，去年底該比賽的冠軍也是微軟，錯誤率降低為3.57%，目前全世界最好的記錄是Google的3.08%，都是企業(yè)取得的成績，這種趨勢非常明顯，因為這些科技巨頭才擁有高效的研發(fā)團隊和計算資源。

人臉識別也是這么一個故事。針對LFM人臉識別數(shù)據(jù)集，深度CNN超過了人類的識別能力，香港中文大學(xué)的湯曉鷗團隊第一次超過了人類97.53%的正確率。百度現(xiàn)在做的最好，99.77%，第二名是騰訊的優(yōu)圖，99.65%，第三是谷歌的99.63%，已經(jīng)超過人不少了。

至于基于深度學(xué)習(xí)的視覺物體檢測與定位，目前也可以做到像素水平的分割。例如，這是長頸鹿、斑馬，進行像素水平的物體分割，再分類識別；分類做的很好了，比人做的還好。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

還有一個標志性結(jié)果就是把深度卷積神經(jīng)網(wǎng)絡(luò)與再勵學(xué)習(xí)結(jié)合起來，應(yīng)用于神經(jīng)動態(tài)規(guī)劃問題。AlphaGo學(xué)術(shù)上就叫神經(jīng)動態(tài)規(guī)劃問題，這個問題很多年以前就有研究?，F(xiàn)在唯一的區(qū)別就是有了大數(shù)據(jù)，有了深度卷積神經(jīng)網(wǎng)絡(luò)，所以叫深度再勵學(xué)習(xí)。其實在AlphaGo之前，在去年2月份，Google的DeepMind就有了深度再勵學(xué)習(xí)的結(jié)果，發(fā)表在《自然》雜志上，只不過沒有引起那么大的社會關(guān)注。利用深度再勵學(xué)習(xí)發(fā)展的深度Q-網(wǎng)絡(luò)，用于玩Atari像素游戲。49種游戲里面，不是靠編程，而是靠學(xué)習(xí)的方法去建立深度Q-網(wǎng)絡(luò)；這49種游戲，包括太空入侵者、功夫大師等等，學(xué)49種游戲，一個職業(yè)選手在那玩，它就在邊上學(xué)，看屏幕上的像素和評分，輸出是一個虛擬的游戲操縱桿；看像素怎么運動，打多少分？學(xué)完以后49種游戲里面，29種超過職業(yè)選手水平；這條線是人類水平，假設(shè)是100分“智商”，計算機的評分最高達到2500多，比人還玩得好很多，它完全通過學(xué)習(xí)的方法，這是與IBM深藍不同的。AlphaGo這個也是發(fā)表在《自然》上，也是封面論文。這個事情我就不說了，因為全社會都在熱烈討論。把人類戰(zhàn)勝了，而且以后看起來人類也很難再戰(zhàn)勝它，因為它可以學(xué)習(xí)，每天都在學(xué)，很可怕。

總之，深度卷積神經(jīng)網(wǎng)絡(luò)在量級上開始與生物神經(jīng)系統(tǒng)，比如說皮層上的功能柱接近了。已經(jīng)有幾十萬個神經(jīng)元，訓(xùn)練樣本幾億、幾十億，未來可能還能達到上百億的大數(shù)據(jù)，這個需要很強的計算硬件支撐。神經(jīng)網(wǎng)絡(luò)的突觸連接權(quán)最多已達到10億，微軟的ResNet網(wǎng)絡(luò)，深度為152層，甚至可以做到1000層；2萬多種物體都可以識別出來，狗、貓都能認出來，叫出名字來，以后可以有更多種類的物體可以被識別，實現(xiàn)更寬垂直領(lǐng)域的通用人工智能。

現(xiàn)在看來，神經(jīng)網(wǎng)絡(luò)的發(fā)展歷經(jīng)“三起兩落”，1970年、2000年前后是寒冬，什么事都做不了，在人工智能領(lǐng)域中被邊緣化?，F(xiàn)在一枝獨秀，應(yīng)該說主要是時代進步了，因為互聯(lián)網(wǎng)時代我們才有可能采集大數(shù)據(jù)，然后采用“眾包”的方法做標簽。另外就是由于游戲的超速發(fā)展出現(xiàn)了強有力的GPU，采用GPU分布式集群系統(tǒng)后，才能為深度學(xué)習(xí)提供超強的計算硬件引擎。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

深度卷積神經(jīng)網(wǎng)絡(luò)為什么那么好呢？因為它首先是一種仿生模型。但是必須指出，深度卷積神經(jīng)網(wǎng)絡(luò)，現(xiàn)在的方法是完全監(jiān)督學(xué)習(xí)的，這個跟人腦是不相同的。人的大腦視覺皮層有兩個通路，一個是腹側(cè)通路管分類的，一個背側(cè)通路是管定位的，應(yīng)該說它們的學(xué)習(xí)是半監(jiān)督的，LGN、V1等可塑性幾乎沒有。

另外，美國MIT麥戈文腦科學(xué)研究所用電極陣列完成的獼猴高級視皮層實驗表明，生物系統(tǒng)的V4、IT皮層的特征映射圖，與深度卷積神經(jīng)網(wǎng)絡(luò)非常接近，令人嘆為觀止?？傊?，作為一種感知智能模型，深度卷積神經(jīng)網(wǎng)絡(luò)迄今最好地模擬了生物視覺通路，在大數(shù)據(jù)和深度學(xué)習(xí)芯片的強力支撐下，具有強大的自動分層特征學(xué)習(xí)能力，在上述列舉的細分領(lǐng)域超過了人類的識別能力。大數(shù)據(jù)下的感知智能的發(fā)展為環(huán)境理解與自然人機交流、人機協(xié)作和人機共融的進步，帶來了歷史性的機遇與挑戰(zhàn)。

“大數(shù)據(jù) 深度CNN”，這是實實在在的進步，確實可以鼓吹大家著手進行以完全監(jiān)督深度CNN為核心的人工智能產(chǎn)品開發(fā)了。它具有的達到人類水平的分類識別能力，前面已經(jīng)說了很多例子了，比如谷歌DeepMind的AlphaGo與DQN，谷歌ImageNet，IBM Watson，微軟同聲傳譯，百度IDL集成模型（人臉識別）和Deep Speech 2（語音識別）等等，都見證了深度CNN的強大能力，極有可能催生一場弱人工智能革命，重塑很多產(chǎn)業(yè)。

AI成為目前全球最熱的投資風(fēng)口，像無人駕駛、自動駕駛、消費類機器人、VR/AR、認知商業(yè)、聊天機器人、智能個人助理等等。總而言之，人工智能技術(shù)與產(chǎn)業(yè)開始扮演著基礎(chǔ)性、關(guān)鍵性和前沿性的核心角色，但我們叫“弱人工智能 ”，可以加很多東西進去?！叭酢笔且驗楸仨毧紤]特定的應(yīng)用場景，人工智能離全面達到人類的水平還差得遠。

認知智能前沿研究

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

第三個講一下認知智能前沿研究。這可能意義更大，但目前不適合進行工程應(yīng)用。我們前面說過必須要用大數(shù)據(jù)把所有飛機給深度監(jiān)督學(xué)習(xí)模型看，它才會認識飛機。我們?nèi)耸切颖緦W(xué)習(xí)或者叫“舉一反三”，看到兩三輛汽車就知道這是什么東西了。

“大數(shù)據(jù) 深度CNN”的感知智能的方法，我們叫“舉三反一”，或者叫數(shù)據(jù)驅(qū)動的方法。但是感知智能的進步，我覺得這個是實現(xiàn)智能模擬的一個基石。我們?nèi)藶槭裁磿兄悄苣?？我們一張開眼，眼前的一切物體都分類了，沒有這種“模式”識別能力就談不上進一步的認知智能。

以前的人工智能研究就卡在這里，這個叫語義鴻溝，一直跨不過去。感知問題沒突破，數(shù)據(jù)到語義之間沒有突破，只是在符號層次研究邏輯、推理等“專家系統(tǒng)”。從今以后，我們可以在這個基礎(chǔ)之上，在新的起點上再做語義水平的認知智能研究了，所以現(xiàn)在相關(guān)的研究非常之多，也是非常激動人心的。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

不過需要提醒的是，現(xiàn)在還是前沿研究階段，未到做產(chǎn)品研發(fā)階段。例如高考人工智能機器人、智能金融、智能醫(yī)療、智能新聞寫作等等。還有IBM的沃森醫(yī)生等認知商業(yè)。還有想法向量，更多種類的物體識別，比如說這是狗，各種各樣的狗我都能認識，哪怕有遮擋，姿態(tài)發(fā)生變化，不同背景等。然后再把各種“概念”或想法向量聯(lián)系起來，也是通過學(xué)習(xí)的方法進行時空遞歸，進行長短期記憶和與記憶的交互式學(xué)習(xí)等，不是通過編程。再加上注意力機制、記憶整合、通道整合等，還包括知識蒸餾、知識遷移?，F(xiàn)在比較火的還有長短期記憶網(wǎng)絡(luò)（LSTM），這個網(wǎng)絡(luò)是端到端的序列學(xué)習(xí)，它里面也有非常好的模擬，例如具有學(xué)習(xí)能力的神經(jīng)元門控機制的模擬。

學(xué)習(xí)方法有三種：監(jiān)督學(xué)習(xí)、再勵學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。再勵學(xué)習(xí)（reinforcement learning）也稱強化學(xué)習(xí)或稱增強學(xué)習(xí)，“再勵”這個術(shù)語最初來自于心理學(xué)。你做出決策后跟環(huán)境交互，最后的結(jié)局你失敗了或成功了，失敗就要受懲罰，成功就要受獎勵。人和動物的局部行為學(xué)習(xí)方式，就是這樣的。這方面的研究很早就有了。

現(xiàn)在看來，深度卷積神經(jīng)網(wǎng)和再勵學(xué)習(xí)，這兩個是成功的，它們的結(jié)合更成功。深度監(jiān)督學(xué)習(xí)，大數(shù)據(jù)一定要有標簽，選定細分領(lǐng)域這是有可能的，如果領(lǐng)域選大之后很難做到。AlphaGo有深度監(jiān)督學(xué)習(xí)，也有深度再勵學(xué)習(xí)，就是自己跟自己對弈學(xué)習(xí)，自己跟環(huán)境交互得到懲罰或者獎勵。這樣通過與環(huán)境反復(fù)的交互，重演“長記性”。

最重要的是深度無監(jiān)督學(xué)習(xí)，這個現(xiàn)在還沒有成功，這個也是大家最感興趣的，更像人類“舉一反三”的學(xué)習(xí)方式。如果這個突破以后，我們也許就不需要那么多的大數(shù)據(jù)了。大數(shù)據(jù)成本太高，而且很多情況下得不到。我們很多技巧性或過程性的東西靠經(jīng)驗或與記憶進行交互式學(xué)習(xí)，這種經(jīng)驗學(xué)習(xí)就是深度無監(jiān)督學(xué)習(xí)研究的內(nèi)容。

深度無監(jiān)督學(xué)習(xí)是人工智能的“黑科技”。一個人看幾輛火車，你從語義上告訴他這個東西名字叫火車，他就知道了，他就馬上聯(lián)系起來，全世界的火車他都認識了。實際上，你不會告訴他火車是什么什么物理特性，是什么什么外部描述，你告訴他火車這個“名稱”就行了，所以它首先要進行無監(jiān)督學(xué)習(xí)，然后才是跟語義結(jié)合起來，從而輕松地獲得技巧和常識。

不幸的是，這些研究結(jié)果都沒有像深度卷積神經(jīng)網(wǎng)絡(luò)一樣，具有一定的腦科學(xué)基礎(chǔ)。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

深度無監(jiān)督學(xué)習(xí)、深度遞歸神經(jīng)網(wǎng)絡(luò)，包括長短期記憶網(wǎng)絡(luò)（LSTM），在腦科學(xué)上都沒有理論與實驗依據(jù)，所以很難說短時間內(nèi)會出現(xiàn)強人工智能。我想一定是這樣的趨勢，先做弱人工智能，做圖象識別、語音識別或者文本理解，再逐步把垂直領(lǐng)域擴大，變成一個通用人工智能，再擴大到全方位，此時什么能力都比人強了，它可以看懂、聽懂，同時還可以替你做決策，替你做情感分析與交流，完全代替人，這種強人工智能，現(xiàn)在看來相當(dāng)長一段時間之內(nèi)完全不太可能實現(xiàn)。

另外，關(guān)于人工智能是否能讓機器擁有意識？其實人腦是有獎賞機制或有這樣的功能模塊的。你做一件事情感到很愉悅、很幸福、很成功，這就是一個評價機制，這部分我就不展開了?？傊?，大腦里肯定是沒有編程、沒有符號、沒有靈魂的，神經(jīng)信息的載體是神經(jīng)元的發(fā)放序列，同時它是通過學(xué)習(xí)而不是編程獲得的感知與認知能力。

支撐人工智能應(yīng)用的硬件引擎

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

最后再介紹一下人工智能芯片。前面已反復(fù)指出，大數(shù)據(jù)和人工智能芯片是兩個基礎(chǔ)點，可以說支撐了人工智能技術(shù)與產(chǎn)業(yè)的迅猛發(fā)展。前面的報告介紹了Hadoop、Spark和Petuum等高性能分布式CPU/GPU集群系統(tǒng)的研究。

作為支撐人工智能應(yīng)用的硬件引擎，我想強調(diào)如下三個方面的應(yīng)用：一是基于超級GPU或者TPU集群的離線訓(xùn)練，這是必不可少的。比如說訓(xùn)練1000個小時、2000個小時，用了這個超算系統(tǒng)后10分鐘可能就解決問題了，這是一定要有的，但這塊主要依賴于GPU和TPU，功耗太高、成本太貴。例如2000塊GPU大致需要1個億的投入。二是基于云平臺的在線應(yīng)用，這可以用FPGA來做，既可以降低成本，也可以大幅減少功耗。三是直接進行終端應(yīng)用。

在超級GPU或者TPU集群服務(wù)器方面，英偉達（Nvdia）的深度學(xué)習(xí)芯片Tesla P100，具有150億個晶體管，運算速度達到21.2萬億次，研發(fā)預(yù)算超過20億美元。利用P100構(gòu)建的超級計算機DGX-1速度達到170萬億次。因為卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是張量（Tensor）處理，Google數(shù)據(jù)中心研發(fā)的張量處理器（TPU），是它的秘密武器。它對CPU計算能力要求不高，是專門為深度學(xué)習(xí)定制的ASIC。無論是GPU還是TPU，我們中國企業(yè)的機會不多，技術(shù)門檻太高。實際上，GPU或TPU的成本太貴，功耗太高。我們的機會就在FPGA上面，也就是進行基于FPGA的深度學(xué)習(xí)芯片（DPU）的研發(fā)。相對于GPU。不但靈活度更高，成本很低，而且其能耗比可提升至少1000倍。對于基于云平臺的在線應(yīng)用或者移動端應(yīng)用，拿FPGA來做，它的成本、功耗、體積都有很大的優(yōu)勢，這或許是我們惟一能夠做的事情。

還有一類功耗更低，且更有前瞻性的是類腦芯片。包括兩種類型：一是利用傳統(tǒng)CMOS工藝進行生物突觸模擬，就是用幾個晶體管去模擬突觸連接權(quán)；二是直接使用新型憶阻器件去模擬生物突觸。IBM的TrueNorth和高通的Zeroth是前一類神經(jīng)形態(tài)芯片的典型代表。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

IBM的TrueNorth，2014年8月發(fā)表在《科學(xué)》雜志上。它有什么特點呢？這個芯片里面有100萬個發(fā)放神經(jīng)元，模擬了2.56億突觸連接。人腦的神經(jīng)元就是發(fā)放的，可以理解為很多個脈沖。以前覺得發(fā)放神經(jīng)元沒有什么用，現(xiàn)在發(fā)現(xiàn)由它組成的神經(jīng)網(wǎng)絡(luò)，功耗很低，TrueNorth類腦芯片才只有63個毫瓦！我們知道人腦的全部功耗只有區(qū)區(qū)20瓦，但皮層神經(jīng)元的個數(shù)卻有140億。IBM最近還有一個實驗，它使用48塊TrueNorth芯片構(gòu)建了一個小型數(shù)字化鼠腦，相當(dāng)于有4800萬個發(fā)放神經(jīng)元，這個數(shù)字化的鼠腦可以進行深度學(xué)習(xí)，可以識別圖片和語音，也可理解一些自然語言，還可通過在線增量學(xué)習(xí)以適應(yīng)新環(huán)境。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

除此之外，還有一個更新的、比IBM和高通類腦芯片功耗更低的基于憶阻器的類腦芯片。憶阻器也叫記憶電阻，是硬件模擬生物突觸的理想方式。簡單說，憶阻器隨流經(jīng)的電荷的變化其阻值就會發(fā)生變化，而且在斷流時還具有阻值記憶功能。1971年提出憶阻器設(shè)想，2008年的時候惠普用納米薄膜把它制備成功了。最新的結(jié)果是2015年加州大學(xué)等研制了一款基于Crossbars的憶阻類腦芯片，發(fā)表在2015年5月的《自然》雜志上。它的特點是集成度更高，讀寫速度更快，尤其是功耗會更低更低。當(dāng)然前面和后面這兩類人工智能芯片，技術(shù)門檻特別高，我們能做的事情可能不多。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

最后是三句話的結(jié)語。第一，弱人工智能的產(chǎn)業(yè)發(fā)展正處于爆發(fā)期，大家可以開始做工程化的應(yīng)用產(chǎn)品開發(fā)了，深度卷積神經(jīng)網(wǎng)絡(luò)確實是非常大的進步，尤其是得到大數(shù)據(jù)和超強計算能力的支撐。第二，即使是深度卷積神經(jīng)網(wǎng)絡(luò)的一點點進步，也會給人類社會進步帶來巨大的變革。第三，私有大數(shù)據(jù)和深度學(xué)習(xí)芯片是制勝的關(guān)鍵和法寶。

【作者介紹】鄧志東，1991年獲哈工大博士學(xué)位。2000年起擔(dān)任清華大學(xué)計算機系教授，博士生導(dǎo)師。兼任中國自動化學(xué)會理事，中國自動化學(xué)會智能自動化專業(yè)委員會主任。曾任國家863計劃智能機器人主題專家組組長助理（1998-2001）。目前的研究方向：人工智能、深度神經(jīng)網(wǎng)絡(luò)、計算神經(jīng)科學(xué)，先進機器人、無人駕駛汽車等。曾從事的研究領(lǐng)域：虛擬現(xiàn)實（1998－2001）、無線傳感器網(wǎng)絡(luò)（2001－2009）、計算生物學(xué)（2002－2010）。

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）

新智元 616 有獎?wù)鞲辶?/strong>

自5月31日起，新智元開辟【名家專欄】，刊登人工智能專家寫給新智元的原創(chuàng)稿件。

新智元致力于促進人工智能產(chǎn)業(yè)的發(fā)展，技術(shù)研發(fā)與進步，在人工智能產(chǎn)業(yè)界、學(xué)術(shù)界有強大的影響力，為了進一步繁榮人工智能業(yè)界思想與技術(shù)的交流與分享，特向業(yè)界領(lǐng)袖和名家征稿：

1. 凡產(chǎn)業(yè)、學(xué)術(shù)界領(lǐng)袖、名家向新智元公眾平臺投稿，新智元標識名家專欄的原創(chuàng)稿件，采用為公眾號頭條的，稿費標準3000元以上；

2. 凡產(chǎn)業(yè)、學(xué)術(shù)界領(lǐng)袖、名家向新智元公眾平臺投稿，新智元標識名家專欄的原創(chuàng)稿件，采用為公眾號2-3條的，稿費標準千字300元以上；

3. 凡產(chǎn)業(yè)、學(xué)術(shù)界精英、骨干向新智元公眾平臺投稿，新智元標識業(yè)界、學(xué)術(shù)的深度稿件，采用為公眾號頭條的，稿費標準千字300元以上。

4. 凡在其他媒體或個人博客已經(jīng)發(fā)布的稿件、投稿的專家或研發(fā)機構(gòu)稿件獲新智元采納轉(zhuǎn)載的，不付稿費，但可以附上個人簡歷、照片或者所在公司、實驗室簡短介紹或者原文鏈接。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： mentor007 > 《待分類》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

mentor007

關(guān)注對話

TA的最新館藏

馬化騰開口預(yù)言下一個風(fēng)口，有人不屑一顧，有人如獲至寶！他說：“C
數(shù)字化與數(shù)據(jù)化——概念界定與辨析
什么？做了這么久的科研，你還不知道“文獻計量分析”嗎？
什么是結(jié)構(gòu)化思維？68頁結(jié)構(gòu)化思維培訓(xùn)課件，結(jié)構(gòu)化思想表達
學(xué)會這一點，你才能創(chuàng)造“獨特價值”
金字塔原理，學(xué)會思考、表達和解決問題的邏輯

喜歡該文的人也喜歡更多

熱門閱讀換一換

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

報告鄧志東：人工智能前沿技術(shù)與產(chǎn)業(yè)發(fā)展趨勢（53PPT）