近日,在 2022 WAIC AI 開發(fā)者日上,憶海原識創(chuàng)始人兼 CEO 任化龍發(fā)表主題演講《類腦計算的發(fā)展與關(guān)鍵技術(shù)》。演講中,他夯實細致地介紹了類腦智能的特點以及與傳統(tǒng)技術(shù)的對比,以及憶海原識自主研發(fā)的 Ocean 類腦計算平臺。 以下為任化龍的演講內(nèi)容,機器之心進行了不改變原意的編輯、整理:憶海原識專注于靈巧手和類腦智能,推動機器人產(chǎn)業(yè)賦能生活服務(wù)和工業(yè)生產(chǎn),解放人類的生產(chǎn)力。憶海原識團隊起源于 2007 年,當時在研發(fā)靈巧手本體,后來發(fā)現(xiàn)智能才是機器人最大的瓶頸。于是任化龍選擇去斯坦福深造,卻發(fā)現(xiàn)所學(xué)傳統(tǒng)智能技術(shù)存在明顯理論短板。人工智能的突破口在哪里?答案就在人腦,不需向外索求。深度學(xué)習(xí)已經(jīng)遇到瓶頸不可否認,人工智能發(fā)展至今已取得矚目成就,在計算機視覺、計算機聽覺、自然語言處理、自動駕駛等領(lǐng)域都已獲商業(yè)應(yīng)用,但每個領(lǐng)域也尚存不少短板。計算機視覺方面,目前以深度學(xué)習(xí)為主。深度學(xué)習(xí)采用數(shù)學(xué)優(yōu)化作為內(nèi)核,需要大量樣本訓(xùn)練,泛化能力較弱,不能對事物、情景抽象概括理解,例如不能理解左圖中奧巴馬的搞笑舉動。計算機聽覺方面,假設(shè)在一個非常嘈雜的雞尾酒會上,很多人在說話,夾雜著觥籌交錯的酒杯聲。那么,你怎么主動選擇聽哪個聲音呢?這就是主動注意力。還有像人的說話、唱歌有音色和音調(diào),甚至說話過程中有語氣等,這些為傳統(tǒng)智能技術(shù)所忽略。至于服務(wù)機器人,目前缺少靈巧的手,所以沒辦法進行靈巧操作。而運動規(guī)劃仍需要給定軌跡或者給出精確的目標坐標(X、Y、Z)。機器人無法自己進行決策,也不具備像人一樣的情景記憶。自動駕駛就更不用說了,在封閉場景還好,但是到了開放環(huán)境仍然面臨一系列挑戰(zhàn),包括可解釋性和魯棒性較弱、復(fù)雜路況下適應(yīng)能力弱、需要大量重復(fù)訓(xùn)練但性能提高有限等。可見,目前人工智能感知能力有限,更不要說認知能力,深度學(xué)習(xí)確實遇到了瓶頸。前面提到了好多次認知,那什么是認知呢?我先拋出一個問題,誰還能記得上一個演講的全部內(nèi)容、全部畫面,甚至每一句話?大家應(yīng)該記不得了,因為人并不是像攝像頭一樣把每一段情景都錄下來。但是如果讓你總結(jié)概括,是不是可以呢?比如你可以用少于 10 句話去概括,甚至可以進一步精簡到用一句話概括。這就是認知。學(xué)習(xí)和記憶、抽象和歸納就是人有的認知,這些對于機器人以及計算機來說仍然非常困難。人腦的認知行為是非常靈活的,比如下圖中五官的位置關(guān)系是怎樣的,是不是已經(jīng)錯亂了,沒有準確的順序?再看它的色調(diào)和紋理,跟真實的人臉也有區(qū)別嗎?那么我們把它識別成什么呢?如果從這幅畫的作者來講,我們知道它是畢加索的一副名畫;從內(nèi)容上講,我們知道這是一張扭曲的人臉。如果想要識別它扭曲在哪里,可能是鼻子和眼睛的位置是錯亂的。所以,我們對任何一個確定的輸入,識別理解成什么樣取決于認知需要。這種多元化的解讀就是人腦的認知所帶來的靈活性,這些也是目前人工智能所不具備的。人工智能怎么突破前述瓶頸呢?天地宇宙賦予我們?nèi)松?,古人通過內(nèi)觀發(fā)現(xiàn)人的身體有氣脈,因而發(fā)展出了中醫(yī),而人的大腦是目前唯一的通用智能系統(tǒng),因此大腦是最好的設(shè)計藍本,我們應(yīng)該向內(nèi)借鑒,不需向外求索。借鑒生物腦的智能技術(shù)可以用在視覺、聽覺、語言、理解、決策、運動控制等各個維度,解決服務(wù)機器人和自動駕駛的關(guān)鍵瓶頸。從這個思路可以演變出很多具有相關(guān)性,但又有一些不同的學(xué)科和技術(shù)路線。那么類腦計算是什么呢?它是由生物腦啟發(fā)的人工智能技術(shù),強調(diào)實用,不追求把大腦中每一個生物細節(jié)都進行模擬,具有廣闊應(yīng)用前景。腦仿真就是一種精細度較高的模擬,不一定追求實用,更多的是探求生物物理層面的機理。神經(jīng)擬態(tài)芯片,利用介于數(shù)字和模擬混合信號的方式來實現(xiàn)人工神經(jīng)元,集成進芯片里,大幅度節(jié)省芯片的功耗。計算神經(jīng)科學(xué)可以看作是類腦計算的前身,它大量使用數(shù)理方法對腦機制進行理解,很多模型都是抽象的,不一定追求實用。腦機接口也是近些年興起的領(lǐng)域,主要解決人和機器、大腦和機器之間的交互。下圖提供了一目了然的對比:類腦計算可以通過算法、軟件、硬件實現(xiàn);神經(jīng)擬態(tài)芯片如 IBM 的 TrueNorth;腦仿真如歐盟的人類腦計劃,通過對多種生物腦中特定腦區(qū)的腦切片進行重構(gòu)得到腦模擬模型;計算神經(jīng)科學(xué)如經(jīng)典的脈沖神經(jīng)元模型和傳統(tǒng)脈沖神經(jīng)網(wǎng)絡(luò);腦機接口如馬斯克的 Neuralink。類腦計算如何借鑒大腦呢?它有兩個關(guān)鍵特征,一個是技術(shù)特征,另一個是應(yīng)用面。技術(shù)特征上高度借鑒了生物腦中關(guān)鍵的生物機制,比如不再使用深度神經(jīng)元模型,而是使用脈沖神經(jīng)元模型,甚至比脈沖神經(jīng)元更復(fù)雜的模型。類腦計算的學(xué)習(xí)機制也不再依賴數(shù)學(xué)優(yōu)化,無需誤差反傳和梯度下降,而主要利用可塑性進行訓(xùn)練,由此局部性更好,學(xué)習(xí)效率更高,配合生物腦中特殊的神經(jīng)環(huán)路可以快速地實現(xiàn)舉一反三。類腦計算也不再嚴格區(qū)分學(xué)習(xí)和推理這兩個過程,很適合實時在線學(xué)習(xí)。由脈沖神經(jīng)元構(gòu)建出微環(huán)路,再由微環(huán)路構(gòu)建多腦區(qū)的腦網(wǎng)絡(luò),這樣就可以實現(xiàn)類腦神經(jīng)網(wǎng)絡(luò)模型。類腦計算面向的問題是更高級的認知任務(wù),不再是簡單的識別和分類。比如抽象與歸納、推理與決策、知識與常識都屬于認知,想象與創(chuàng)造、情感、同理心、道德,甚至人特有的直覺與審美屬于高級認知現(xiàn)象。類腦計算具體怎么做呢?回顧憶海原識的探索歷程,我們是從機器人本體開始,因為腦中包括視覺系統(tǒng)、記憶系統(tǒng)、運動控制系統(tǒng)在發(fā)育與訓(xùn)練過程中離不開人體或者說機器人本體跟外部世界的不斷互動。后來逐漸積累類腦智能的理論,并在這些理論指導(dǎo)下逐漸實現(xiàn)了一系列類腦神經(jīng)網(wǎng)絡(luò)模型。再后來發(fā)現(xiàn)這些模型規(guī)模比較龐大,運算效率又成為新的問題,于是研發(fā)了類腦加速平臺,走了一個完整的技術(shù)鏈條。回顧深度學(xué)習(xí)的發(fā)展歷史,其實也是一樣的。最早從理論出發(fā),然后出現(xiàn)了多層神經(jīng)網(wǎng)絡(luò),解決了訓(xùn)練問題,再然后出現(xiàn)了一系列關(guān)鍵構(gòu)造(如 CNN、RNN、池化),后來又出現(xiàn)了諸如 Caffe、TensorFlow 等深度學(xué)習(xí)加速平臺。類腦計算的發(fā)展也一樣要循序漸進,一步一步扎實地走。類腦神經(jīng)網(wǎng)絡(luò)初窺神經(jīng)網(wǎng)絡(luò)是怎么工作的呢?我們先來看人眼視網(wǎng)膜,它是視覺神經(jīng)通路的第一關(guān),卻又往往被傳統(tǒng)計算機視覺所忽略。再仔細看,視網(wǎng)膜的內(nèi)部構(gòu)造非常豐富和復(fù)雜,從第一層的感光細胞到后面的雙極細胞、水平細胞、無長突細胞和神經(jīng)節(jié)細胞,它們分成了若干層,每層里面還有亞層。這些細胞之間進行充分的信息溝通和互動,能夠產(chǎn)生多種重要作用,包括但不限于調(diào)整對比度、圖象銳化、邊緣檢測和形成初步色感等。實際上,視覺的處理過程并不僅局限于視覺皮層,其實在視網(wǎng)膜就已開始了。下圖為視網(wǎng)膜模型的處理效果,最左邊是輸入圖象,中間是它提取出來的邊緣,最右邊形成了初步的色感(形成了三種不同的主要色調(diào))。這里我們只借鑒視網(wǎng)膜內(nèi)部的生物機制就可以實現(xiàn),完全不需要數(shù)學(xué)優(yōu)化、誤差反傳和大量的訓(xùn)練,效果仍然很好。我們再來看更高級的部分「視覺皮層」。視覺神經(jīng)系統(tǒng)有豐富發(fā)達的機制,它的神經(jīng)通路與其他腦區(qū)高度互聯(lián),比如視覺皮層可以連接到運動皮層,和空間感有關(guān);它還連接到顳葉,對物品進行識別;它還連接到中顳葉構(gòu)造(包括海馬體),形成情景記憶。情景記憶又可以進行抽象和歸納,再反哺視覺皮層的訓(xùn)練,使視覺訓(xùn)練效率非常高。我們舉個例子,受益于四通八達的神經(jīng)通路,視覺系統(tǒng)可以進行豐富靈活的信息處理。如下最左圖給大家一種立體感(存在視錯覺);中間圖有 ABC 三個位置,尤其是 A 和 B 在明亮上是同一個色階,但在不同的陰影照度和對比下,就可能被人眼識別成不同的結(jié)果;還有最右圖中有幾種顏色的螺旋呢?其實如果去掉背景干擾信息,可以發(fā)現(xiàn)它的螺旋線只有綠色。也就是說,人腦對立體感、明亮感、色彩感以及其他諸多種感覺都存在相對性與整體性,能夠在豐富的信息空間中進行靈活處理,處理方式和結(jié)果取決于認知需要和對比。在下圖中,大家可以看到遠山之間存在層次感,能夠分辨近景與遠景。在這種圖像之中,你可以結(jié)合視覺注意力選擇關(guān)注的對象(即主動注意力)。人的視覺一般只對中央凹的位置(即中間部分)高度關(guān)注因而分辨率較高,周邊的部分是模糊的。人眼可以選擇聚焦于遠山,也可以聚焦于近景,這些都是出于認知需要而定。這些在傳統(tǒng)人工智能中沒有很好地實現(xiàn),所以不夠靈活,沒有辦法適應(yīng)會紛繁變化的復(fù)雜場景。再如下圖示例,偏向于識別問題。圖中的對象到底是牛還是鯊呢?如果用深度神經(jīng)網(wǎng)絡(luò),可能只能識別出一個確定的結(jié)果,要么分類成某種鯊魚,要么分類成其他結(jié)果。為什么呢?因為它是端到端的單一輸入輸出系統(tǒng)。但是對人腦而言,認知是極其靈活的,思維存在非常多維度。頭腦可以告訴你如果現(xiàn)在關(guān)注的是前景,雖然長得像鯊魚的輪廓,但從紋理上看,是牛的皮膚。如果看它的頭部與身體關(guān)系,則是牛頭鯊身(您或許已經(jīng)注意到了,這里存在經(jīng)驗 / 邏輯上的沖突)。如果你現(xiàn)在把注意力放到遠景,頭腦會告訴你遠景是遠處的山峰。可以這么說,視覺系統(tǒng)具有豐富靈活的認知機制,并不像深度學(xué)習(xí)那樣是端到端的單一輸入輸出系統(tǒng)。問題來了,我們?nèi)绾谓_@樣龐大復(fù)雜的神經(jīng)系統(tǒng)呢?1,我們發(fā)現(xiàn)建模過程非常煩瑣,需要簡化建模過程的工具。2,神經(jīng)系統(tǒng)分為非常多復(fù)雜的層級,最頂層有系統(tǒng)級、往下是環(huán)路,再往下是神經(jīng)元和突觸,再往下可以分解到分子和蛋白質(zhì)層級。每一個層級對整體的認知需要都是有貢獻的,需要實現(xiàn)其信息處理過程。因此,需要一個能夠?qū)Ω鱾€層級進行建模的工具。3,此外,類腦神經(jīng)網(wǎng)絡(luò)往往規(guī)模很大,包括上千萬甚至上億個參數(shù)。如何在通用計算硬件上運算呢?這也需要一個運算效率很高的工具。Ocean 類腦計算平臺應(yīng)運而生,最初是作為我們內(nèi)部使用的工具,現(xiàn)在隆重地向大家介紹和推廣。Ocean 類腦計算平臺分為前端、核心和后端,它把建模和硬件管理進行解耦。這樣一來,神經(jīng)科學(xué)家和建模人員不必關(guān)心硬件底層細節(jié),只需專注神經(jīng)網(wǎng)絡(luò)的建模。該平臺提供了豐富的基礎(chǔ)模型和神經(jīng)機制,包括有多種類型的神經(jīng)元、突觸、可塑性機制,以及順饋、反饋、循環(huán)和側(cè)抑制等常見的環(huán)路結(jié)構(gòu),簡化用戶建模過程,同時支持用戶自定義模型、擴展功能。該平臺能夠支持全尺度的建模,從最小單位的神經(jīng)元、突觸、樹突、環(huán)路、核團到腦區(qū)。該平臺還可以支持大規(guī)模類腦神經(jīng)網(wǎng)絡(luò)的運算,通過對硬件設(shè)備的調(diào)度管理,保證高運算效率。該平臺可以在異構(gòu)計算器件上運行,支持 CPU、GPU 以及其他的異構(gòu)計算設(shè)備。該平臺可部署在個人計算機、云端服務(wù)器以及嵌入式設(shè)備上,從而為其應(yīng)用和推廣帶來了可能,滿足從研發(fā)到應(yīng)用部署的全鏈條需求。神經(jīng)系統(tǒng)建模有哪些特點?我們發(fā)現(xiàn):第一,生物神經(jīng)元特性遠比傳統(tǒng)脈沖神經(jīng)元特性豐富,第二,生物腦的機制遠比傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的機制豐富。如此看來,理論、算法、模型將會持續(xù)快速更迭,并將成為常態(tài)。如左上圖為一個生物神經(jīng)元,它可大致分為突觸、樹突、胞體、軸突等幾個部分。對應(yīng)到模型上,每個部分都可以發(fā)生很復(fù)雜的機制,每一個機制對于最終表現(xiàn)出來的宏觀認知效果都有不可忽視的重要作用。為滿足靈活建模需要,Ocean 也相應(yīng)地將神經(jīng)元模型劃分為突觸、樹突、胞體等結(jié)構(gòu)(可以進一步細分和擴展)。其中,突觸也可以獨立建模。再來看突觸及突觸可塑性,在生物學(xué)層面二者相關(guān)性很強,但又相對獨立。因此 Ocean 將二者解耦,突觸及突觸可塑性可以分別建模,同時允許二者靈活組合。在前述基礎(chǔ)上,為了運算的高效以及便于管理模型 / 代碼,Ocean 將神經(jīng)元、突觸以群組為單位劃分,并提供兩種基礎(chǔ)模型描述范式:容器模型描述范式、端口模型描述范式。下面著重介紹端口模型描述范式。一個端口模型包括模型主體和一至多個端口。其中,模型主體包括若干變量,用于表達模塊 / 模型的狀態(tài)(例如神經(jīng)元的膜電位);端口表述了模塊 / 模型與其它模塊 / 模型的信息交互方式(可以用于實現(xiàn)突觸連接)。通過端口機制,可以清晰地描述神經(jīng)網(wǎng)絡(luò)豐富而復(fù)雜的拓撲結(jié)構(gòu)。針對基礎(chǔ)模型提供以下端口(可以按需擴展):- Output - 輸出端口,產(chǎn)生輸出;
- Reference - 引用端口,允許模塊 / 模型與其它模塊 / 模型的變量相互引用;
- Connection - 連接端口,可用于實現(xiàn)聯(lián)接權(quán)重矩陣等功能;
如下圖所示: Ocean 提供了常用的神經(jīng)元類型、突觸類型、樹突結(jié)構(gòu)、可塑性機制等,并分別提供了對應(yīng)的端口模型 / 容器群組。進一步地,為了提高模型的組織能力,更靈活地管理模塊,Ocean 還提出了抽象模塊(AbstractModule);抽象模塊可以對模型進行封裝,通過代理輸入端口(ProxyInput)、代理輸出端口(ProxyOutput)等高級端口提供統(tǒng)一的輸入、輸出接口;抽象模塊之間可以進行級聯(lián)、嵌套,形成扁平結(jié)構(gòu)、樹狀結(jié)構(gòu)、多層級結(jié)構(gòu)等,為模型的組織提供了靈活的管理及擴展能力,更加便于研發(fā)人員之間分工協(xié)作,將各自設(shè)計的模型組裝成為更大的模型。 下面給出一些經(jīng)典的神經(jīng)環(huán)路拓撲結(jié)構(gòu)案例:1. 神經(jīng)元 - 突觸 - 神經(jīng)元 - 突觸可塑性(上、下游神經(jīng)元組一對一)2. 神經(jīng)元 - 突觸 - 神經(jīng)元 - 突觸可塑性(上、下游神經(jīng)元組多對一)3. 神經(jīng)元 - 突觸 - 樹突 - 神經(jīng)元 - 突觸可塑性這里介紹一個 Ocean 建模實例。下圖為使用類腦神經(jīng)網(wǎng)絡(luò)針對 MNIST 手寫字體進行識別。這個模型沒有使用誤差反傳、梯度下降,只使用一定神經(jīng)環(huán)路拓撲結(jié)構(gòu)結(jié)合可塑性進行學(xué)習(xí),就可以取得良好的識別效果。我們還有更多的類腦神經(jīng)網(wǎng)絡(luò)模型以及應(yīng)用案例,將會在以后的發(fā)布會上陸續(xù)向大家介紹。憶海原識作為類腦計算以及機器人生態(tài)中的一份子,希望能夠跟大家共同推動該領(lǐng)域發(fā)展,也希望大家能夠持續(xù)關(guān)注。謝謝大家!特別鳴謝:天安云谷、奇績創(chuàng)壇、X-man 加速營、Nvidia Inception Program
|