當(dāng)?shù)貢r間 6 月 23 日,今年的 ACM 圖靈獎得主、“深度學(xué)習(xí)三巨頭”中的 Geoffrey Hinton、Yann LeCun 在 ACM FCRC 2019上發(fā)表演講,分享了他們對于深度學(xué)習(xí)的最新觀點。 Geoffrey Hinton 演講題目為《深度學(xué)習(xí)革命》。他表示,截至目前,人工智能有兩種典型例證。第一種是 1950 年代基于邏輯啟發(fā)的智能,在那時,智能的本質(zhì)是使用符號規(guī)則來做出符號表達(dá)。這種方法注重的是推理,主要側(cè)重于解決如何讓計算機像人類一樣能根據(jù)推理做出反應(yīng)。第二種是基于生物啟發(fā)的人工智能。它所代表的智能的本質(zhì)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的聯(lián)系優(yōu)勢。這種方法注重的是學(xué)習(xí)和感知。 (來源:Geoffrey Hinton) 由此看來,人工智能的這兩個范例有很大的不同,而且,它們在內(nèi)部表征(internal representations)方面的觀點也不相同。 (來源:Geoffrey Hinton) 基于邏輯的人工智能,其內(nèi)部表征是符號表達(dá)。程序員可以用明確的語言把這些符號輸入計算機;計算機通過應(yīng)用規(guī)則使現(xiàn)有的符號產(chǎn)生新的表示。而基于生物的人工智能,它的內(nèi)部表征與語言沒有任何關(guān)系。它們就像是神經(jīng)活動一樣,充滿了大量向量,這些向量是直接從數(shù)據(jù)中學(xué)習(xí)得到的,而且對神經(jīng)活動有著直接的因果影響。 這就分別產(chǎn)生了兩種計算機執(zhí)行任務(wù)的方式。 第一種是編程(programming),Hinton 也將它稱為智能設(shè)計(intelligent design)。編程時,程序員已經(jīng)想清楚了處理任務(wù)的方法步驟,他需要做的是精確計算,并將所有細(xì)節(jié)輸入計算機,然后讓計算機去執(zhí)行。 第二種是學(xué)習(xí),這時只需要向計算機提供大量輸入輸出的例子,讓計算機學(xué)習(xí)如何將輸入與輸出聯(lián)系起來,根據(jù)輸入映射出輸出。當(dāng)然這也需要編程,但是所用的程序是簡化的通用學(xué)習(xí)程序。 五十多年來,人類一直在努力讓符號型人工智能(symbolic AI)實現(xiàn)“看圖說話”的功能。針對這項任務(wù),人類用兩種方式都嘗試了很長時間,最后神經(jīng)網(wǎng)絡(luò)成功完成了這一任務(wù),神經(jīng)網(wǎng)絡(luò)正是基于純學(xué)習(xí)的方法。 (來源:Geoffrey Hinton) Hinton:神經(jīng)網(wǎng)絡(luò)的核心問題這就引出了神經(jīng)網(wǎng)絡(luò)的核心問題:包含數(shù)百萬權(quán)重參數(shù)和多層非線性神經(jīng)元的大型神經(jīng)網(wǎng)絡(luò)是非常強大的計算設(shè)備,那么神經(jīng)網(wǎng)絡(luò)能否從隨機權(quán)重參數(shù)開始,并從訓(xùn)練數(shù)據(jù)中獲取所有知識,從而學(xué)會執(zhí)行一項困難的任務(wù) (比如物體識別或機器翻譯) 呢? 接下來,Hinton 回顧了前人的種種努力成果。 (來源:Geoffrey Hinton) 神經(jīng)網(wǎng)絡(luò)是如何工作的呢?Hinton 做了簡短的介紹。 (來源:Geoffrey Hinton) 研究人員首先對一個真實的神經(jīng)元做了一個粗略的理想化,這樣就可以研究神經(jīng)元是如何協(xié)作完成那些難度很高的計算。 神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個節(jié)點代表一種特定的輸出函數(shù),稱為激勵函數(shù)(activation function)。每兩個節(jié)點間的連接都代表一個對于通過該連接信號的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式、權(quán)重值和激勵函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。 (來源:Geoffrey Hinton) 那么,如何訓(xùn)練神經(jīng)網(wǎng)絡(luò)呢?Hinton 認(rèn)為分為兩大方法,分別是監(jiān)督訓(xùn)練和無監(jiān)督訓(xùn)練。 監(jiān)督訓(xùn)練:向網(wǎng)絡(luò)展示一個輸入向量,并告訴它正確的輸出,通過調(diào)整權(quán)重,減少正確輸出與實際輸出之間的差異。 無監(jiān)督訓(xùn)練:僅向網(wǎng)絡(luò)顯示輸入,通過調(diào)整權(quán)重,更好地從隱含神經(jīng)元的活動中重建輸入(或部分輸入),最后產(chǎn)生輸出。 其中,監(jiān)督學(xué)習(xí)是很好理解的訓(xùn)練方式,但是它使用的“突變”方法的效率很低。 (來源:Geoffrey Hinton) 相較而言,反向傳播(backpropagation algorithm)只是計算權(quán)重變化如何影響輸出錯誤的一種有效方法。它不是一次一個地擾動權(quán)重并測量效果,而是使用微積分同時計算所有權(quán)重的誤差梯度。當(dāng)有一百萬個權(quán)重時,反向傳播方法要比變異方法效率高出一百萬倍。 (來源:Geoffrey Hinton) 然而,反向傳播算法的發(fā)展卻又不盡如人意。 在 20 世紀(jì) 90 年代,雖然反向傳播算法的效果還算不錯,但并沒有達(dá)到人們所期待的那樣,訓(xùn)練深度網(wǎng)絡(luò)仍然非常困難;在中等規(guī)模的數(shù)據(jù)集上,一些其他機器學(xué)習(xí)方法甚至比反向傳播更有效。 (來源:Yann LeCun) 符號型人工智能的研究人員稱,想要在大型深層神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)困難的任務(wù)是愚蠢的,因為這些網(wǎng)絡(luò)從隨機連接開始,且沒有先驗知識。 于是深度學(xué)習(xí)經(jīng)歷了一段時間的“寒冬”,到 2012 年之后,人們才意識到深度學(xué)習(xí)是有用的,深度學(xué)習(xí)才有了大量應(yīng)用。例如圖像識別和機器翻譯等。 最后,Hinton 談到了神經(jīng)網(wǎng)絡(luò)視覺的未來。Hinton 認(rèn)為,幾乎所有人工神經(jīng)網(wǎng)絡(luò)只使用兩個時間尺度:對權(quán)重的緩慢適應(yīng)和神經(jīng)活動的快速變化。突觸在多個不同的時間尺度上都可以適應(yīng),針對短時記憶(short-term memory)的快速權(quán)重適應(yīng)(fast weight)將使神經(jīng)網(wǎng)絡(luò)變得更好。 Yann LeCun :未來在于監(jiān)督學(xué)習(xí)Yann LeCun 則在演講中表示,監(jiān)督學(xué)習(xí)在數(shù)據(jù)量很大時效果很好,可以做語音識別、圖像識別、面部識別、從圖片生成屬性、機器翻譯等。 如果神經(jīng)網(wǎng)絡(luò)具有某些特殊架構(gòu),比如上世紀(jì)八九十年代提出的那些架構(gòu),就能識別手寫文字,而且效果很好,到上世紀(jì) 90 年代末時,Yann LeCun 在貝爾實驗室研發(fā)的這類系統(tǒng)承擔(dān)了全美 10%-20% 手寫文字的識別工作,這不僅在技術(shù)上,而且在商業(yè)上都取得了成功。 (來源:Yann LeCun) 到后來,整個學(xué)界一度幾乎拋棄了神經(jīng)網(wǎng)絡(luò)。這一方面是因為缺乏大型數(shù)據(jù)庫,還有些原因是當(dāng)時編寫的軟件過于復(fù)雜,需要很大投資,另一方面,當(dāng)時的計算機速度也不夠快,不足以運行其他應(yīng)用。 卷積神經(jīng)網(wǎng)絡(luò)其實是受到了生物學(xué)的很多啟發(fā),但它并不是照搬生物學(xué)。Yann LeCun 從生物學(xué)的觀點和研究成果中受到啟發(fā),他發(fā)現(xiàn)可以利用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)來實現(xiàn)這些現(xiàn)象。卷積網(wǎng)絡(luò)的理念是,世界上的物體是由各個部分構(gòu)成的,其各個部分由圖案構(gòu)成,而圖案是材質(zhì)和邊緣的基本組合,邊緣是由分布的像素組成。如果一個系統(tǒng)能夠檢測到有用的像素組合,再依次到邊緣、圖案、最后到物體的各個部分,這就是一個目標(biāo)識別系統(tǒng)。這不僅適用于視覺識別,也適用于語音、文本等自然信號。我們可以使用卷積網(wǎng)絡(luò)識別面部、識別路上的行人。 在上世紀(jì) 90 年代到 2010 年左右,出現(xiàn)了一段所謂的“AI寒冬”,但像 Yann LeCun 這樣的人依然繼續(xù)著自己的研究。他們繼續(xù)著人臉識別、行人識別等研究。他們還將機器學(xué)習(xí)用在機器人技術(shù)上,使用卷積網(wǎng)絡(luò)自動標(biāo)記整個圖像,每個像素都會標(biāo)記為“能”或“不能”穿越,指引機器人的前進(jìn)。 (來源:Yann LeCun) 幾年之后,他們使用類似的系統(tǒng)完成目標(biāo)分割任務(wù),整個系統(tǒng)可以實現(xiàn) VGA 實時部署,對圖像上的每個像素進(jìn)行分割。這個系統(tǒng)可以檢測行人、道路、樹木,但當(dāng)時這個結(jié)果并未馬上得到計算機視覺學(xué)會的認(rèn)可。 卷積神經(jīng)網(wǎng)絡(luò)在近幾年有很多應(yīng)用,例如醫(yī)療成像、自動駕駛、機器翻譯,以及游戲等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練。但這種海量重復(fù)試驗的方式在現(xiàn)實中是不可行的。例如你想教一臺自動駕駛車學(xué)會駕駛,在真實世界如此重復(fù)訓(xùn)練是不行的。純粹的強化學(xué)習(xí)只能適用于虛擬世界。 那么,為什么人和動物的學(xué)習(xí)速度可以如此之快? 和自動駕駛系統(tǒng)不同的是,人類能夠建立直覺上真實的模型,所以不會把車開下懸崖。這是人類掌握的內(nèi)部模型,那么人類是怎么學(xué)習(xí)這個模型的?又如何讓機器學(xué)會這個模型呢? 動物身上也存在類似的機制。預(yù)測是智能的不可或缺的組成部分,當(dāng)實際情況和預(yù)測出現(xiàn)差異時,實際上就是學(xué)習(xí)的過程。 以視頻內(nèi)容預(yù)測為例,給定一段視頻數(shù)據(jù),需要從其中一段視頻內(nèi)容預(yù)測另外一段空白處的內(nèi)容。自監(jiān)督學(xué)習(xí)的典型場景是,事先不公布要空出哪一段內(nèi)容,實際上根本不用真地留出空白,只是讓系統(tǒng)根據(jù)一些限制條件來對輸入進(jìn)行重建。系統(tǒng)只通過觀察來完成任務(wù),無需外部交互,學(xué)習(xí)效率更高。 機器學(xué)習(xí)的未來在于自監(jiān)督和半監(jiān)督學(xué)習(xí),而非監(jiān)督學(xué)習(xí)和純強化學(xué)習(xí)。自監(jiān)督學(xué)習(xí)就像填空,在 NLP 任務(wù)上表現(xiàn)很好,但在圖像識別和理解任務(wù)上就表現(xiàn)一般。這是因為世界并不全是可預(yù)測的。對于視頻預(yù)測任務(wù),結(jié)果可能有多重可能,訓(xùn)練系統(tǒng)做出的預(yù)測結(jié)果往往會得到唯一的“模糊”結(jié)果,即對未來所有結(jié)果的“平均值”。這并不是理想的預(yù)測。 最后,Yann LeCun 表示,幾百年以來,理論的提出往往伴隨著之后的偉大發(fā)明和創(chuàng)造。深度學(xué)習(xí)和智能理論在未來會帶來什么?值得我們拭目以待。 (來源:Yann LeCun) |
|