【原】智慧之巔，三十年來AI宗師們的那點事

昵稱71360118 2020-09-01

展開全文

編者按：deep learning曾被《紐約時報》頭版報道：“深度學習讓機器執(zhí)行人類的活動，如看、聽和思考，可以模式識別提供了可能性，促進了人工智能技術的進步。”但是也不免有人笑談，Hinton已建立了一個很好的梯子，但這個梯子并不一定能帶你到月球。而這里，Leo或許可以帶給你不一樣的想法。

近期Nature雜志刊登了Lecun、Bengio、Hinton的深度學習(deep learning)文章，是對最近深度學習火爆進展的總結，也是對他們?nèi)陮Ｗ⑼黄凭竦淖罴芽隙ā?/span>

深度學習火到什么程度呢？據(jù)我所知，在工業(yè)界，Google、facebook、微軟、百度、騰訊以及其它創(chuàng)業(yè)公司，都想用深度學習的算法，意圖達到頂級的智能識別實用精度（語音識別、人像識別等）。

深度學習的廣泛應用，讓它載入史冊，可以比肩最近人工智能領域的圖靈獎工作--哈佛教授 Leslie Valiant的可學習性理論（2010年圖靈獎，90年代初在此思想下誕生了著名的 Boosting 算法)、 UCLA教授 Judea Pearl 的基于概率推斷的人工智能（2011年圖靈獎，90年代末開始基于此思想的圖模型風靡學術界）。

Harvard教授 Leslie Valiant

UCLA教授 Judea Pearl

我時常和業(yè)內(nèi)人士交流，包括硅谷的工程師、研究員（圖像分類、廣告推薦等），風險投資者，美國學術界的教授，還有在創(chuàng)業(yè)公司的和在學校實驗室做研究的清華、交大學生。大家對深度學習的歷史背景缺乏全面細膩的了解，甚至有些盲從。

在我創(chuàng)業(yè)前，深度學習還沒“火”，我在Yann Lecun的實驗室呆了一年，研究圖模型和深度學習的關系——當時對兩個體系都深刻理解的人幾乎沒有。而在本該功利的創(chuàng)業(yè)環(huán)境里，到目前為止，我們團隊還未使用深度學習，顯得有些“另類”甚至“落伍”，所以帶著這樣熟悉又陌生的心情，今天想分享一下自己的體會，算是對深度學習以及Hinton和Lecun的三十年創(chuàng)新之路的致敬。

首先，來介紹下Deep Learning的主要人物背景：

Geoff Hinton是深度學習學派的祖師爺，老爺子腰椎不好，經(jīng)常得站著寫代碼到夜里一點，不能坐飛機，得坐火車從東邊到西邊去開會。

Geoff Hinton，deep learning 學派創(chuàng)始人之一

Yann Lecun 是 Geoff Hinton 三十年前的弟子。最近深度學習應用于智能理解特別廣泛的模型是卷積神經(jīng)網(wǎng)（ConvNet），就是 Yann Lecun 發(fā)明的 / 命名的。在學術上，這和傳統(tǒng)的深度學習其他的模型有顯著性差異 —— 我甚至認為這是思想性的巨大差異（世界可學性的假設）。

圖右為Yann Lecun，卷積神經(jīng)網(wǎng)的發(fā)明者，Geoff Hinton的弟子

Andrew Ng 是 Michale Jordan（ Berkeley 教授，圖模型的泰斗）的明星弟子，Andrew 獨立后，在Stanford,、Google 和 Baidu 做的反而是deep learning （有點武當?shù)茏訉W了少林，或者少林弟子學了武當?shù)囊馕叮?。后來做了網(wǎng)絡公開課程Coursera后名聲大噪，意義大大超越了其學術界的地位和范疇。

吳恩達（Andrew Ng），百度首席科學家，在線教育平臺coursera的創(chuàng)始人

歷史究竟發(fā)生了什么? 深度學習為什么突然火了？

標志性事件發(fā)生在2012年，兩個“小毛孩”打敗了業(yè)界神話。

2012年底，Geoff Hinton 的博士生 Alex Krizhevsky、Ilya Sutskever（他們研究深度學習時間并不長）在圖片分類的競賽 ImageNet上，在識別結果拿了第一名。其實類似的比賽每年有很多，而這個事件的意義在于，Google 團隊也在這個數(shù)據(jù)集上做了測試（非公開的，Google沒有顯式參加學術界的“競賽”），用的也是深度學習，但識別精度比Geoff Hinton的團隊差了很多，這下工業(yè)界振奮了：

同樣用深度學習的算法，大神級別的Google團隊，居然會在識別精度上差這么多！

先來談談“Google團隊”是干什么的。它是特殊的，因為它不同于其他Google團隊，并且這個項目受到Google公司足夠的戰(zhàn)略級重視，有著世界級的明星領導者，其中包括 Andrew Ng、Google 神人 Jeff Dean（他們在深度學習領域已投入很多，并到處宣講他們的戰(zhàn)果）以及業(yè)界無法企及的硬件和數(shù)據(jù)資源的支持。

我想，如果沒有這樣巨大的反差，深度學習還不會得到這么快的傳播和認可。因為當時的學術界還不知道Google內(nèi)部的測試成績，只知道Geoff Hinton得了第一，擊敗了另一個學術界頂級的Oxford團隊。甚至今天，很多人還不知道這段歷史。

兩個“小毛孩”讓業(yè)界神話陷入低沉：Google投入產(chǎn)出并不具有說服力，甚至，是可恥的。但是，工業(yè)界似乎不需要、也不該關心面子。

緊接著，巨頭的壟斷游戲開始了。

在機器學習方面頂級年度會議（NIPS）上，Google競價超過了包括微軟在內(nèi)的其他公司，收購了Alex Krizhevsky、Ilya Sutskever 和 Geoff Hinton這三個剛剛注冊幾個月的公司。好像是花5000萬美元買了三個人的部分時間。現(xiàn)在，Google 團隊里面，曾經(jīng)被打敗的人可以正式拉著 Geoff Hinton 聊天了，工業(yè)界似乎不需要、也不該關心面子。而Facebook作為對谷歌的回應，挖了Yann Lecun，讓他在紐約領導成立了 Facebook AI lab。Andrew Ng則離開Google去了百度。

從“硬”結果來說，其實此時的百度做得不會比過去的 Google 差，“軟”名聲還是因此提高很多：相比于Google X, Facebook AI lab, Google Brain等，能提出用“深度學習研究院”這個用算法來命名部門的人是需要“魄力”的。

有趣的是，后來Yann Lecun組的學生也出來了一半，陸續(xù)開了幾家深度學習的創(chuàng)業(yè)公司，其中一家早前被 Twitter 收購。另外一些創(chuàng)業(yè)公司，則分別投入了Facebook 和 Google的麾下。粗略估計，深度學習給Geoff Hinton和 Yann Lecun 的組帶來了近十個千萬富翁。

更有意思的是（很有啟發(fā)性并值得思考），Alex Krizhevsky 和 Geoff Hinton的競賽用的正是 Yann Lecun 發(fā)明的卷積神經(jīng)網(wǎng)，但結果剛出來時（實現(xiàn)細節(jié)還沒有公布），Yann Lecun和他的NYU實驗室成員甚至沒法重復Geoff Hinton的結果。這顯然不科學！

自己發(fā)明的算法，使用結果不如另外一個組。這下炸了鍋，Yann Lecun開了組會，反思的主題是“為什么過去兩年我們沒有得到這樣的成績” 。

高手過招，Idea is cheap; The devil is in the details （有想法很廉價；魔鬼在細節(jié)處）。想法其實很重要，但只能區(qū)分高手和普通人。高手都有想法，但誰才能創(chuàng)造歷史呢？Yann Lecun 這樣的實驗室需要反思什么呢？先看看他們有些什么吧。

我經(jīng)歷過巔峰時期的微軟亞洲研究院（十五年前，這里的實習生只能是名校的各系第一名）、UCLA (排名10名左右)、MIT AI lab (計算機專業(yè)第一名)，實驗室的茶歇時間 Tea Time, 過道擠滿了頂級會議的最佳論文獲得者---NIPS, CVPR等。基于以上經(jīng)驗，我先介紹一下 Yann Lecun 實驗室的過人之處。

Yann Lecun上課教授和使用的是他自己寫的語言Lush，用來替代 matlab（很方便描述矩陣運算、圖像處理等）、python在科學研究的功能。他的團隊三十年如一日的專注于神經(jīng)網(wǎng)絡的研究，從不隨波逐流，課題覆蓋卷積神經(jīng)網(wǎng)的方方面面。有的博士生聰明數(shù)學好，非常敏感于卷積神經(jīng)網(wǎng)模型的深刻理解；有的博士生專注于結構參數(shù)的行為分析（多少層啊之類）；有的博士生研究在不同數(shù)據(jù)分布（應用場景下）的表現(xiàn)，比如字母識別、圖像分類、物體檢測、場景分類等。

這樣的學術堅持，是在怎樣的艱難背景下呢？

人工智能領域，神經(jīng)網(wǎng)絡思想在80年代末開始衰落，之后分別經(jīng)歷了幾個劃時代的圖靈獎級工作的興起，統(tǒng)計學習理論（帶來支持向量機 SVM 算法），可學習理論(帶來 Boosting 算法)，概率推斷（圖模型，graphical model）幾乎壟斷了過去的三十年。在之前提到2012年的 Geoff Hinton 團隊的深度學習打敗Google的標志性事件前，圖模型的思想橫掃計算機視覺領域（超越了boosting，SVM等）。這使得深度學習生存艱難，沒有多少同行在研究中使用深度學習，更多年輕學生愿意去“時髦”的機器學習研究組。

2006年，Yann Lecun的文章還在闡述深度學習如何能跟當年流行的圖模型（比如條件隨機場模型）等價，證明自己的工作在不同數(shù)據(jù)集上也能和圖模型做到相當?shù)淖R別精度。盡管在2012年末，Alex Krizhevsky、Ilya Sutskever 兩個“小毛孩”在競賽中用深度學習打敗了Google團隊，讓工業(yè)界炸了鍋。

但是，工業(yè)界對深度學習的追捧傳遞回學術界是發(fā)生在一年以后。原因是，除了頂級教授因為私人關系能知道工業(yè)界最前沿進展，大部分學術界教授并沒有公開渠道及時獲取信息，而這些教授卻是學術工作評審的主力。因此，直到2013年，Yann Lecun 的文章在計算機視覺的頂級會議上（CVPR）依然很難發(fā)表（這時的深度學習在多項數(shù)據(jù)集上相比其他“傳統(tǒng)”方法并不排他性的出色）。

Yann Lecun 像戰(zhàn)士一樣對抗著學術界的“庸俗”和“傳統(tǒng)”，在不同場合討伐從業(yè)人員的態(tài)度、標準和品味，公開發(fā)文抵制計算機視覺頂級會議CVPR，并于2013年創(chuàng)辦了新的學術文章發(fā)布體系（ICLR）。

可笑的是，僅僅不到兩年的時間，現(xiàn)在，視覺的文章沒用上深度學習都很難被發(fā)表。

主流（不見得創(chuàng)造歷史）的和最需要獨立思想和自由批判精神的年輕學者，卻似乎沒有節(jié)操地要和深度學習沾上邊（當上“千”個博士生都在研究深度學習的時候，應該不需要什么獨立見解和勇氣）。

今天，反而是三十年后卷土重來的Yann Lecun（還有Bengio，Geoff Hinton）愿意站在先鋒，批判性地談論深度學習的泡沫繁榮，呼吁學術界、資金擁有者冷靜。這種反差很是讓人感慨。