深度！十分鐘讀完人工智能的三生三世

智匯百川 2018-05-22

展開全文

AI作為2016年以來最熱門的詞匯，人們對之也持有不同的看法：有人在懷疑泡沫即將破裂、有人堅信這場變革會帶來巨大的機會、有人拋出威脅論。

深度！十分鐘讀完人工智能的三生三世

本系列試圖以通俗易懂的方式，讓不同知識水平的讀者都能從中獲益：讓外行人對人工智能有一個清晰客觀的理解，也幫助內(nèi)行人更好地參與到AI帶來這場產(chǎn)業(yè)變革中來。

本文將會從AI最基本的幾個模塊（計算機視覺、語音識別、自然語言處理、決策規(guī)劃系統(tǒng)）著手，回顧其一路以來的發(fā)展脈絡，以史為鏡、正視未來。

計算機視覺的發(fā)展歷史

“看”是人類與生俱來的能力。剛出生的嬰兒只需要幾天的時間就能學會模仿父母的表情，人們能從復雜結(jié)構(gòu)的圖片中找到關(guān)注重點、在昏暗的環(huán)境下認出熟人。隨著人工智能的發(fā)展，機器也試圖在這項能力上匹敵甚至超越人類。

計算機視覺的歷史可以追溯到1966年，人工智能學家Minsky在給學生布置的作業(yè)中，要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什么，這也被認為是計算機視覺最早的任務描述。

到了七八十年代，隨著現(xiàn)代電子計算機的出現(xiàn)，計算機視覺技術(shù)也初步萌芽。人們開始嘗試讓計算機回答出它看到了什么東西，于是首先想到的是從人類看東西的方法中獲得借鑒。

借鑒之一是當時人們普遍認為，人類能看到并理解事物，是因為人類通過兩只眼睛可以立體地觀察事物。因此要想讓計算機理解它所看到的圖像，必須先將事物的三維結(jié)構(gòu)從二維的圖像中恢復出來，這就是所謂的“三維重構(gòu)”的方法。

借鑒之二是人們認為人之所以能識別出一個蘋果，是因為人們已經(jīng)知道了蘋果的先驗知識，比如蘋果是紅色的、圓的、表面光滑的，如果給機器也建立一個這樣的知識庫，讓機器將看到的圖像與庫里的儲備知識進行匹配，是否可以讓機器識別乃至理解它所看到的東西呢，這是所謂的“先驗知識庫”的方法。

這一階段的應用主要是一些光學字符識別、工件識別、顯微/航空圖片的識別等等。

到了九十年代，計算機視覺技術(shù)取得了更大的發(fā)展，也開始廣泛應用于工業(yè)領域。一方面原因是CPU、DSP等圖像處理硬件技術(shù)有了飛速進步；另一方面是人們也開始嘗試不同的算法，包括統(tǒng)計方法和局部特征描述符的引入。

在“先驗知識庫”的方法中，事物的形狀、顏色、表面紋理等特征是受到視角和觀察環(huán)境所影響的，在不同角度、不同光線、不同遮擋的情況下會產(chǎn)生變化。

因此，人們找到了一種方法，通過局部特征的識別來判斷事物，通過對事物建立一個局部特征索引，即使視角或觀察環(huán)境發(fā)生變化，也能比較準確地匹配上。

深度！十分鐘讀完人工智能的三生三世

進入21世紀，得益于互聯(lián)網(wǎng)興起和數(shù)碼相機出現(xiàn)帶來的海量數(shù)據(jù)，加之機器學習方法的廣泛應用，計算機視覺發(fā)展迅速。以往許多基于規(guī)則的處理方式，都被機器學習所替代，自動從海量數(shù)據(jù)中總結(jié)歸納物體的特征，然后進行識別和判斷。

這一階段涌現(xiàn)出了非常多的應用，包括典型的相機人臉檢測、安防人臉識別、車牌識別等等。

數(shù)據(jù)的積累還誕生了許多評測數(shù)據(jù)集，比如權(quán)威的人臉識別和人臉比對識別的平臺——FDDB和LFW等，其中最有影響力的是ImageNet，包含1400萬張已標注的圖片，劃分在上萬個類別里。

到了2010年以后，借助于深度學習的力量，計算機視覺技術(shù)得到了爆發(fā)增長和產(chǎn)業(yè)化。通過深度神經(jīng)網(wǎng)絡，各類視覺相關(guān)任務的識別精度都得到了大幅提升。

在全球最權(quán)威的計算機視覺競賽ILSVR（ImageNet Large Scale VisualRecognition Competition）上，千類物體識別Top-5錯誤率在2010年和2011年時分別為28.2%和25.8%，從2012年引入深度學習之后，后續(xù)4年分別為16.4%、11.7%、6.7%、3.7%，出現(xiàn)了顯著突破。

由于效果的提升，計算機視覺技術(shù)的應用場景也快速擴展，除了在比較成熟的安防領域應用外，也有應用在金融領域的人臉識別身份驗證、電商領域的商品拍照搜索、醫(yī)療領域的智能影像診斷、機器人/無人車上作為視覺輸入系統(tǒng)等，包括許多有意思的場景：照片自動分類（圖像識別+分類）、圖像描述生成（圖像識別+理解）等等。

深度！十分鐘讀完人工智能的三生三世

語音技術(shù)的發(fā)展歷史

語言交流是人類最直接最簡潔的交流方式。長久以來，讓機器學會“聽”和“說”，實現(xiàn)與人類間的無障礙交流一直是人工智能、人機交互領域的一大夢想。

早在電子計算機出現(xiàn)之前，人們就有了讓機器識別語音的夢想。1920年生產(chǎn)的“Radio Rex”玩具狗可能是世界上最早的語音識別器，當有人喊“Rex”的時候，這只狗能夠從底座上彈出來。

但實際上它所用到的技術(shù)并不是真正的語音識別，而是通過一個彈簧，這個彈簧在接收到500赫茲的聲音時會自動釋放，而500赫茲恰好是人們喊出“Rex”中元音的第一個共振峰。

第一個真正基于電子計算機的語音識別系統(tǒng)出現(xiàn)在1952年，AT&T貝爾實驗室開發(fā)了一款名為Audrey的語音識別系統(tǒng)，能夠識別10個英文數(shù)字，正確率高達98%。

70年代開始出現(xiàn)了大規(guī)模的語音識別研究，但當時的技術(shù)還處于萌芽階段，停留在對孤立詞、小詞匯量句子的識別上。

深度！十分鐘讀完人工智能的三生三世

上世紀80年代是技術(shù)取得突破的時代，一個重要原因是全球性的電傳業(yè)務積累了大量文本，這些文本可作為機讀語料用于模型的訓練和統(tǒng)計。研究的重點也逐漸轉(zhuǎn)向大詞匯量、非特定人的連續(xù)語音識別。

那時最主要的變化來自用基于統(tǒng)計的思路替代傳統(tǒng)基于匹配的思路，其中的一個關(guān)鍵進展是隱馬爾科夫模型（HMM）的理論和應用都趨于完善。

工業(yè)界也出現(xiàn)了廣泛的應用，德州儀器研發(fā)了名為Speak& Spell語音學習機，語音識別服務商Speech Works成立，美國國防部高級研究計劃局（DARPA）也贊助支持了一系列語音相關(guān)的項目。

90年代是語音識別基本成熟的時期，主流的高斯混合模型GMM-HMM框架逐漸趨于穩(wěn)定，但識別效果與真正實用還有一定距離，語音識別研究的進展也逐漸趨緩。

由于80年代末、90年代初神經(jīng)網(wǎng)絡技術(shù)的熱潮，神經(jīng)網(wǎng)絡技術(shù)也被用于語音識別，提出了多層感知器-隱馬爾科夫模型（MLP-HMM）混合模型。但是性能上無法超越GMM-HMM框架。

突破的產(chǎn)生始于深度學習的出現(xiàn)。隨著深度神經(jīng)網(wǎng)絡（DNN）被應用到語音的聲學建模中，人們陸續(xù)在音素識別任務和大詞匯量連續(xù)語音識別任務上取得突破。

基于GMM-HMM的語音識別框架被基于DNN-HMM的語音識別系統(tǒng)所替代，而隨著系統(tǒng)的持續(xù)改進，又出現(xiàn)了深層卷積神經(jīng)網(wǎng)絡和引入長短時記憶模塊（LSTM）的循環(huán)神經(jīng)網(wǎng)絡（RNN），識別效果得到了進一步提升，在許多（尤其是近場）語音識別任務上達到了可以進入人們?nèi)粘Ｉ畹臉藴省?/p>

于是我們看到以Apple Siri為首的智能語音助手、以Echo為首的智能硬件入口等等。

而這些應用的普及，又進一步擴充了語料資源的收集渠道，為語言和聲學模型的訓練儲備了豐富的燃料，使得構(gòu)建大規(guī)模通用語言模型和聲學模型成為可能。

深度！十分鐘讀完人工智能的三生三世

自然語言處理的發(fā)展歷史

人類的日常社會活動中，語言交流是不同個體間信息交換和溝通的重要途徑。因此，對機器而言，能否自然地與人類進行交流、理解人們表達的意思并作出合適的回應，被認為是衡量其智能程度的一個重要參照，自然語言處理也因此成為了繞不開的議題。

早在上世紀50年代，隨著電子計算機的出現(xiàn)，出現(xiàn)了許多自然語言處理的任務需求，其中最典型的就是機器翻譯。

當時存在兩派不同的自然語言處理方法：基于規(guī)則方法的符號派和基于概率方法的隨機派。受限于當時的數(shù)據(jù)和算力，隨機派無法發(fā)揮出全部的功力，使得規(guī)則派的研究略占上風。

體現(xiàn)到翻譯上，人們認為機器翻譯的過程是在解讀密碼，試圖通過查詢詞典來實現(xiàn)逐詞翻譯，這種方式產(chǎn)出的翻譯效果不佳、難以實用。

當時的一些成果包括1959年賓夕法尼亞大學研制成功的TDAP系統(tǒng)（Transformation and Discourse Analysis Project，最早的、完整的英語自動剖析系統(tǒng)）、布朗美國英語語料庫的建立等。

IBM-701計算機進行了世界上第一次機器翻譯試驗，將幾個簡單的俄語句子翻譯成了英文。這之后蘇聯(lián)、英國、日本等國家也陸續(xù)進行了機器翻譯試驗。

1966年，美國科學院的語言自動處理咨詢委員會（ALPAC），發(fā)布了一篇題為《語言與機器》的研究報告，報告全面否定了機器翻譯的可行性，認為機器翻譯不足以克服現(xiàn)有困難、投入實用。

這篇報告澆滅了之前的機器翻譯熱潮，許多國家開始消減在這方面的經(jīng)費投入，許多相關(guān)研究被迫暫停，自然語言研究陷入低谷。

許多研究者痛定思痛，意識到兩種語言間的差異不僅體現(xiàn)在詞匯上，還體現(xiàn)在句法結(jié)構(gòu)的差異上，為了提升譯文的可讀性，應該加強語言模型和語義分析的研究。

里程碑事件出現(xiàn)在1976 年，加拿大蒙特利爾大學與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)了名為TAUM-METEO的機器翻譯系統(tǒng)，提供天氣預報服務。這個系統(tǒng)每小時可以翻譯6-30萬個詞，每天可翻譯1-2千篇氣象資料，并能夠通過電視、報紙立即公布。

在這之后，歐盟、日本也紛紛開始研究多語言機器翻譯系統(tǒng)，但并未取得預期的成效。

到了90年代時，自然語言處理進入了發(fā)展繁榮期。隨著計算機的計算速度和存儲量大幅增加、大規(guī)模真實文本的積累產(chǎn)生，以及被互聯(lián)網(wǎng)發(fā)展激發(fā)出的、以網(wǎng)頁搜索為代表的基于自然語言的信息檢索和抽取需求出現(xiàn)，人們對自然語言處理的熱情空前高漲。

在傳統(tǒng)基于規(guī)則的處理技術(shù)中，人們引入了更多數(shù)據(jù)驅(qū)動的統(tǒng)計方法，將自然語言處理的研究推向了一個新高度。除了機器翻譯之外，網(wǎng)頁搜索、語音交互、對話機器人等領域都有自然語言處理的功勞。

進入2010年以后，基于大數(shù)據(jù)和淺層、深層學習技術(shù)，自然語言處理的效果得到了進一步優(yōu)化。機器翻譯的效果進一步提升，出現(xiàn)了專門的智能翻譯產(chǎn)品。對話交互能力被應用在客服機器人、智能助手等產(chǎn)品中。

深度！十分鐘讀完人工智能的三生三世

這一時期的一個重要里程碑事件是IBM研發(fā)的Watson系統(tǒng)參加綜藝問答節(jié)目Jeopardy。比賽中Watson沒有聯(lián)網(wǎng)，但依靠4TB磁盤內(nèi)200萬頁結(jié)構(gòu)化和非結(jié)構(gòu)化的信息，Watson成功戰(zhàn)勝人類選手取得冠軍，向世界展現(xiàn)了自然語言處理技術(shù)所能達到的實力。

機器翻譯方面，谷歌推出的神經(jīng)網(wǎng)絡機器翻譯（GNMT）相比傳統(tǒng)的基于詞組的機器翻譯（PBMT），英語到西班牙語的錯誤率下降了87%，英文到中文的錯誤率下降了58%，取得了非常強勁的提升。

深度！十分鐘讀完人工智能的三生三世

規(guī)劃決策系統(tǒng)的發(fā)展歷史

人工智能規(guī)劃決策系統(tǒng)的發(fā)展，一度是以棋類游戲為載體的。最早在18世紀的時候，就出現(xiàn)過一臺可以下棋的機器，擊敗了當時幾乎所有的人類棋手，包括拿破侖和富蘭克林等。不過最終被發(fā)現(xiàn)機器里藏著一個人類高手，通過復雜的機器結(jié)構(gòu)以混淆觀眾的視線，只是一場騙局而已。

真正基于人工智能的規(guī)劃決策系統(tǒng)出現(xiàn)在電子計算機誕生之后，1962年時，Arthur Samuel制作的西洋跳棋程序Checkers經(jīng)過屢次改進后，終于戰(zhàn)勝了州冠軍。

當時的程序雖然還算不上智能，但也已經(jīng)具備了初步的自我學習能力，這場勝利在當時還是引起了巨大的轟動，畢竟是機器首次在智力的角逐中戰(zhàn)勝人類。這也讓人們發(fā)出了樂觀的預言：“機器將在十年內(nèi)戰(zhàn)勝人類象棋冠軍”。

但人工智能所面臨的困難比人們想象得要大很多，跳棋程序在此之后也敗給了國家冠軍，未能更上一層樓。而國際象棋相比跳棋要復雜得多，在當時的計算能力下，機器若想通過暴力計算戰(zhàn)勝人類象棋棋手，每步棋的平均計算時長是以年為單位的。人們也意識到，只有盡可能減少計算復雜度，才可能與人類一決高下。

于是，“剪枝法”被應用到了估值函數(shù)中，通過剔除掉低可能性的走法，優(yōu)化最終的估值函數(shù)計算。在“剪枝法”的作用下，西北大學開發(fā)的象棋程序Chess 4.5在1976年首次擊敗了頂尖人類棋手。

進入80年代，隨著算法上的不斷優(yōu)化，機器象棋程序在關(guān)鍵勝負手上的判斷能力和計算速度大幅提升，已經(jīng)能夠擊敗幾乎所有的頂尖人類棋手。

到了90年代，硬件性能、算法能力等都得到了大幅提升，在1997年那場著名的人機大戰(zhàn)中，IBM研發(fā)的深藍（Deep Blue）戰(zhàn)勝國際象棋大師卡斯帕羅夫，人類意識到在象棋游戲中已經(jīng)很難戰(zhàn)勝機器了。

深度！十分鐘讀完人工智能的三生三世

到了2016年，硬件層面出現(xiàn)了基于GPU、TPU的并行計算，算法層面出現(xiàn)了蒙特卡洛決策樹與深度神經(jīng)網(wǎng)絡的結(jié)合。

4:1戰(zhàn)勝李世石、在野狐圍棋對戰(zhàn)頂尖棋手60連勝、3:0戰(zhàn)勝世界排名第一的圍棋選手柯潔，隨著棋類游戲最后的堡壘——圍棋也被Alpha Go所攻克，人類在完美信息博弈的游戲中已徹底輸給機器，只能在不完美信息的德州撲克和麻將中茍延殘喘。

人們從棋類游戲中積累的知識和經(jīng)驗，也被應用在更廣泛的需要決策規(guī)劃的領域，包括機器人控制、無人車等等。棋類游戲完成了它的歷史使命，帶領人工智能到達了一個新的歷史起點。

深度！十分鐘讀完人工智能的三生三世

人工智能的現(xiàn)在

時至今日，人工智能的發(fā)展已經(jīng)突破了一定的“閾值”。與前幾次的熱潮相比，這一次的人工智能來得更“實在”了，這種“實在”體現(xiàn)在不同垂直領域的性能提升、效率優(yōu)化。計算機視覺、語音識別、自然語言處理的準確率都已不再停留在“過家家”的水平，應用場景也不再只是一個新奇的“玩具”，而是逐漸在真實的商業(yè)世界中扮演起重要的支持角色。

語音處理的現(xiàn)在

一個完整的語音處理系統(tǒng)，包括前端的信號處理、中間的語音語義識別和對話管理（更多涉及自然語言處理）、以及后期的語音合成。

總體來說，隨著語音技術(shù)的快速發(fā)展，之前的限定條件正在不斷減少：包括從小詞匯量到大詞匯量再到超大詞匯量、從限定語境到彈性語境再到任意語境、從安靜環(huán)境到近場環(huán)境再到遠場嘈雜環(huán)境、從朗讀環(huán)境到口語環(huán)境再到任意對話環(huán)境、從單語種到多語種再到多語種混雜，但這給語音處理提出了更高的要求。

語音的前端處理中包含幾個模塊。

? 說話人聲檢測：有效地檢測說話人聲開始和結(jié)束時刻, 區(qū)分說話人聲與背景聲；
? 回聲消除：當音箱在播放音樂時，為了不暫停音樂而進行有效的語音識別，需要消除來自揚聲器的音樂干擾；
? 喚醒詞識別：人類與機器交流的觸發(fā)方式，就像日常生活中需要與其他人說話時，你會先喊一下那個人的名字；
? 麥克風陣列處理：對聲源進行定位，增強說話人方向的信號、抑制其他方向的噪音信號；
? 語音增強：對說話人語音區(qū)域進一步增強,、環(huán)境噪聲區(qū)域進一步抑制,有效降低遠場語音的衰減。

除了手持設備是近場交互外，其他許多場景——車載、智能家居等——都是遠場環(huán)境。

在遠場環(huán)境下，聲音傳達到麥克風時會衰減得非常厲害，導致一些在近場環(huán)境下不值一提的問題被顯著放大。這就需要前端處理技術(shù)能夠克服噪聲、混響、回聲等問題、較好地實現(xiàn)遠場拾音。

同時，也需要更多遠場環(huán)境下的訓練數(shù)據(jù)，持續(xù)對模型進行優(yōu)化，提升效果。

語音識別的過程需要經(jīng)歷特征提取、模型自適應、聲學模型、語言模型、動態(tài)解碼等多個過程。除了前面提到的遠場識別問題之外，還有許多前沿研究集中在解決“雞尾酒會問題”。

“雞尾酒會問題”顯示的是人類的一種聽覺能力，能在多人場景的語音/噪聲混合中，追蹤并識別至少一個聲音，在嘈雜環(huán)境下也不會影響正常交流。

這種能力體現(xiàn)在兩種場景下：

一是人們將注意力集中在某個聲音上時，比如在雞尾酒會上與朋友交談時，即使周圍環(huán)境非常嘈雜、音量甚至超過了朋友的聲音，我們也能清晰地聽到朋友說的內(nèi)容；

二是人們的聽覺器官突然受到某個刺激的時候，比如遠處突然有人喊了自己的名字，或者在非母語環(huán)境下突然聽到母語的時候，即使聲音出現(xiàn)在遠處、音量很小，我們的耳朵也能立刻捕捉到。

而機器就缺乏這種能力，雖然當前的語音技術(shù)在識別一個人所講的內(nèi)容時能夠體現(xiàn)出較高的精度，當說話人數(shù)為二人或更多時，識別精度就會大打折扣。

如果用技術(shù)的語言來描述，問題的本質(zhì)其實是給定多人混合語音信號，一個簡單的任務是如何從中分離出特定說話人的信號和其他噪音，而復雜的任務則是分離出同時說話的每個人的獨立語音信號。

在這些任務上，研究者已經(jīng)提出了一些方案，但還需要更多訓練數(shù)據(jù)的積累、訓練過程的打磨，逐漸取得突破，最終解決雞尾酒會問題。

深度！十分鐘讀完人工智能的三生三世

考慮到語義識別和對話管理環(huán)節(jié)更多是屬于自然語言處理的范疇，剩下的就是語音合成環(huán)節(jié)。

語音合成的幾個步驟包括：文本分析、語言學分析、音長估算、發(fā)音參數(shù)估計等。

基于現(xiàn)有技術(shù)合成的語音在清晰度和可懂度上已經(jīng)達到了較好的水平，但機器口音還是比較明顯。

目前的幾個研究方向包括：如何使合成語音聽起來更自然、如何使合成語音的表現(xiàn)力更豐富、如何實現(xiàn)自然流暢的多語言混合合成。只有在這些方向有所突破，才能使合成的語音真正與人類聲音無異。

可以看到，在一些限制條件下，機器確實能具備一定的“聽說”能力。因此在一些具體的場景下，比如語音搜索、語音翻譯、機器朗讀等，確實能有用武之地。

但真正做到像正常人類一樣，與其他人流暢溝通、自由交流，還有待時日。

計算機視覺的現(xiàn)在

計算機視覺的研究方向，按技術(shù)難度的從易到難、商業(yè)化程度的從高到低，依次是處理、識別檢測、分析理解。

圖像處理是指不涉及高層語義，僅針對底層像素的處理；圖像識別檢測則包含了語音信息的簡單探索；圖像理解則更上一層樓，包含了更豐富、更廣泛、更深層次的語義探索。

目前在處理和識別檢測層面，機器的表現(xiàn)已經(jīng)可以讓人滿意。但在理解層面，還有許多值得研究的地方。

圖像處理以大量的訓練數(shù)據(jù)為基礎（例如通過有噪聲和無噪聲的圖像配對），通過深度神經(jīng)網(wǎng)絡訓練一個端到端的解決方案。有幾種典型任務：去噪聲、去模糊、超分辨率處理、濾鏡處理等。

運用到視頻上，主要是對視頻進行濾鏡處理。這些技術(shù)目前已經(jīng)相對成熟，在各類P圖軟件、視頻處理軟件中隨處可見。

圖像識別檢測的過程包括圖像預處理、圖像分割、特征提取和判斷匹配，也是基于深度學習的端到端方案。可以用來處理分類問題（如識別圖片的內(nèi)容是不是貓）、定位問題（如識別圖片中的貓在哪里）、檢測問題（如識別圖片中有哪些動物、分別在哪里）、分割問題（如圖片中的哪些像素區(qū)域是貓）等。

這些技術(shù)也已比較成熟，圖像上的應用包括人臉檢測識別、OCR（Optical Character Recognition，光學字符識別）等，視頻上可用來識別影片中的明星等。

當然，深度學習在這些任務中都扮演了重要角色。

傳統(tǒng)的人臉識別算法，即使綜合考慮顏色、形狀、紋理等特征，也只能做到95%左右的準確率。而有了深度學習的加持，準確率可以達到99.5%，錯誤率下降了10倍，從而使得在金融、安防等領域的廣泛商業(yè)化應用成為可能。

OCR領域，傳統(tǒng)的識別方法要經(jīng)過清晰度判斷、直方圖均衡、灰度化、傾斜矯正、字符切割等多項預處理工作，得到清晰且端正的字符圖像，再對文字進行識別和輸出。

而深度學習的出現(xiàn)不僅省去了復雜且耗時的預處理和后處理工作，更將字準確率從60%提高到90%以上。

深度！十分鐘讀完人工智能的三生三世

圖像理解本質(zhì)上是圖像與文本間的交互。可用來執(zhí)行基于文本的圖像搜索、圖像描述生成、圖像問答（給定圖像和問題，輸出答案）等。

在傳統(tǒng)的方法下：基于文本的圖像搜索是針對文本搜索最相似的文本后，返回相應的文本圖像對；圖像描述生成是根據(jù)從圖像中識別出的物體，基于規(guī)則模板產(chǎn)生描述文本；圖像問答是分別對圖像與文本獲取數(shù)字化表示，然后分類得到答案。

而有了深度學習，就可以直接在圖像與文本之間建立端到端的模型，提升效果。圖像理解任務目前還沒有取得非常成熟的結(jié)果，商業(yè)化場景也正在探索之中。

可以看到，計算機視覺已經(jīng)達到了娛樂用、工具用的初級階段。

照片自動分類、以圖搜圖、圖像描述生成等等這些功能，都可作為人類視覺的輔助工具。人們不再需要靠肉眼捕捉信息、大腦處理信息、進而分析理解，而是可以交由機器來捕捉、處理和分析，再將結(jié)果返回給人類。

而往未來看，計算機視覺有希望進入自主理解、甚至分析決策的高級階段，真正賦予機器“看”的能力，從而在智能家居、無人車等應用場景發(fā)揮更大的價值。

自然語言處理的現(xiàn)在

自然語言處理中的幾個核心環(huán)節(jié)包括知識的獲取與表達、自然語言理解、自然語言生成等等，也相應出現(xiàn)了知識圖譜、對話管理、機器翻譯等研究方向，與前述的處理環(huán)節(jié)形成多對多的映射關(guān)系。

由于自然語言處理要求機器具備的是比“感知”更難的“理解”能力，因此其中的許多問題直到今天也未能得到較好的解決。

知識圖譜是基于語義層面對知識進行組織后得到的結(jié)構(gòu)化結(jié)果，可以用來回答簡單事實類的問題。

包括語言知識圖譜（詞義上下位、同義詞等）、常識知識圖譜（“鳥會飛但兔子不會飛”）、實體關(guān)系圖譜（“劉德華的妻子是朱麗倩”）。

知識圖譜的構(gòu)建過程其實就是獲取知識、表示知識、應用知識的過程。

舉例來說，針對互聯(lián)網(wǎng)上的一句文本“劉德華攜妻子朱麗倩出席了電影節(jié)”，我們可以從中取出“劉德華”、“妻子”、“朱麗倩”這幾個關(guān)鍵詞，然后得到“劉德華-妻子-朱麗倩”這樣的三元表示。

同樣地，我們也可以得到“劉德華-身高-174cm”這樣的三元表示。將不同領域不同實體的這些三元表示組織在一起，就構(gòu)成了知識圖譜系統(tǒng)。

語義理解是自然語言處理中的最大難題，這個難題的核心問題是如何從形式與意義的多對多映射中，根據(jù)當前語境找到一種最合適的映射。

以中文為例，這里面需要解決4個困難:

首先是歧義消除，包括詞語的歧義（例如“潛水”可以指一種水下運動，也可以指在論壇中不發(fā)言）、短語的歧義（例如“進口彩電”可以指進口的彩電，也可以指一個行動動作）、句子的歧義（例如“做手術(shù)的是他父親”可以指他父親在接受手術(shù)，也可以指他父親是手術(shù)醫(yī)生）；

其次是上下文關(guān)聯(lián)性，包括指代消解（例如“小明欺負小李，所以我批評了他?！?，需要依靠上下文才知道我批評的是調(diào)皮的小明）、省略恢復（例如“老王的兒子學習不錯，比老張的好?！逼鋵嵤侵浮氨壤蠌埖膬鹤拥膶W習好”）；

第三是意圖識別，包括名詞與內(nèi)容的意圖識別（“晴天”可以指天氣也可以指周杰倫的歌）、閑聊與問答的意圖識別（“今天下雨了”是一句閑聊，而“今天下雨嗎”則是有關(guān)天氣的一次查詢）、顯性與隱性的意圖識別（“我要買個手機”和“這手機用得太久了”都是用戶想買新手機的意圖）；

最后一塊是情感識別，包括顯性與隱性的情感識別（“我不高興”和“我考試沒考好”都是用戶在表示心情低落）、基于先驗常識的情感識別（“續(xù)航時間長”是褒義的，而“等待時間長”則是貶義的）。

鑒于以上的這種種困難，語義理解可能的解決方案是利用知識進行約束，來破解多對多映射的困局，通過知識圖譜來補充機器的知識。

然而，即使克服了語義理解上的困難，距離讓機器顯得不那么智障還是遠遠不夠的，還需要在對話管理上有所突破。

目前對話管理主要包含三種情形，按照涉及知識的通用到專業(yè)，依次是閑聊、問答、任務驅(qū)動型對話。

閑聊是開放域的、存在情感聯(lián)系和聊天個性的對話，比如“ 今天天氣真不錯?！薄笆茄?，要不要出去走走？”閑聊的難點在于如何通過巧妙的回答激發(fā)興趣/降低不滿，從而延長對話時間、提高粘性；

問答是基于問答模型和信息檢索的對話，一般是單一輪次，比如“劉德華的老婆是誰？”“劉德華的妻子朱麗倩，1966年4月6日出生于馬來西亞檳城…”。問答不僅要求有較為完善的知識圖譜，還需要在沒有直接答案的情況下運用推理得到答案；

任務驅(qū)動型對話涉及到槽位填充、智能決策，一般是多輪次，比如“放一首跑步聽的歌吧”“為您推薦羽泉的《奔跑》”“我想聽英文歌”“為您推薦Eminem的《Notafraid》”簡單任務驅(qū)動型對話已經(jīng)比較成熟，未來的攻克方向是如何不依賴人工的槽位定義，建立通用領域的對話管理。

深度！十分鐘讀完人工智能的三生三世

歷史上自然語言生成的典型應用一直是機器翻譯。傳統(tǒng)方法是一種名為Phrased-Based Machine Translation（PBMT）的方法：先將完整的一句話打散成若干個詞組，對這些詞組分別進行翻譯，然后再按照語法規(guī)則進行調(diào)序，恢復成一句通順的譯文。

整個過程看起來并不復雜，但其中涉及到了多個自然語言處理算法，包括中文分詞、詞性標注、句法結(jié)構(gòu)等等，環(huán)環(huán)相扣，其中任一環(huán)節(jié)出現(xiàn)的差錯都會傳導下去，影響最終結(jié)果。

而深度學習則依靠大量的訓練數(shù)據(jù)，通過端到端的學習方式，直接建立源語言與目標語言之間的映射關(guān)系，跳過了中間復雜的特征選擇、人工調(diào)參等步驟。

在這樣的思想下，人們對早在90年代就提出了的“編碼器-解碼器”神經(jīng)機器翻譯結(jié)構(gòu)進行了不斷完善，并引入了注意力機制（attention mechanism），使系統(tǒng)性能得到顯著提高。

之后谷歌團隊通過強大的工程實現(xiàn)能力，用全新的機器翻譯系統(tǒng)GNMT（Google Neural Machine Translation）替代了之前的SMT（Statistical machine translation），相比之前的系統(tǒng)更為通順流暢，錯誤率也大幅下降。

雖然仍有許多問題有待解決，比如對生僻詞的翻譯、漏詞、重復翻譯等，但不可否認神經(jīng)機器翻譯在性能上確實取得了巨大突破，未來在出境游、商務會議、跨國交流等場景的應用前景也十分可觀。

隨著互聯(lián)網(wǎng)的普及，信息的電子化程度也日益提高。海量數(shù)據(jù)既是自然語言處理在訓練過程中的燃料，也為其提供了廣闊的發(fā)展舞臺。搜索引擎、對話機器人、機器翻譯，甚至高考機器人、辦公智能秘書都開始在人們的日常生活中扮演越來越重要的角色。

機器學習的現(xiàn)在

按照人工智能的層次來看，機器學習是比計算機視覺、自然語言處理、語音處理等技術(shù)層更底層的一個概念。近幾年來技術(shù)層的發(fā)展風生水起，處在算法層的機器學習也產(chǎn)生了幾個重要的研究方向。

首先是在垂直領域的廣泛應用。

鑒于機器學習還存在不少的局限、不具備通用性，在一個比較狹窄的垂直領域的應用就成為了較好的切入口。

因為在限定的領域內(nèi)，一是問題空間變得足夠小，模型的效果能夠做到更好；二是具體場景下的訓練數(shù)據(jù)更容易積累，模型訓練更高效、更有針對性；三是人們對機器的期望是特定的、具體的，期望值不高。

這三點導致機器在這個限定領域內(nèi)表現(xiàn)出足夠的智能性，從而使最終的用戶體驗也相對更好。

因此，在金融、律政、醫(yī)療等等垂直領域，我們都看到了一些成熟應用，且已經(jīng)實現(xiàn)了一定的商業(yè)化?？梢灶A見，在垂直領域內(nèi)的重復性勞動，未來將有很大比例會被人工智能所取代。

其次是從解決簡單的凸優(yōu)化問題到解決非凸優(yōu)化問題。

優(yōu)化問題，是指將所有的考慮因素表示為一組函數(shù)，然后從中選出一個最優(yōu)解。而凸優(yōu)化問題的一個很好的特性是——局部最優(yōu)就是全局最優(yōu)。

目前機器學習中的大部分問題，都可以通過加上一定的約束條件，轉(zhuǎn)化或近似為一個凸優(yōu)化問題。

雖然任何的優(yōu)化問題通過遍歷函數(shù)上的所有點，一定能夠找到最優(yōu)值，但這樣的計算量十分龐大。

尤其當特征維度較多的時候，會產(chǎn)生維度災難（特征數(shù)超過已知樣本數(shù)可存在的特征數(shù)上限，導致分類器的性能反而退化）。而凸優(yōu)化的特性，使得人們能通過梯度下降法尋找到下降的方向，找到的局部最優(yōu)解就會是全局最優(yōu)解。

但在現(xiàn)實生活中，真正符合凸優(yōu)化性質(zhì)的問題其實并不多，目前對凸優(yōu)化問題的關(guān)注僅僅是因為這類問題更容易解決。

就像在夜晚的街道上丟了鑰匙，人們會優(yōu)先在燈光下尋找一樣。因此，換一種說法，人們現(xiàn)在還缺乏針對非凸優(yōu)化問題的行之有效的算法，這也是人們的努力方向。

第三點是從監(jiān)督學習向非監(jiān)督學習和強化學習的演進。

目前來看，大部分的AI應用都是通過監(jiān)督學習，利用一組已標注的訓練數(shù)據(jù)，對分類器的參數(shù)進行調(diào)整，使其達到所要求的性能。但在現(xiàn)實生活中，監(jiān)督學習不足以被稱為“智能”。

對照人類的學習過程，許多都是建立在與事物的交互中，通過人類自身的體會、領悟，得到對事物的理解，并將之應用于未來的生活中。而機器的局限就在于缺乏這些“常識”。

卷積神經(jīng)網(wǎng)絡之父、Facebook AI 研究院院長Yann LeCun曾通過一個“黑森林蛋糕”的比喻來形容他所理解的監(jiān)督學習、非監(jiān)督學習與強化學習間的關(guān)系：

如果將機器學習視作一個黑森林蛋糕，那（純粹的）強化學習是蛋糕上不可或缺的櫻桃，需要的樣本量只有幾個Bits；監(jiān)督學習是蛋糕外層的糖衣，需要10到10000個Bits的樣本量；無監(jiān)督學習則是蛋糕的主體，需要數(shù)百萬Bits的樣本量，具備強大的預測能力。

但他也強調(diào)，櫻桃是必須出現(xiàn)的配料，意味著強化學習與無監(jiān)督學習是相輔相成、缺一不可的。

無監(jiān)督學習領域近期的研究重點在于“生成對抗網(wǎng)絡”（GANs），其實現(xiàn)方式是讓生成器（Generator）和判別器（Discriminator）這兩個網(wǎng)絡互相博弈，生成器隨機從訓練集中選取真實數(shù)據(jù)和干擾噪音，產(chǎn)生新的訓練樣本，判別器通過與真實數(shù)據(jù)進行對比，判斷數(shù)據(jù)的真實性。

在這個過程中，生成器與判別器交互學習、自動優(yōu)化預測能力，從而創(chuàng)造最佳的預測模型。

自2014由Ian Goodfellow提出后，GANs席卷各大頂級會議，被Yann LeCun 評價為是“20年來機器學習領域最酷的想法”。

而強化學習這邊，則更接近于自然界生物學習過程的本源：如果把自己想象成是環(huán)境（environment）中一個代理（agent），一方面你需要不斷探索以發(fā)現(xiàn)新的可能性（exploration），一方面又要在現(xiàn)有條件下做到極致（exploitation）。

正確的決定或早或晚一定會為你帶來獎勵（positive reward），反之則會帶來懲罰（negative reward），知道最終徹底掌握問題的答案（optimal policy）。

強化學習的一個重要研究方向在于建立一個有效的、與真實世界存在交互的仿真模擬環(huán)境，不斷訓練，模擬采取各種動作、接受各種反饋，以此對模型進行訓練。

深度！十分鐘讀完人工智能的三生三世

人工智能的未來

隨著技術(shù)水平的突飛猛進，人工智能終于迎來它的黃金時代?；仡櫲斯ぶ悄芰陙淼娘L風雨雨，歷史告訴了我們這些經(jīng)驗：

首先，基礎設施帶來的推動作用是巨大的，人工智能屢次因數(shù)據(jù)、運算力、算法的局限而遇冷，突破的方式則是由基礎設施逐層向上推動至行業(yè)應用；

其次，游戲AI在發(fā)展過程中扮演了重要的角色，因為游戲中牽涉到人機對抗，能幫助人們更直觀地理解AI、感受到觸動，從而起到推動作用；

最后，我們也必須清醒地意識到，雖然在許多任務上，人工智能都取得了匹敵甚至超越人類的結(jié)果，但瓶頸還是非常明顯的。

比如計算機視覺方面，存在自然條件的影響（光線、遮擋等）、主體的識別判斷問題（從一幅結(jié)構(gòu)復雜的圖片中找到關(guān)注重點）；語音技術(shù)方面，存在特定場合的噪音問題（車載、家居等）、遠場識別問題、長尾內(nèi)容識別問題（口語化、方言等）；自然語言處理方面，存在理解能力缺失、與物理世界缺少對應（“常識”的缺乏）、長尾內(nèi)容識別等問題。

總的來說，我們看到，現(xiàn)有的人工智能技術(shù)，一是依賴大量高質(zhì)量的訓練數(shù)據(jù)，二是對長尾問題的處理效果不好，三是依賴于獨立的、具體的應用場景、通用性很低。

而往未來看，人們對人工智能的定位絕不僅僅只是用來解決狹窄的、特定領域的某個簡單具體的小任務，而是真正成為和人類一樣，能同時解決不同領域、不同類型的問題，像人類一樣進行判斷和決策，也就是所謂的通用人工智能（Artificial General Intelligence, AGI）。

具體來說，需要機器一方面能夠通過感知學習、認知學習去理解世界，另一方面通過強化學習去模擬世界。

前者讓機器能感知信息，并通過注意、記憶、理解等方式將感知信息轉(zhuǎn)化為抽象知識，快速學習人類積累的知識；后者通過創(chuàng)造一個模擬環(huán)境，讓機器通過與環(huán)境交互試錯來獲得知識、持續(xù)優(yōu)化知識。

人們希望通過算法上、學科上的交叉、融合和優(yōu)化，整體解決人工智能在創(chuàng)造力、通用性、對物理世界理解能力上的問題。

在未來，底層的基礎設施將會是由互聯(lián)網(wǎng)、物聯(lián)網(wǎng)提供的現(xiàn)代人工智能場景和數(shù)據(jù)，這些是生產(chǎn)的原料；
算法層將會是由深度學習、強化學習提供的現(xiàn)代人工智能核心模型，輔以云計算提供的核心算力，這些是生產(chǎn)的引擎；
在這些的基礎之上，不管是計算機視覺、自然語言處理、語音技術(shù)，還是游戲AI、機器人等，都是基于同樣的數(shù)據(jù)、模型、算法之上的不同的應用場景。

這其中還存在著一些亟待攻克的問題，如何解決這些問題正是人們一步一個腳印走向AGI的必經(jīng)之路。

首先是從大數(shù)據(jù)到小數(shù)據(jù)。

深度學習的訓練過程需要大量經(jīng)過人工標注的數(shù)據(jù)，例如無人車研究需要大量標注了車、人、建筑物的街景照片，語音識別研究需要文本到語音的播報和語音到文本的聽寫，機器翻譯需要雙語的句對，圍棋需要人類高手的走子記錄等。

但針對大規(guī)模數(shù)據(jù)的標注工作是一件費時費力的工作，尤其對于一些長尾的場景來說，連基礎數(shù)據(jù)的收集都成問題。

因此，一個研究方向就是如何在數(shù)據(jù)缺失的條件下進行訓練，從無標注的數(shù)據(jù)里進行學習，或者自動模擬（生成）數(shù)據(jù)進行訓練，目前特別火熱的GANs就是一種數(shù)據(jù)生成模型。

其次是從大模型到小模型。

目前深度學習的模型都非常大，動輒幾百兆字節(jié)（MB）、大的甚至可以到幾千兆字節(jié)（GB）甚至幾十千兆字節(jié)（GB）。

雖然模型在PC端運算不成問題，但如果要在移動設備上使用就會非常麻煩。這就造成語音輸入法、語音翻譯、圖像濾鏡等基于移動端的APP無法取得較好的效果。

這塊的研究方向在于如何精簡模型的大小，通過直接壓縮或是更精巧的模型設計，通過移動終端的低功耗計算與云計算之間的結(jié)合，使得在小模型上也能跑出大模型的效果。

最后是從感知認知到理解決策。

人類智能在感知和認知的部分，比如視覺、聽覺，機器在一定限定條件下已經(jīng)能夠做到足夠好了。當然這些任務本來也不難，機器的價值在于可以比人做得更快、更準、成本更低。

但這些任務基本都是靜態(tài)的，即在給定輸入的情況下，輸出結(jié)果是一定的。而在一些動態(tài)的任務中，比如如何下贏一盤圍棋、如何開車從一個路口到另一個路口、如何在一支股票上投資并賺到錢，這類不完全信息的決策型的問題，需要持續(xù)地與環(huán)境進行交互、收集反饋、優(yōu)化策略，這些也正是強化學習的強項。而模擬環(huán)境（模擬器）作為強化學習生根發(fā)芽的土壤，也是一個重要的研究方向。