來自雷鋒網(wǎng)(leiphone-sz)的報(bào)道 近年來,深度學(xué)習(xí)的發(fā)展給人工智能帶來了深遠(yuǎn)的推動(dòng)。而人工智能的下一個(gè)重大突破在于理解自然語言。 6月23日,中國計(jì)算機(jī)學(xué)會(huì)舉辦主題為“人機(jī)對(duì)話的產(chǎn)業(yè)應(yīng)用與技術(shù)發(fā)展”的研討會(huì),京東AI研究院常務(wù)副院長(zhǎng)何曉冬博士發(fā)表關(guān)于“自然語言理解技術(shù)突破”的主題報(bào)告。 在這場(chǎng)報(bào)告中,何曉冬博士首先簡(jiǎn)略回顧了深度學(xué)習(xí)技術(shù)對(duì)語音,語言,視覺等方面的驅(qū)動(dòng),然后著重從兩個(gè)方面探討了其在自然語言處理(NLP)方面的前沿研究,一是如何讓AI通過NLP技術(shù)理解人類,如理解意圖,解析語義,識(shí)別情緒,搜索推薦;二是如何讓AI的結(jié)果能被人類理解接受,如文本摘要,內(nèi)容生成,話題展開,情感對(duì)話等。最后,探討了在多模態(tài)智能,長(zhǎng)文本生成,情感和風(fēng)格表達(dá),及人機(jī)對(duì)話這些前沿方向上的最新研究進(jìn)展。 雷鋒網(wǎng)注:何曉冬博士發(fā)表演講 今年3月,何曉冬博士加盟京東,出任京東AI研究院常務(wù)副院長(zhǎng)及深度學(xué)習(xí)及語音和語言實(shí)驗(yàn)室主任。在深度學(xué)習(xí)、自然語言處理、語音識(shí)別、計(jì)算機(jī)視覺及信息檢索等方面均有重要貢獻(xiàn)。其工作包括DSSM(深度結(jié)構(gòu)語義模型/深度語義匹配模型)和圖像描述機(jī)器人Caption Bot等。在加入京東之前,何曉冬博士就職于美國微軟雷德蒙德研究院,擔(dān)任首席研究員(Principal Researcher)及深度學(xué)習(xí)技術(shù)中心(DLTC)負(fù)責(zé)人。何曉冬博士于1996年獲清華大學(xué)學(xué)士學(xué)位,1999年獲中國科學(xué)院碩士學(xué)位,2003年獲美國密蘇里大學(xué)-哥倫比亞分校博士學(xué)位。 以下是何曉冬博士所做報(bào)告的具體內(nèi)容,雷鋒網(wǎng)做了不改變?cè)獾木庉嬚怼?/span> 深度學(xué)習(xí)發(fā)展歷程深度學(xué)習(xí)的前身,當(dāng)時(shí)叫作“神經(jīng)網(wǎng)絡(luò)”,在80年代就曾經(jīng)流行。在90年代,大家對(duì)神經(jīng)網(wǎng)絡(luò)的期望到達(dá)頂峰,但是發(fā)現(xiàn)很多問題它解決不了,比如解決一些語音識(shí)別問題,神經(jīng)網(wǎng)絡(luò)的效果并不見得比其他基于統(tǒng)計(jì)的模型好。 2000年代的時(shí)候,深度學(xué)習(xí)還沒有被廣泛認(rèn)知。2008年,我和微軟同事鄧立在NIPS辦了個(gè)研討會(huì),邀請(qǐng)到Geoff Hinton 等來介紹最新的一些深度學(xué)習(xí)方面的進(jìn)展。直到2010年左右,深度神經(jīng)網(wǎng)絡(luò)模型開始在大規(guī)模語音識(shí)別上產(chǎn)生了大的突破。從那時(shí)候開始,大家對(duì)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)有了新的信心,經(jīng)過進(jìn)一步推動(dòng),神經(jīng)網(wǎng)絡(luò)在2012年在圖像識(shí)別上產(chǎn)生很大的突破,2014、2015年,神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯上也有了很大的突破。之后神經(jīng)網(wǎng)絡(luò)技術(shù)在越來越多AI領(lǐng)域產(chǎn)生更大的影響。 以語音識(shí)別為例,2000年以前,語音識(shí)別發(fā)展上不停有進(jìn)步,使得語音識(shí)別的錯(cuò)誤率有一個(gè)很明顯的下降趨勢(shì)。 2000年開始,語音識(shí)別技術(shù)進(jìn)入了一個(gè)瓶頸期,雖然每年還會(huì)有一些新的技術(shù)發(fā)明,但實(shí)際上總體來說,從2000到2010年,它在大規(guī)模測(cè)試集上的錯(cuò)誤率基本降不下去,技術(shù)上來說這十年是基本停滯的。 2010年開始,Geoff Hinton和微軟合作開始用深度學(xué)習(xí)做語音識(shí)別技術(shù)研發(fā),2011年發(fā)現(xiàn)在一些大規(guī)模的語音識(shí)別數(shù)集上,可以看到20%-30%的錯(cuò)誤率下降。更多的研究員投入以后,錯(cuò)誤率以一個(gè)很快的速度下降。在重要的電話語音測(cè)試集switchboard上,去年微軟的語音識(shí)別錯(cuò)誤率僅為5%左右,等于一個(gè)專業(yè)的速記員水平。所以可以說,2017年開始,在switchboard 上,機(jī)器達(dá)到了人的水平。 不光是在語音上,在圖像識(shí)別上深度學(xué)習(xí)也有很大的進(jìn)步。大概在2009年,李飛飛團(tuán)隊(duì)提出了一個(gè)數(shù)據(jù)集ImageNet,從2010年開始李飛飛和她的團(tuán)隊(duì)成員基本每年都會(huì)舉辦一個(gè)挑戰(zhàn)賽。在2010年、2011年,最好的系統(tǒng)在這個(gè)數(shù)據(jù)集上做識(shí)別的錯(cuò)誤率大概是在25%左右。2012年,Hinton和他的學(xué)生第一次提出了一個(gè)深度的卷積神經(jīng)網(wǎng)絡(luò),雖然不是他們提出來的,但是他們把這個(gè)網(wǎng)絡(luò)做到一個(gè)很大的規(guī)模,把一些新的技術(shù)也加了進(jìn)去,使得錯(cuò)誤率一下子從25%降到16%。 2015年,我之前在微軟的同事孫劍團(tuán)隊(duì)提出一個(gè)新的模型,把深度學(xué)習(xí)推到一個(gè)新的高度,把網(wǎng)絡(luò)層數(shù)做到152層,錯(cuò)誤率降到3.57%。因?yàn)槿擞袝r(shí)候犯錯(cuò)誤,人的錯(cuò)誤率大概在5%左右,但是機(jī)器可以做到3.5%,所以從那個(gè)時(shí)候開始,在這個(gè)特定數(shù)據(jù)集上用計(jì)算機(jī)做圖像識(shí)別的能力已經(jīng)比一般的人要好。 可能語音和圖像我們看到了很清楚的突破,下一個(gè)期待的能否在自然語言上做到更深的突破。因?yàn)檎Z言是人類特有的智能,很多高等動(dòng)物也有很強(qiáng)的視覺和聽覺,但是語言是人獨(dú)有的智慧。所以我們也希望計(jì)算機(jī)或者人工智能有一天能夠跟人一樣,對(duì)語言充分理解。 自然語言處理前沿研究說到自然語言處理,基本上可以分成兩個(gè)單位: 1、AI理解人類。 像意圖識(shí)別、搜索,人通過文字表達(dá)各種各樣的意圖和情緒。所以我們說要讓AI理解人類。 語言理解第一步就是槽值提取。 如果你說一句話,計(jì)算機(jī)需要理解這句話里面你要的意圖。比如你要去找一個(gè)航班,就要把城市和時(shí)間標(biāo)出來。 在2013年我們跟Yoshua Bengio合作,第一次把RNN成功應(yīng)用于這個(gè)問題。 另外一個(gè)工作是怎么分類意圖。 人說話很復(fù)雜,你說一段話,里面描述了對(duì)餐館的意見,但是我們想從這個(gè)段子里面知道你真正的意見,為什么會(huì)這么說?這就意味著在這樣一個(gè)語段里面要知道哪些句子更重要,哪些句子不那么重要。所以我們?cè)O(shè)計(jì)了一個(gè)雙層的基于關(guān)注度的神經(jīng)網(wǎng)絡(luò),叫做Hierarchical Attention Net。就是在句子內(nèi),在詞這個(gè)層面先抽取最重要的那個(gè)信息,同時(shí)在句子之間抽取更重要的句子,兩者聯(lián)合起來,就能達(dá)到一個(gè)完整的對(duì)語段的表達(dá)。 這個(gè)語段本身講的是他是喜歡這個(gè)餐館,我們甚至可以把重要的詞給標(biāo)出來,或者重要的句子標(biāo)出來,越深的顏色意味著對(duì)語段的意圖理解越重要。所以不但可以解釋整個(gè)語段意思是喜歡餐館,同時(shí)它也會(huì)告訴你為什么會(huì)喜歡餐館。 語義表征是一個(gè)核心的自然語言理解問題。 自然語言可以千變?nèi)f化,但是其實(shí)有一個(gè)語義在里面。語義理解是一個(gè)很難的問題,我們希望設(shè)計(jì)一個(gè)深度神經(jīng)網(wǎng)絡(luò),可以從原始或者比較初步的自然語言描述提取到抽象的語義特征。這個(gè)語義特征最后會(huì)形成一個(gè)語義空間,每一句話的意思都會(huì)被映射成這個(gè)空間的一個(gè)點(diǎn)。不同的句子描述的語義是相似的,但是字面意思不一樣。我們希望這個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)以后,讓他知道這兩句話在空間里面是相近的。 兩句話重合度非常相關(guān)但是意思完全不一樣,我們也希望這個(gè)神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)知道不同的句子雖然可能描述字面很相似,但是意思是完全不一樣的,所以這是在語言理解里面核心的問題。 為了解決這個(gè)問題,我們大概在2013年提出一個(gè)模型,叫深度解構(gòu)語義模型(DSSM)。它解決一個(gè)本質(zhì)問題是,有幾個(gè)句子,比如像跑車,可能翻譯成賽車或者跑步,跑車和跑步雖然字面上的重合度更高一些,但卻是非常不一樣的兩個(gè)概念。所以經(jīng)過學(xué)習(xí)我們可以知道,跑車和賽車最后在向量空間里面向量的重合度要盡可能高;然后跑車和跑步的向量盡可能拉開,這樣的話,我們可以在語義空間里面更好的分開跑車和跑步的關(guān)系。 雷鋒網(wǎng)注:深度結(jié)構(gòu)語義模型(DSSM) 整個(gè)訓(xùn)練比較復(fù)雜,我們并不關(guān)心向量之間的絕對(duì)值,而是向量與向量的相對(duì)關(guān)系,只有這個(gè)相對(duì)關(guān)系定義了語義。因?yàn)檎Z義本身是一個(gè)虛擬的概念,你可能看過這個(gè)圖像,看過這個(gè)物體,但是語義從來都是在人的腦海里面的一個(gè)概念。所以所有的語義都是通過一個(gè)相對(duì)性的意思來表達(dá),我們知道A和B很相似,所以我們通過一個(gè)相對(duì)性的訓(xùn)練目標(biāo)來訓(xùn)練這個(gè)模型,從而得到這樣一個(gè)語義模型。 還有另外一個(gè)重要問題,就是知識(shí)圖譜。 雷鋒網(wǎng)注:知識(shí)圖譜示意圖 點(diǎn)代表了重要的物體和實(shí)體,線往往描述事情和事情的關(guān)系。像奧巴馬有很多關(guān)系,他的出生地是夏威夷,黨派是民主黨,他的妻子和女兒叫什么名字。很多時(shí)候我們希望在一個(gè)連續(xù)空間里面進(jìn)行知識(shí)計(jì)算,誰跟誰很相似,誰跟誰大概會(huì)有一些新的關(guān)系,以前不知道的可以挖掘出來。在2015年我有一篇文章提出怎么樣把知識(shí)圖譜在一個(gè)連續(xù)空間里面表示。比如我們可以用一個(gè)剛才說的語義向量來表示每個(gè)實(shí)體,同時(shí)用一個(gè)矩陣來表示實(shí)體之間的關(guān)系。這樣的話,我們?cè)谟?jì)算實(shí)體A和實(shí)體B是不是存在一個(gè)特定的關(guān)系M的時(shí)候,只要算一下A的向量×B的向量,看看這個(gè)值是不是高,做一個(gè)相似度的測(cè)量。 有這樣一個(gè)在連續(xù)空間里面表達(dá)的知識(shí)圖譜以后,其實(shí)可以做很多別的事情。比如可以在連續(xù)空間里面推出來很多東西,我們知道奧巴馬出生地在夏威夷,夏威夷在美國,我們就可以推導(dǎo)出來他的國籍是美國。這些都可以通過在知識(shí)空間里面計(jì)算得到。根據(jù)國籍關(guān)系和出生地關(guān)系可以算出兩個(gè)矩陣之間的距離,如果這兩個(gè)矩陣之間的距離足夠小的話,就認(rèn)為這兩個(gè)關(guān)系是等價(jià)的。 有了知識(shí)圖譜以后可以做很多事情,比如做知識(shí)解答,問誰是賈斯汀比伯的姐姐,就可以通過語義解析和搜索匹配得到答案。 2、讓AI以人類理解的方式表達(dá)。 就是讓AI產(chǎn)生內(nèi)容,理解人類。舉個(gè)例子,我們都知道人工智能可以寫詩現(xiàn)在已經(jīng)不是新聞了,人工智能還會(huì)畫畫,還可以做一些文本摘要,甚至可以做一個(gè)菜譜。所以我們對(duì)人工智能要求越來越高,希望人工智能不僅能理解我們說什么,還能反饋一些內(nèi)容。 還有怎么樣用增強(qiáng)學(xué)習(xí)在自然語言里面做應(yīng)用。在增強(qiáng)學(xué)習(xí)里面AlphaGo是一個(gè)很好的例子,我們認(rèn)為自然語言理解是比AlphaGo下圍棋更難的問題,因?yàn)檎Z言的空間是無限大的,圍棋的空間很大,其實(shí)語言空間比圍棋還要大。語言的空間是無限的,特別就行動(dòng)空間而言,而圍棋每一步只能在361個(gè)點(diǎn)上選擇任意一點(diǎn)。 為了解決這個(gè)問題,我們不能像AlphaGo一樣直接去判斷,在語言對(duì)話問題里面,一個(gè)H就是機(jī)器說了一句話,或者機(jī)器選了一句話,因?yàn)檫@個(gè)話的表達(dá)是千變?nèi)f化的,這個(gè)H是沒有邊界的。所以不是說我們讓機(jī)器選某一個(gè)H,而是說把所有的H通過一個(gè)神經(jīng)網(wǎng)絡(luò)映射到一個(gè)語義空間,在這個(gè)語義空間里面計(jì)算什么時(shí)候應(yīng)該選哪個(gè)H,最后這個(gè)H才能在一個(gè)語言的環(huán)境里面做深度學(xué)習(xí)。 人類理解跟計(jì)算機(jī)理解是不一樣的,很多時(shí)候計(jì)算機(jī)的理解邏輯更像做一些匹配,包括關(guān)鍵字查找、語義分析。不管怎么說,在這個(gè)數(shù)據(jù)集上很多最新模型已經(jīng)超過人的水平了。甚至我們還提出新的如何作遷移學(xué)習(xí)的模型,即怎么樣把一個(gè)模型從一個(gè)領(lǐng)域遷移到另外一個(gè)領(lǐng)域,這樣才能迅速達(dá)到很高的水平。 還有一個(gè)做的比較大的方面,是機(jī)器閱讀,我們希望AI讀完一篇文章以后,它能夠回答關(guān)于這篇文章的任何問題。計(jì)算機(jī)要對(duì)這些前后關(guān)系有一個(gè)充分理解,然后得到一個(gè)準(zhǔn)確的答案。這個(gè)方面也有很大的進(jìn)展,斯坦福做了一個(gè)數(shù)據(jù)集,最近他們出了2.0版;最近很多企業(yè)這方面做的也不錯(cuò),比如科大迅飛,谷歌,微軟,阿里等。 下一步突破1.多模態(tài)智能 多模態(tài)智能也是一個(gè)交叉性的概念,我們知道人在獲得智能的時(shí)候,是通過多個(gè)來源,并不是只看圖,或者只是聽。 我們知道奧巴馬是誰,知道他的背景,但是并不全面,看到圖片以后才知道原來奧巴馬長(zhǎng)這樣。所以視覺對(duì)語言知識(shí)有很大的補(bǔ)充。聽覺也是一樣,我們聽到奧巴馬的演講,知道他怎么用詞,對(duì)他有更加深入的理解。所有這些各個(gè)模態(tài)的東西在一起,才能導(dǎo)致我們對(duì)整個(gè)知識(shí)有一個(gè)深入的了解。所以基于深度學(xué)習(xí)模型,我們希望對(duì)不同模態(tài)的輸入都可以逐步的把它不變的語義信號(hào)和概念提取出來,最后能夠統(tǒng)一到一個(gè)多模態(tài)的語義空間里面,在這個(gè)語義空間里,我們可以跨模態(tài)的做一些工作,比如圖文關(guān)聯(lián)的推理,甚至可以做跨圖文處理,甚至一個(gè)模態(tài)到一個(gè)模態(tài)的內(nèi)容生成等等。 2.復(fù)雜內(nèi)容的創(chuàng)作 這是另外一個(gè)最新的工作,即怎么樣生成一首詩歌。生成詩歌也是內(nèi)容創(chuàng)作,假設(shè)這是我們一個(gè)算法科學(xué)家給他女兒寫了一首詩,輸入關(guān)鍵字之后計(jì)算機(jī)會(huì)理解他大概想表達(dá)什么樣的情緒,同時(shí)用文字來表達(dá)這個(gè)情緒,從而生成一篇詩歌。 這里面還有一個(gè)核心問題沒有解決,即寫作邏輯。所以這個(gè)時(shí)候就關(guān)系到怎樣確立這樣一個(gè)模型,使得主題、子主題的結(jié)構(gòu)可以展開,并且能夠在模型上得到體現(xiàn),最后才能真正寫出一篇前后邏輯嚴(yán)謹(jǐn),有意義的文章出來。 3.情感智能 舉一個(gè)簡(jiǎn)單例子,如何生成有情感的對(duì)話。假如一位女士買了一件T恤,如果她發(fā)到朋友圈的時(shí)候,我們可以知道這是一個(gè)女士。甚至計(jì)算機(jī)可能用一句話描述:穿著藍(lán)色T恤的女士。但實(shí)際上這位女士發(fā)在朋友圈的圖片,可能只是為了炫耀她新買的新衣服。所以這時(shí)候我希望計(jì)算機(jī)知道她的情感需求,看起來這個(gè)圖片美麗的像一個(gè)天使,而不是著重于她表象的衣服和行為。所以我們希望計(jì)算機(jī)能夠做的更好,能夠理解用戶的情感,知道用戶的訴求,這樣才能夠說對(duì)用戶有更深的理解。我們希望人工智能逐步開始對(duì)情感有更深的理解,不光是能夠識(shí)別情感,而且能夠配合情感進(jìn)行相應(yīng)表達(dá)。 4.多輪人機(jī)對(duì)話 智能技術(shù)終歸回到一個(gè)問題,AI是什么?圖靈在50年代的時(shí)候提出圖靈測(cè)試,如果計(jì)算機(jī)和人進(jìn)行大量的交談,長(zhǎng)時(shí)間以后,人不能判斷跟他交談的是人還是計(jì)算機(jī),他認(rèn)為計(jì)算機(jī)通過測(cè)試是有智能的。換句話說,圖靈認(rèn)為語言和對(duì)話代表高級(jí)的智能,如果對(duì)話上能夠通過圖靈測(cè)試,意味著這個(gè)計(jì)算機(jī)真的有智能。 從那以后,一代一代的科學(xué)家做了很多研究,在過去50年已經(jīng)發(fā)表了很多對(duì)話系統(tǒng),從聲學(xué)識(shí)別、語音識(shí)別到語義理解。 最近在京東研究院我們做了一個(gè)情感對(duì)話服務(wù)機(jī)器人,客服里面最重要的一個(gè)事情就是情緒,所以需要對(duì)情緒有精準(zhǔn)的把握??头枰獙?duì)用戶有同理心,同時(shí)客服要有足夠細(xì)膩的說話技巧,同時(shí)還要符合某種社會(huì)價(jià)值觀。 舉個(gè)例子,如果一個(gè)人打電話,他開始問他的快遞為什么還沒有到?這個(gè)時(shí)候我們希望AI模型可以精準(zhǔn)的體會(huì)到這個(gè)顧客是生氣的。然后機(jī)器人會(huì)進(jìn)行一些安撫,表示抱歉,讓他的情緒能夠緩和。然后再問他具體的內(nèi)容:“到底什么時(shí)候發(fā)生的?”他說:“昨天”。這個(gè)時(shí)候智能機(jī)器人就會(huì)查具體這個(gè)東西不是已經(jīng)到了,最后告訴他,“系統(tǒng)已經(jīng)顯示東西到了”。這時(shí)候顧客的情緒從生氣變成焦急,機(jī)器人就很迅速捕捉到他這種情緒變化,告訴他說,“不用著急,我們有保險(xiǎn),請(qǐng)您放心?!?/span> 再往下一步,顯示說“您的鄰居幫您簽收了,并不是弄丟了,所以可以完全放心?!边@個(gè)時(shí)候顧客的情緒又發(fā)生變化,他可能覺得如釋重負(fù),覺得這個(gè)事情解決了,他會(huì)說:“放心了,謝謝?!边@個(gè)時(shí)候機(jī)器人也檢測(cè)到愉快的情緒,祝這個(gè)客戶愉快,然后把這個(gè)問題解決掉。 現(xiàn)在有情感支持的對(duì)話機(jī)器人已經(jīng)在京東上線了,已在線上服務(wù)了將近100多萬的咨詢。 總結(jié)整個(gè)自然語言突破,我個(gè)人認(rèn)為并不是要證明AI技術(shù)比人強(qiáng),計(jì)算機(jī)下棋下的比人強(qiáng),證明計(jì)算機(jī)前進(jìn)的程度不是我們的終極目標(biāo),我們的終極目標(biāo)是AI幫助人類連接這個(gè)世界。 我們生活在一個(gè)物理世界,這個(gè)世界往往需要大量的視覺信號(hào)在里面。同時(shí),我們也生活在一個(gè)數(shù)字世界里,我們有各種的賬號(hào),還有各種號(hào)碼。此外,我們還需要跟其他的人打交道,我們有微信,看微博,看各種各樣的頭條,或者看各種各樣的信息,去線上買東西,給客服打電話,所以跟人類打交道也是需要突破的一點(diǎn)。所以我們希望AI幫助每一個(gè)用戶和每個(gè)消費(fèi)者更好的跟自己的三個(gè)世界的人能夠連接起來。 語言理解作為一個(gè)核心技術(shù),就是能夠溝通人和世界的交流,像圖靈說的,只有通過對(duì)話測(cè)試才能證明機(jī)器有智能,所以語言理解和人機(jī)對(duì)話一直是推動(dòng)人工智能發(fā)展的一個(gè)核心目標(biāo)。我們希望機(jī)器能夠更進(jìn)一步的進(jìn)化到高級(jí)智能和通用智能,能夠自動(dòng)學(xué)習(xí)和自我創(chuàng)新,然后迅速的在一些特定領(lǐng)域比人做的更好。 |
|