DeepNLP 科普貼：既是地下的富礦，也是“魔鬼”的居所

Anson358 2017-06-15

展開(kāi)全文

摘要：深度學(xué)習(xí) 自然語(yǔ)言處理，這對(duì)基友或?qū)⑨尫懦鋈f(wàn)千魔鬼和無(wú)盡財(cái)富。

很長(zhǎng)時(shí)間當(dāng)中，人工智能與計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)之間有一個(gè)交叉學(xué)科始終被市場(chǎng)熱切關(guān)注，那就是NLP（natural language processing），即自然語(yǔ)言處理。

這項(xiàng)技術(shù)的基本內(nèi)涵，是指人類與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。說(shuō)白了就是如何讓機(jī)器聽(tīng)懂人類說(shuō)什么，以及如何讓機(jī)器說(shuō)人類能聽(tīng)懂的話。這兩個(gè)方面也被稱為NLP的兩個(gè)核心關(guān)鍵領(lǐng)域：自然語(yǔ)言理解和自然語(yǔ)言生成。

回想一下，我們可能會(huì)發(fā)現(xiàn)NLP對(duì)于推動(dòng)人工智能產(chǎn)業(yè)發(fā)展有著舉足輕重的作用。因?yàn)樗梢灾苯幼饔糜跈C(jī)器翻譯、語(yǔ)音輸入等領(lǐng)域。相比于人工智能和機(jī)器人領(lǐng)域那些“只聞其聲不見(jiàn)其人”的算法和神經(jīng)網(wǎng)絡(luò)，翻譯和語(yǔ)言輸入法可是貨真價(jià)實(shí)的商業(yè)應(yīng)用。

所以作為這些應(yīng)用領(lǐng)域的主角，NLP一直在人工智能產(chǎn)業(yè)化中扮演著重要角色。但有很多人認(rèn)為，NLP在整個(gè)AI體系中是相對(duì)孤立的，應(yīng)用范圍也相對(duì)狹窄。

但隨著學(xué)界一種新的跨界思維開(kāi)始流行起來(lái)，這種情況仿佛有了改觀：將流行的深度學(xué)習(xí)技術(shù)（deep learning）與NLP相結(jié)合，打造出更深度自然語(yǔ)言處理（DeepNLP）成為了火爆的AI概念。

而真正令人在意的是，這個(gè)概念背后指向的應(yīng)用性近乎于是無(wú)限廣泛的，甚至有人認(rèn)為人類將史無(wú)前例地打開(kāi)語(yǔ)言這個(gè)魔鬼迷宮，將人類的某些能力拉升到新的維度。

究竟有沒(méi)有這么神當(dāng)然不好說(shuō)，但DeepNLP的潛在價(jià)值絕對(duì)不凡。

為了讓大家更好理解DeepNLP的涵義與應(yīng)用性，我們嘗試盡可能拋棄掉所有函數(shù)和語(yǔ)言學(xué)公式，并且用一種比喻來(lái)理解這項(xiàng)技術(shù)的真實(shí)情況：挖礦。

假設(shè)DeepNLP是一座深埋在地下的富礦，那么想要得到它首先要翻越大塊鹽堿。而礦藏的最深處，可能就是魔鬼的居所。

從NLP到DeepNLP：人工智能不僅可以翻譯、速記、問(wèn)答

先來(lái)解釋一下NLP與DeepNLP的不同之處。

自從上世界八十年代NLP概念被提出以來(lái)，經(jīng)過(guò)了長(zhǎng)時(shí)間的演進(jìn)和迭代。其技術(shù)本身的變化非常顯著。但其基本運(yùn)作模式卻是相同的。一般來(lái)說(shuō)，NLP體系的工作對(duì)象都是人類語(yǔ)言。一段語(yǔ)言樣本進(jìn)入NLP系統(tǒng)之后，將經(jīng)過(guò)系統(tǒng)的符號(hào)化處理，將人類語(yǔ)言改寫(xiě)成運(yùn)算語(yǔ)言；然后通過(guò)運(yùn)算能力進(jìn)行模塊化生成，根據(jù)不同目標(biāo)進(jìn)行語(yǔ)言處理；最終，生成的模塊輸出為結(jié)果，整個(gè)語(yǔ)言處理任務(wù)就完成了。

這樣的語(yǔ)言處理體系，按照目的來(lái)區(qū)分一般有三種應(yīng)用：一是語(yǔ)音文本轉(zhuǎn)化為文字文本，也就是我們今天常用的語(yǔ)音輸入；其二是不同語(yǔ)言之間的轉(zhuǎn)化，也就是機(jī)器翻譯；第三種是語(yǔ)言文本理解后給出相應(yīng)回饋，也就是siri這樣的聊天機(jī)器人。

NLP的作用，基本就是在這三種應(yīng)用當(dāng)中讓語(yǔ)言處理更加自然、合理。而隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，NLP似乎可以迎來(lái)一場(chǎng)全面的革命。

NLP長(zhǎng)久以來(lái)存在的問(wèn)題，就是人類的不同語(yǔ)言體系確實(shí)太復(fù)雜了，經(jīng)典計(jì)算網(wǎng)絡(luò)根本無(wú)法完全處理。尤其語(yǔ)義、語(yǔ)言情感、語(yǔ)言氛圍以及歧義、多義等內(nèi)容，更是難以被機(jī)器理解。

而目前火爆的深度學(xué)習(xí)技術(shù)，則可以用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)，來(lái)自主提取高效算法替代傳統(tǒng)算法。換言之，深度學(xué)習(xí)中的某些技術(shù)或許可以讓NLP自主理解人類語(yǔ)言中的具體特征和復(fù)雜語(yǔ)言材料。這就給NLP的革命打開(kāi)了一線遐想。

事實(shí)也確實(shí)如此，隨著卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)等技術(shù)的成熟，NLP可以主動(dòng)理解的算法越來(lái)越多。比如對(duì)關(guān)鍵詞的歸納、對(duì)句子上下文關(guān)系的理解，以及通過(guò)訓(xùn)練結(jié)果去自主理解其他語(yǔ)料和語(yǔ)言情況。

總之，深度學(xué)習(xí)技術(shù)加上NLP，把人工智能理解人類語(yǔ)言推向了理論上的新高度。甚至有學(xué)者提出了DeepNLP這個(gè)新概念。加入深度學(xué)習(xí)的NLP體系，可以在表達(dá)適配度，可訓(xùn)練性，泛化性，模塊化、可遷移性等領(lǐng)域上較比原有NLP具有強(qiáng)烈的優(yōu)勢(shì)。

而所謂DeepNLP的美夢(mèng)成真，是從一些新工具投入使用開(kāi)始的。

發(fā)現(xiàn)新礦層：詞向量等思維模塊帶來(lái)的沖擊

這一部分細(xì)說(shuō)起來(lái)可能會(huì)有些枯燥生澀，但事實(shí)上這部分對(duì)于理解DeepNLP帶來(lái)的商業(yè)可能是至關(guān)重要的。所以我們還是要簡(jiǎn)單聊一下。

話說(shuō)自然語(yǔ)言處理的邏輯，是將人類語(yǔ)言轉(zhuǎn)化為運(yùn)算語(yǔ)言。但在傳統(tǒng)計(jì)算模式下的語(yǔ)言轉(zhuǎn)化，是將不同詞匯轉(zhuǎn)化為相互間完全沒(méi)有聯(lián)系的符號(hào)編碼。

這種方式對(duì)于機(jī)器運(yùn)算本身沒(méi)什么問(wèn)題。但對(duì)于讓機(jī)器語(yǔ)言更好地貼近理解人類語(yǔ)言就會(huì)有很多障礙。比如帶來(lái)的運(yùn)算量非常復(fù)雜，一旦需要對(duì)語(yǔ)義、句法、語(yǔ)言回指這樣的復(fù)雜問(wèn)題進(jìn)行計(jì)算，就會(huì)難以為繼。

另一方面，這種轉(zhuǎn)化模式之后，詞、句、語(yǔ)法間是完全沒(méi)有聯(lián)系的。這也就難以讓機(jī)器學(xué)習(xí)人類語(yǔ)言間的聯(lián)系，產(chǎn)生自主理解的學(xué)習(xí)訓(xùn)練效果。

而有一些新技術(shù)的出現(xiàn)，正在改變這種現(xiàn)狀。比如一種叫做“詞向量”的思維模塊，這種技術(shù)把人類語(yǔ)言轉(zhuǎn)化為機(jī)器語(yǔ)言時(shí)，對(duì)每一個(gè)詞進(jìn)行了有聯(lián)系的界定。即將詞匯處理成向量，并且向量間的相對(duì)相似度和語(yǔ)義相似度是相關(guān)的。

比如說(shuō)人，會(huì)關(guān)聯(lián)著男人、女人、老人、成年人等詞。這些詞相互有聯(lián)系，并且可以被機(jī)器理解。這也就將人類語(yǔ)言體系重新展現(xiàn)在了機(jī)器面前，給了機(jī)器學(xué)習(xí)全新的理解方式。

詞向量只是DeepNLP技術(shù)中的一種解決方式，并且各種詞向量也在不斷進(jìn)化當(dāng)中。這些讓機(jī)器重新理解人類語(yǔ)言的技術(shù)，可以被視作全新的探測(cè)器。有了這些工具，語(yǔ)言應(yīng)用的富礦就暴露在了人類面前。

潘神的迷宮：DeepNLP的技術(shù)鹽堿地

當(dāng)然了，就像深度學(xué)習(xí)在眾多領(lǐng)域的應(yīng)用一樣。DeepNLP達(dá)成應(yīng)用也絕非朝夕之功，在開(kāi)始近乎癲狂的應(yīng)用想象之前，我們還是要潑一盆冷水。

雖然幫助機(jī)器深度理解人類語(yǔ)言的工具和技術(shù)越來(lái)越多，但語(yǔ)言這個(gè)神奇的王國(guó)依然保留著大塊處女地。目前的精神網(wǎng)絡(luò)和深度學(xué)習(xí)算法，還有大量的語(yǔ)料和語(yǔ)言問(wèn)題無(wú)法處理。這就像我們知道某處深山中有大量金礦，但勘探隊(duì)與其之間依舊隔著大片的鹽堿地和堅(jiān)硬巖石。

比如說(shuō)語(yǔ)言歧義性問(wèn)題，就是目前的詞向量、詞嵌入技術(shù)的“噩夢(mèng)”。一個(gè)詞可以有很多種意思，是人類不同語(yǔ)言的“通病”。而人類理解這些多義詞基本依靠對(duì)語(yǔ)境和言語(yǔ)情感的理解。但機(jī)器學(xué)習(xí)對(duì)人類語(yǔ)言進(jìn)行重新編碼的時(shí)候，卻無(wú)可避免地將同義詞進(jìn)行錯(cuò)誤編碼。甚至從而產(chǎn)生對(duì)整體語(yǔ)義的歧義理解。

再比如不同語(yǔ)種的問(wèn)題。字母文字和表意文字之間的邏輯、結(jié)構(gòu)和語(yǔ)境是完全不同的，甚至近似語(yǔ)言之間的語(yǔ)法結(jié)構(gòu)也可以截然不同。深度學(xué)習(xí)體系追隨的是語(yǔ)法內(nèi)部的邏輯體系，而追尋語(yǔ)言本身的通路，在跨語(yǔ)種時(shí)可能出現(xiàn)巨大的障礙。

還有一個(gè)問(wèn)題，是DeepNLP究竟如何訓(xùn)練。語(yǔ)言的復(fù)雜性，讓復(fù)雜處理后的語(yǔ)言結(jié)果很難被判定。一種判定結(jié)果也很難成為其他語(yǔ)言處理結(jié)果的指標(biāo)。因此訓(xùn)練樣本的缺少適配性，讓弱監(jiān)督與無(wú)監(jiān)督的NLP非常困難。

當(dāng)然了，問(wèn)題該有是有，但并不妨礙我們看到DeepNLP的宏大價(jià)值。語(yǔ)言這令人著迷的東西，如果真正為人工智能所掌握，帶來(lái)的效果近乎沒(méi)有盡頭。

越過(guò)山巖之后的富礦：DeepNLP的應(yīng)用甜夢(mèng)

DeepNLP的應(yīng)用價(jià)值可以非常復(fù)雜，如果算上與其他智能體系結(jié)合的應(yīng)用場(chǎng)景，那近乎是個(gè)無(wú)窮數(shù)。但這里可以基本推測(cè)幾個(gè)DeepNLP應(yīng)用場(chǎng)景，相信大家就會(huì)明白為什么將之稱為“富礦”。

一、復(fù)雜語(yǔ)言目的提煉與反向生成：通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)，NLP提取復(fù)雜語(yǔ)言材料的核心概念將成為可能。這個(gè)能力的作用非常多，比如全面接管客戶服務(wù)。而復(fù)雜語(yǔ)言提煉還可以重新定義模糊搜索和電商搜索。人只需要描述自己對(duì)信息或者商品的需求，NLP就可以自主提煉并進(jìn)行精準(zhǔn)定位。

而這個(gè)能力的反向生成也十分重要，深度學(xué)習(xí)體系可以幫助NLP根據(jù)人類需求自主生成文字語(yǔ)言材料，就預(yù)示著根據(jù)某個(gè)需求進(jìn)行文本與語(yǔ)音創(chuàng)作成為可能。通過(guò)人類語(yǔ)言訓(xùn)練反向影響AI寫(xiě)作，也是一個(gè)十分有意思的破局思路。

二、基于語(yǔ)言的邏輯推理與情感判斷：通過(guò)對(duì)人類語(yǔ)言環(huán)境中的復(fù)雜關(guān)系進(jìn)行遷移學(xué)習(xí)，可以達(dá)成另外一些有意思的應(yīng)用可能。比如讓機(jī)器學(xué)習(xí)到人類語(yǔ)言中的邏輯和情感。先不提是否賦予機(jī)器這些東西，至少這將有機(jī)會(huì)讓機(jī)器從人類的語(yǔ)言中預(yù)測(cè)結(jié)果，達(dá)成機(jī)器推理甚至情感判斷。

從聽(tīng)懂你說(shuō)話的機(jī)器人，變成能夠預(yù)測(cè)你目的、讀懂你的情緒的機(jī)器人，顯然是一場(chǎng)巨大的商機(jī)。

三、文本關(guān)系的提取與分類：DeepNLP的另一個(gè)主攻方向，是對(duì)文本關(guān)系的理解。從語(yǔ)言環(huán)境、語(yǔ)位素到語(yǔ)言使用習(xí)慣和語(yǔ)言情感，人類的語(yǔ)言其實(shí)根植于無(wú)數(shù)文本關(guān)系之中。如果不能理解這些關(guān)系，那么AI就永遠(yuǎn)是只能進(jìn)行簡(jiǎn)單交互的機(jī)器。

而通過(guò)深度學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言處理，卻可能讓機(jī)器理解這些關(guān)系。于是復(fù)雜的文本翻譯將成為可能，整本書(shū)的瞬間翻譯似乎也不是難事。而方言、發(fā)聲問(wèn)題下的人機(jī)語(yǔ)音交互可能達(dá)成。當(dāng)然了，這都僅僅是這個(gè)技術(shù)達(dá)成所帶來(lái)應(yīng)用的一小部分。

四、圖像的識(shí)別與描述：通過(guò)對(duì)語(yǔ)言材料的遷移學(xué)習(xí)，讓機(jī)器讀懂人類通過(guò)雙眼與自然界間的交互，也是一個(gè)充滿想象力的區(qū)域。而循環(huán)神經(jīng)網(wǎng)絡(luò)等技術(shù)正在幫助NLP打開(kāi)這種可能。通過(guò)反復(fù)訓(xùn)練AI閱讀人類對(duì)圖像的描述，機(jī)器將生成自主描述圖像、歸類解釋圖像的能力。

這讓AI擁有了可以自己看東西，并轉(zhuǎn)化為人類語(yǔ)言介質(zhì)的能力。通過(guò)攝像頭，機(jī)器將可以隨時(shí)理解實(shí)物并進(jìn)行分類匯總。這首先讓人類的公共安全警報(bào)、搜救、探測(cè)事業(yè)有了徹底改革，更深處或許將指向機(jī)器對(duì)自然萬(wàn)物的自我解讀。

這些應(yīng)用聽(tīng)起來(lái)都非常魔幻，而這正是DeepNLP的可怕之處。一旦高強(qiáng)度自主學(xué)習(xí)的NLP與人類信息接入，那絕不是若干應(yīng)用所能描述的技術(shù)變革。

礦石之外的石油：DeepNLP結(jié)合大數(shù)據(jù)

在開(kāi)采DeepNLP這座礦山之外，我們顯然能夠發(fā)現(xiàn)這項(xiàng)技術(shù)與大數(shù)據(jù)體系結(jié)合的奇妙化反。這或許將在礦井之外再打開(kāi)一座油田。

首先要知道，目前大數(shù)據(jù)資源中的很大一部分，都是以人類語(yǔ)言作為基本單位的。這些數(shù)據(jù)指向著多種多樣的目的和結(jié)果，但其借助人類語(yǔ)言的特點(diǎn)卻是相同的。在這一點(diǎn)上，原本普通廉價(jià)的人類語(yǔ)言卻可以成為DeepNLP非常有效的訓(xùn)練材料。

而反過(guò)來(lái)說(shuō)，DeepNLP技術(shù)的成熟，也可以幫助人類重新理解和使用已有的大數(shù)據(jù)資源。比如用戶對(duì)某一產(chǎn)品的使用體會(huì)數(shù)據(jù)。原本的數(shù)據(jù)判別系統(tǒng)只能推測(cè)出滿意級(jí)別、改進(jìn)點(diǎn)等幾個(gè)數(shù)據(jù)。因?yàn)樗倪壿嬍翘崛￡P(guān)鍵詞和打分。而這顯然就忽視了用戶的個(gè)體性。通過(guò)DeepNLP去處理客戶數(shù)據(jù)，或許可以判斷每一個(gè)用戶的受訪環(huán)境、受訪回答真實(shí)性，甚至根據(jù)語(yǔ)氣和描述推斷出用戶沒(méi)有提到的產(chǎn)品改進(jìn)建議。

這里有一個(gè)邏輯推演，那就是在足夠成熟的DeepNLP體系、足夠大的數(shù)據(jù)承載量以及足夠強(qiáng)大的運(yùn)算能力（比如相對(duì)成熟的量子計(jì)算）支撐下，將有可能對(duì)人類的每一句話進(jìn)行推演和預(yù)測(cè)，推斷人類生活中每一個(gè)細(xì)節(jié)的原因與結(jié)果。電影《少數(shù)派報(bào)告》中的預(yù)測(cè)犯罪機(jī)器人，或許就是以此為科學(xué)解釋。

語(yǔ)言迷宮，是人類長(zhǎng)期以來(lái)自身都無(wú)法破解的牢籠。一個(gè)優(yōu)秀的演講者、魅力十足的推銷(xiāo)員、套路詭譎的騙子，往往有無(wú)法解釋的能力達(dá)成目標(biāo)。而依靠的沒(méi)有其他東西，就是語(yǔ)言。一旦這種能力為AI所獲得，釋放出的當(dāng)然有數(shù)不勝數(shù)的機(jī)遇財(cái)富，但同時(shí)出籠的，或許還有一位名喚“語(yǔ)言”的恐怖魔鬼。

本文系作者腦極體授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。

投稿| - 機(jī)器學(xué)習(xí)| - 人工智能| -

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： Anson358 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)