清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

黃元章3355 2019-06-02

展開全文

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

【新智元導(dǎo)讀】5月30日，由北京智源人工智能研究院主辦的智源論壇第4期——《知識與認知圖譜》在清華大學(xué)順利舉辦。清華大學(xué)計算機系長聘副教授劉洋針對基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的機器翻譯面臨三大挑戰(zhàn)，即知識整合、可解釋/可視化和魯棒性。并針對上述三大挑戰(zhàn)做了團隊最新研究與突破工作介紹。

因為人類的語言不通，《圣經(jīng)》故事中的“巴別塔”沒能建成，以失敗告終。如何打破人類語言之間的屏障，也成為了人類一直希望解決的問題。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

世界語言分布地圖(來源：維基百科)

地址：

https://en./wiki/Linguistic_map

目前，世界上大概有6000多種語言，其中3000多種語言是具有數(shù)學(xué)體系的。正如上圖所示，可以看到不同國家、不同地區(qū)所說的語言是大不相同的。不同語言之間的交流存在非常多的問題，這些問題就是我們通常所說的“語言屏障”。

機器翻譯就是用來解決語言屏障問題非常關(guān)鍵的技術(shù)。

機器翻譯的概念已經(jīng)存在了幾個世紀，但直到20世紀50年代初才開始成為現(xiàn)實。從那以后，機器翻譯已經(jīng)取得了巨大的進步。

機器翻譯的主要任務(wù)就是把一種語言自動翻譯成另外一種語言，看上去就像是函數(shù)映射問題。但是其難點就在于語言本身的復(fù)雜性和種類的多樣性。

世界上的語言按形態(tài)分類可分為：屈折語、黏著語和孤立語。如何將這些語言進行轉(zhuǎn)換是機器翻譯要解決的重要問題(三種語言形態(tài)詳細內(nèi)容見文末)。

1990年以后，特別是互聯(lián)網(wǎng)出現(xiàn)以后，人們得到了大量的可讀文本、機讀文本，所以更傾向于使用數(shù)據(jù)進行機器翻譯。這段時期分兩個階段：

第一階段是使用傳統(tǒng)統(tǒng)計方法來(從1990年到2013年)，需要且依賴于人寫特征；
第二種階段是采用深度學(xué)習(xí)方法(從2013年至今)。這一階段不需要人寫特征就寫規(guī)則，再后來只需要寫框架即可。

越往后發(fā)展，人類參與程度越精煉。現(xiàn)在主流方法是數(shù)據(jù)驅(qū)動的方法。

到了2016年，機器翻譯在商業(yè)界基本采用都采用了機器學(xué)習(xí)。其核心思想就是用一個非常復(fù)雜的核心網(wǎng)絡(luò)，做非線性函數(shù)，把源語言投射到目標(biāo)語言。所以怎么設(shè)計這樣的一個函數(shù)，便成了是非常關(guān)鍵的問題。

5月30日，由北京智源人工智能研究院主辦的智源論壇第4期——《知識與認知圖譜》在清華大學(xué)順利舉辦。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

會中，清華大學(xué)計算機系長聘副教授、博士生導(dǎo)師、智能技術(shù)與系統(tǒng)實驗室主任劉洋老師做了《基于深度學(xué)習(xí)的機器翻譯》精彩報告。

針對上述機器翻譯現(xiàn)狀，劉洋老師認為，這種基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的方法面臨三個挑戰(zhàn)：

第一是知識整合(Knowledge incorporation)。如何將先驗知識整合到神經(jīng)機器翻譯(NMT)中?
第二是解釋性。如何解釋和理解NMT?
第三是魯棒性。如何使NMT對噪聲具有魯棒性?

對此，劉洋老師分別從上述三方面介紹了其研究重點與突破。

機器翻譯三大挑戰(zhàn)：知識整合

如何將知識加入到一些應(yīng)用系統(tǒng)中是非常熱門的一個話題。

劉洋老師表示，數(shù)據(jù)、知識和模型對于整個人工智能是非常要的，研究人員建立一個數(shù)學(xué)模型，從數(shù)據(jù)中學(xué)習(xí)參數(shù)，也是某種程度上只是的表示，用同樣的模型解決現(xiàn)實的問題。

而有的時候數(shù)據(jù)量是不夠的，例如愛斯基摩語和維語，幾乎是沒有數(shù)據(jù)可言。像這樣冷門小領(lǐng)域語言的翻譯，由于數(shù)據(jù)的稀缺，翻譯任務(wù)會變得非常棘手。因此可以考慮往里面加入知識。

雖然神經(jīng)機器翻譯近年來取得了很大的進展，但是如何將多個重疊的、任意先驗的知識資源整合起來仍然是一個挑戰(zhàn)。針對這個問題，劉洋老師及其團隊展開了研究。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

arXiv地址：

https:///pdf/1811.01100.pdf

在這項工作中，建議使用后驗正則化來提供一個將先驗知識整合到神經(jīng)機器翻譯中的通用框架。將先驗知識來源表示為一個對數(shù)線性模型的特征，該模型指導(dǎo)神經(jīng)翻譯模型的學(xué)習(xí)過程。漢英翻譯實驗表明，該方法取得了顯著的改進。

劉洋老師表示，希望能夠提供一種通用的框架，所有的知識都能往里加。因此這項工作把人類的知識表示成一個空間這是一個符號空間。

然后把深度學(xué)習(xí)的數(shù)字表示另外一個空間，嘗試把這兩個空間關(guān)聯(lián)起來，再通過人類的知識主導(dǎo)這個知識，把傳統(tǒng)知識都壓縮里面，讓它知道深度學(xué)習(xí)的過程，就能夠提供更好的通用框架。

在這項工作中，使用以下特性來編碼知識源。

雙語詞典(bilingual dictionary)：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

詞表(phrase table)：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

coverage penalty：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

這項工作與RNNsearch、CPR和PostReg做了比較，性能對比結(jié)果如下：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

與RNNsearch、CPR和PostReg的比較

機器翻譯三大挑戰(zhàn)：可解釋/可視化

第二個問題就是可解釋或者可視化的問題。

目前，在機器翻譯領(lǐng)域，神經(jīng)機器翻譯因為其較好的性能，已經(jīng)取代統(tǒng)計機器翻譯，成為實際上的主流方法。

大多數(shù)的神經(jīng)機器翻譯都是基于attention機制的encoder-decoder模型，然而這種模型在內(nèi)部傳遞的是浮點數(shù)，類似于“黑箱”，難以理解和調(diào)試。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

模型如“黑箱”，難以理解和調(diào)試

當(dāng)輸入一個句子和輸出一個句子時，并不知道其生成過程；當(dāng)出現(xiàn)錯誤時，也不知道是什么原因?qū)е碌摹?/p>

所以研究人員迫切希望能夠打開這個黑盒子，知道內(nèi)部信息怎么傳遞的，到底什么原因形成這樣一個錯誤。

針對這個問題，劉洋老師及其團隊針對這個問題進行了相應(yīng)工作。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

論文地址：

https:///anthology/P17-1106

這項工作主要的貢獻包括：

利用層級相關(guān)性傳播算法可視化分析神經(jīng)機器翻譯；
能夠計算任意隱狀態(tài)和任意contextual words的相關(guān)性，同時不要求神經(jīng)網(wǎng)絡(luò)中的函數(shù)必須可求偏導(dǎo)，不同于之前只有encoder和decoder隱層之間的對應(yīng)信息；
能夠針對機器翻譯中出錯的例子，進行分析。

最近關(guān)于解釋和可視化神經(jīng)模型的工作集中在計算輸入層上的單元對輸出層的最終決策的貢獻。例如，在圖像分類中，理解單個像素對分類器預(yù)測的貢獻是重要的。

而在這項工作中，團隊感興趣的是計算源和目標(biāo)詞對基于注意力的encoder-decoder框架中的內(nèi)部信息的貢獻。

如下圖所示，第三個目標(biāo)詞“York”的生成取決于源上下文（即源句“zai niuyue </ s>”）和目標(biāo)上下文（即部分翻譯“in New”）。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

從直觀上看，源詞“niuyue”和目標(biāo)詞“New”與“York”的關(guān)聯(lián)性更強，應(yīng)該比其他詞獲得更高的關(guān)聯(lián)性。問題是如何量化和可視化隱藏狀態(tài)和上下文詞向量之間的相關(guān)性。

研究人員使用逐層相關(guān)傳播(layer-wise relevance propagation，LRP)來計算神經(jīng)元水平相關(guān)性。使用下圖所示的簡單前饋網(wǎng)絡(luò)來說明LRP的核心思想。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

如果要計算 v₁和u₁之間的相關(guān)性，首先計算v₁ 和z₁、z₂之間的相關(guān)性，再將 v₁和z₁、 z₂的相關(guān)性傳遞到u₁，從而求得v₁和u₁之間的相關(guān)性。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

對神經(jīng)機器翻譯的LRP算法

通過這樣一種技術(shù)，能夠?qū)τ跈C器翻譯中所有的模型都進行可視化的分析。

劉洋老師表示，LRP能夠為Transformer生成相關(guān)矩陣。它本身是沒有辦法進行分析的，用了這個技術(shù)就可以把輸入、輸出以及內(nèi)部的關(guān)聯(lián)性用可視化的方式呈現(xiàn)出來，這樣可以更好分析運作機制。

團隊用在機器翻譯的錯誤分析上，分析了漏詞、重復(fù)翻譯、形成無關(guān)詞，還有否定的反轉(zhuǎn)。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

分析翻譯錯誤：詞的省略。第6個源詞“zhong”沒有被正確翻譯。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

分析翻譯錯誤：單詞重復(fù)。目標(biāo)詞“history”在翻譯中兩次出現(xiàn)錯誤。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

分析翻譯錯誤：不相關(guān)的詞。第9個目標(biāo)詞“forge”與源句完全無關(guān)。

分析翻譯錯誤：否定。第8個否定詞“bu”(not)不翻譯。

機器翻譯三大挑戰(zhàn)：魯棒性

第三個問題就是魯棒性。

有這樣一個例子，假設(shè)有一段譯文，輸入的是“《中國電子銀行業(yè)務(wù)管理新規(guī)》將于3月1日起施行”，若是一不小心把“中國”敲成“中方”，后面所有的譯文發(fā)生變化，劉洋老師稱之為蝴蝶效應(yīng)。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

這就是現(xiàn)在存在的一個較為現(xiàn)實的問題：輸入中的小擾動會嚴重扭曲中間表示，從而影響神經(jīng)機器翻譯（NMT）模型的翻譯質(zhì)量。

這是因為深度學(xué)習(xí)是一種全局關(guān)聯(lián)的模型，只要有一點點變化，就會牽一發(fā)而動全身，而這是非常糟糕的。

為了解決這個問題，劉洋老師團隊就針對此問題展開了研究。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

arXiv地址：

https:///pdf/1805.06130.pdf

在這項研究中，研究人員提出了通過對抗性穩(wěn)定性訓(xùn)練來提高NMT模型的魯棒性。

其基本思想是使NMT模型中的編碼器和解碼器對輸入擾動都具有魯棒性，使它們對原始輸入及其受擾動的對應(yīng)項具有類似的行為。

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

在這項工作中提出了兩種合成噪聲的產(chǎn)生方法。

Lexical level：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

feature level：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

在給定一個源字的情況下，它在向量空間中的鄰居可以選擇為一個有噪聲的字。

損失函數(shù)的影響以及主要的實驗結(jié)果如下：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

最后，劉洋老師給提供了針對神經(jīng)機器翻譯的開源工具包，有興趣的讀者可以訪問下方鏈接進行實驗：

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

開源工具包地址：

http://thumt./

附：三種語言形態(tài)詳細內(nèi)容

孤立語以中文為代表，它由各自獨立且具有完整意義的單詞，通過單純的疊加構(gòu)成文句。
黏著語以烏拉爾阿爾泰語系為中心，通過用助詞、助動詞將獨立的單詞連接起來，完成整個文章的陳述。
屈折語指的是歐洲語系，單詞本身隨著人稱、時態(tài)、格等發(fā)生復(fù)雜的形態(tài)變化。

參考資料：

https://en./wiki/Linguistic_map

https:///pdf/1811.01100.pdf

https:///anthology/P17-1106

https:///pdf/1805.06130.pdf

http://thumt./

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：黃元章3355 > 《科技藝術(shù)》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

黃元章3355

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 三星S4怎么刷機三星Galaxy S4刷機圖文教程
[轉(zhuǎn)] 三星手機詳細圖文刷機教程刷機軟件下載
頭腦腸腦才是全腦，大腦健康不能只看頭腦
落地干貨：平臺思維的模式本質(zhì)是什么？
拼多多賣家將內(nèi)容營銷轉(zhuǎn)化到店鋪的做法
人生成功需要能量，如何使自己充滿正能量？

喜歡該文的人也喜歡更多

熱門閱讀換一換

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

機器翻譯就是用來解決語言屏障問題非常關(guān)鍵的技術(shù)。

機器翻譯三大挑戰(zhàn)：知識整合

機器翻譯三大挑戰(zhàn)：可解釋/可視化

機器翻譯三大挑戰(zhàn)：魯棒性

附：三種語言形態(tài)詳細內(nèi)容

清華劉洋基于深度學(xué)習(xí)的機器翻譯突破知識整合、可解釋和魯棒性

機器翻譯就是用來解決語言屏障問題非常關(guān)鍵的技術(shù)。