最新2022綜述 | 機器翻譯評測研究

漢無為 2022-04-03

展開全文

點上方人工智能算法與Python大數(shù)據(jù)獲取更多干貨

在右上方 ··· 設(shè)為星標(biāo) ★，第一時間獲取資源

僅做學(xué)術(shù)分享，如有侵權(quán)，聯(lián)系刪除

轉(zhuǎn)載于：專知

自從 1950 年代開始，機器翻譯成為人工智能研究發(fā)展的重要任務(wù) 之一，經(jīng)歷了幾個不同時期和階段性發(fā)展，包括基于規(guī)則的方法、統(tǒng)計的方法、和最近提出的基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。伴隨這幾個階段性飛躍的是機器翻譯的評測研究與發(fā)展，尤其是評測方法在統(tǒng)計翻譯和神經(jīng)翻譯研究上所扮演的重要角色。機器翻譯的評測任務(wù)不僅僅在于評價機器翻譯質(zhì)量，還在于及時的反饋給機器翻譯研究人員機器翻譯本身存在的問題，如何去改進以及如何去優(yōu)化。在一些實際的應(yīng)用領(lǐng)域，比如在沒有參考譯文的情況下，機器翻譯的質(zhì)量估計更是起到重要的指示作用來揭示自動翻譯目標(biāo)譯文的可信度。這份報告主要包括一下內(nèi)容：機器翻譯評測的簡史、研究方法分類、以及前沿的進展，這其中包括人工評測、自動評測、和評測方法的評測（元評測）。人工評測和自動評測包含基于參考譯文的和不需參考譯文參與的；自動評測方法包括傳統(tǒng)字符串匹配、應(yīng)用句法和語義的模型、以及深度學(xué)習(xí)模型；評測方法的評測包含估計人工評測的可信度、自動評測的可信度、和測試集的可信度等。前沿的評測方法進展包括基于任務(wù)的評測、基于大數(shù)據(jù)預(yù)訓(xùn)練的模型、以及應(yīng) 用蒸餾技術(shù)的輕便優(yōu)化模型。

https://www./paper/1a1dbb2ca0c5430b4de224253237f95d

1 簡介

機器翻譯 (machine translation) 的研究始于 1950 年代 [152]，隸屬于機器智能框架下的計算語言學(xué) (computational linguistics) 的一個重要分支。機器翻譯經(jīng)歷了基于規(guī)則理論模型 (rule-based)、基于實例的方法 (example-based)、基于概率統(tǒng)計學(xué) (statistical MT, SMT)、和近年來的基于機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的方法 (neural MT, NMT) [18, 122, 32, 88, 33, 83, 151, 149, 91]。雖然機器翻譯的質(zhì)量持續(xù)改進，自動翻譯的目標(biāo)譯文依然沒有真正達到人類翻譯專家的水平，這個現(xiàn)象在大部分語料對和不同領(lǐng)域的測試集上非常明顯，最近的研究包括反應(yīng)普遍流行的翻譯測試集的狹隘性和文學(xué)領(lǐng)域 (literature domain) 機器翻譯的表現(xiàn)很不佳 [95, 108, 77, 79]。因此，一如既往，機器翻譯的評測 (MT evaluation, MTE) 扮演著推動機器翻譯發(fā)展的重要角色 [77, 80]。機器翻譯質(zhì)量的評測本身是一個很有挑戰(zhàn)性的研究課題，這源于翻譯本身的多樣性、語言的多變性和豐富性、以及語義相似度計算的復(fù)雜性。

這份報告包括對人工評測、自動評測、和針對評測的評測（元評測）的介紹、以及該領(lǐng)域一些前沿的研究進展，請參見圖1，其中還包括交叉性的研究比如有人工參與的 Metric、以及 Metric 用于質(zhì)量估計的研究。圖1的上部分框架還揭示這個元評測的理論圖也可應(yīng)用于大部分的自然語言處理評測任務(wù)、不僅限于機器翻譯。

有關(guān)機器翻譯評測的國際賽事包括每年一屆的統(tǒng)計機器翻譯會議（WMT） [89, 21, 23, 24, 25, 26, 27, 12, 13, 14, 15, 16, 17, 8, 9, 10] 所組織的人工評測、自動評測（Metrics）和質(zhì)量估計任務(wù)（QE），美國國家標(biāo)椎和技術(shù)機構(gòu) （NIST）組織的機器翻譯比賽 [100] 1，和語音語言技術(shù)國際研討會（IWSLT） [46, 124, 125, 49] 協(xié)辦的文本翻譯賽事；地區(qū)性的賽事包括中國機器翻譯研討會（CWMT）。這份報告的大部分方法來自對以上國際和地區(qū)性的評測賽事的總結(jié)。

2 相關(guān)工作

從翻譯教學(xué)和翻譯工業(yè)應(yīng)用的角度，[138] 在 2005 年做了有關(guān)機器翻譯錯誤分類的研究。歐洲機器翻譯研究聯(lián)合項目 EuroMatrix 于 2007 年的一份報告簡介了人工評測和當(dāng)時流行的自動評測 [48]。美國國防先進研究項目機構(gòu) （DARPA）的 GALE 項目助攻機器翻譯并在 2009 年的一份匯報中介紹了自動評測和半自動評測，包含基于任務(wù)的和有人工參與的評測方法，其中 HTER 是該項目主要信賴評測指標(biāo)。該報告還指出評測方法可用來機器翻譯參數(shù)的優(yōu)化 [43]。2013 年歐洲機器翻譯會議（EAMT）的一份邀請報告闡述了該作者所在機構(gòu)開發(fā)的 Asiya 在線機器翻譯錯誤分析平臺。同時還提及了機器翻譯評測的簡史，包含基于詞面相似度的方法和語言學(xué)驅(qū)動的方法。這份報告區(qū) 別于以上工作，在人工評測、自動評測、和元評測上分別加以綜合介紹，并且對近幾年的該領(lǐng)域研究進展進行更新講解。此報告是基于我們近期發(fā)表在 “翻譯建模：數(shù)字時代的翻譯學(xué) (MoTra21) ” 國際研討會的工作 [80]。

3 人工評測

人工評測部分我們分兩個小節(jié)介紹傳統(tǒng)的方法和后續(xù)發(fā)展的方法，參見圖2。

3.1 傳統(tǒng)方法

早期的機器翻譯人工評價標(biāo)準(zhǔn)始于美國自動語言處理指導(dǎo)委員會 (ALPAC) [28] 所制定的 “清晰度” 和 “保真度”。清晰度被定義為：盡最大可能地，翻譯文本應(yīng)該讀起來像正常的認(rèn)真寫出來的片段，并且容易理解，就像是一開始就是用目標(biāo)語言所寫的。保真度被定義為：翻譯文本應(yīng)該盡小可能地對源語言文本進行扭曲、歪曲、或者制造爭議。

在 1990 年代，美國先進研究項目機構(gòu) (ARPA) 制定新的機器翻譯評測標(biāo) 準(zhǔn)，包含流利度、忠實度、和理解力 [34]。這些標(biāo)準(zhǔn)被后續(xù)機器翻譯競賽所采納 [154]。流利度反應(yīng)翻譯文本的句法和語法正確性和流暢性，流利度的判斷不需要參考原文；忠實度反應(yīng)對原文的保真性，需要有源語言文本的指導(dǎo)；理解力反應(yīng)信息度也就是看一個機器翻譯系統(tǒng)能否輸出給用戶充分有效的和必要的信息。最初的流利度和忠實度的設(shè)計包含五個不同等級；而對于理解力，則設(shè)計了六個不同的問題讓專業(yè)評判者回答。由于流利度和忠實度的互補性和易用性，機器翻譯研究人員對這兩個指標(biāo) 進行了不同程度的應(yīng)用、修改和整合等。比如以 “準(zhǔn)確性” 作為整合的標(biāo)準(zhǔn)，[7] 對準(zhǔn)確性加以分類，包括簡單字符串、生成字符串、和解析樹的準(zhǔn)確性。[133] 的工作進行了流利度和所需字?jǐn)?shù)的相關(guān)性計算來區(qū)分人工翻譯和機器翻譯。語言數(shù)據(jù)集團 (LDC)2采用五個等級的流利度和忠實度來評估 NIST 的機器翻譯比賽。其中對流利度的判斷除了語法要求，還包含了對習(xí)慣用詞（慣用語）的選擇。

[144] 則對忠實度進行了四個等級的劃分：非常、一般、較差、和完全不忠實。非常 (highly): 翻譯文本非常信實的傳達原文意思；一般 (fairly): 翻譯文本在傳達原文意思上一般表現(xiàn)一般，在字序、時態(tài)、語氣、數(shù)字等方面有問題，或者存在重復(fù)、添加或遺漏字詞；較差 (poorly): 譯文沒有足夠反應(yīng)到原文意思；完全不忠實 (completely not): 譯文沒有反應(yīng)原文的任何意思。

3.2 后續(xù)發(fā)展

后續(xù)和近期發(fā)展的人工評測歸為以下幾類：基于任務(wù) (task)、后編輯 (postediting)、新標(biāo)準(zhǔn)、子集排序 (segment-ranking)、眾籌平臺 (crowd-sourcing)、和對傳統(tǒng)方法的回顧更新。這種分法是為了便捷需要，有的人工評測方法可以涉及多個子類的交叉，比如基于任務(wù)和后編輯的兩個子類型。

4 自動評測

人工評測一直以來作為評測機器翻譯質(zhì)量的最終標(biāo)準(zhǔn)，但是人工評測也存在很多缺陷，比如耗時、昂貴、不可重復(fù) (抑或不可重用) 性、以及很多情況下出現(xiàn)的人工評價人員之間的不一致性（主觀性）。因此自動評測方法成為技術(shù) 和實踐上的雙重需求。自動評價的產(chǎn)生伴隨著幾個不同的類型，包括需要參考譯文的和不基于參考譯文的情況。在需要參考譯文的模型里又包括使用單個參考譯文和多項參考譯文的類型 [103, 66, 80]?；趨⒖甲g文的自動翻譯評測模型，多屬于計算自動譯文輸出和參考譯文之間的相似度來評價翻譯質(zhì)量。當(dāng) 然，語言相似度的計算是一個很有爭議、也很有挑戰(zhàn)性的問題，比如句法上、語義上、風(fēng)格上、寫作領(lǐng)域和標(biāo)準(zhǔn)上的不同和變化等。不依賴于參考譯文的評價模型大多依賴機器學(xué)習(xí)的特征模型，從源語言的原句字和目標(biāo)語言的譯文里提取有效特征來估計譯文質(zhì)量、這些特征可以包括詞性、句法、語言模型等。與人工評價相比，自動評價的好處包括廉價、快速、可重復(fù)性、和可用來調(diào)整和優(yōu)化機器翻譯的模型參數(shù)等。

在本節(jié)，我們將傳統(tǒng)的自動翻譯評價模型分為基于字符串匹配的（n-gram）和應(yīng)用語言學(xué)特征的兩類。在字符串匹配的種類里又包括基于編輯距離、準(zhǔn)確度和召回率、以及加強模型的。在語言學(xué)特征上我們把基于句法和語義的分兩個子類。其中句法特征包括詞性、短語、句子結(jié)構(gòu)等，而語義特征包括命名體、組合詞、同義詞、文本蘊含、釋義、語義角色、和語言模型等。我們將基于深度學(xué)習(xí)和大規(guī)模預(yù)訓(xùn)練模型的評測方法歸為新近模型一類。在這一個領(lǐng)域，最近又發(fā)展了優(yōu)化大數(shù)據(jù)和大模型花費的蒸餾模型?？傆[見圖3。當(dāng)然這些分發(fā) 是為了介紹和理解的方便，部分自動評測模型也會涉及到多個子類里面、各個子類也有時候會交叉，比如我們自己開發(fā)的 LEPOR、hLEPOR、和 nLEPOR 方法 [71, 74]，將會在下文提到。

5 元評測 (評測的評測)

在元評測這一節(jié)，我們介紹針對評測方法的評測。這包括統(tǒng)計學(xué)重要性（也叫顯著性差異, statistical significance），評價一致性 (agreement level)，和評測結(jié)果的相關(guān)系性數(shù)，以及對不同評測指標(biāo)（metric）的相互比較等。

6 未來展望及研究方向

首先，組合詞以及組合詞表達 (multiword-expressions, MWEs) 的識別是自然語言處理的一個重要任務(wù)，組合詞表達包含很多不同類別的詞語組合并且涵蓋比喻、言語、成語等成分，在機器翻譯、自然語言處理 (NLP) 和評測任務(wù) 扮演著非常重要的角色 [135, 110, 121, 132, 77]。這反映在歷年的國際 MWE 研討會和近幾年該研討會組織的 MWE 識別任務(wù) [112, 111, 137]。因此，在此方面與機器翻譯領(lǐng)域的兩個未來研究方向包括：1）組合詞表達的識別模型和翻譯模型的結(jié)合；2）組合詞表達在機器翻譯評測里的應(yīng)用。

針對 1），目前在深度學(xué)習(xí)領(lǐng)域已有對 MWE 的可解析性 (decompositionality) 和可偵測性 (identification) 的前沿進展，比如 [64] 用神經(jīng)網(wǎng)絡(luò)對名詞構(gòu) 成詞的語義結(jié)構(gòu)研究，如何建立綜合的神經(jīng)網(wǎng)絡(luò)模型 (hybrid neural networks) 將 MWE 構(gòu)詞和解析研究與神經(jīng)機器翻譯兩個目前分開的神經(jīng)學(xué)習(xí)模型結(jié)合起來，是一個非?？尚械难芯空n題 (討論見 [78])，并且這種結(jié)合的模型訓(xùn)練將有助于系統(tǒng)的總體優(yōu)化，比如使用機器學(xué)習(xí)里現(xiàn)有的先進的神經(jīng)網(wǎng)絡(luò)高等參數(shù)優(yōu)化框架模型 (hyper-parameter optimisation framework, Optuna)[1]。

針對 2），如何改進目前的廣泛使用又飽受批評的流行評測方法（如 BLEU），設(shè)計新的評測模型，將語義評測合理囊括進評測系統(tǒng)里，這是一個很有挑戰(zhàn)性的課題。而由于眾多 MWE 子類對語義的涉及（比如言語、成語、習(xí)語），其在翻譯評測過程扮演了一個很重要的角色。這既可以是障礙（如歧義）、也可以是助手。因此如何積極利用這一角色，發(fā)揮其優(yōu)勢是一個非?？尚械难芯糠较?，這包含相應(yīng)的多語種對齊語料建設(shè)、人工標(biāo)注、神經(jīng)網(wǎng)絡(luò)建模、和模型測試。

其次，篇章級別（context-aware）的機器翻譯評測是未來發(fā)展趨勢之一。目前的評測方法，大都關(guān)注于句子級別的內(nèi)容。但是，從語言學(xué)角度觀察，一個句子所在的環(huán)境（篇章背景）對本句子的理解起到至關(guān)重要的作用，尤其是含有指代詞、和歧義詞的情況，如何更精確的去翻譯和評價翻譯的好壞，需要對句子背后的信息有足夠的認(rèn)知掌握 [77]。這個研究方向在深度學(xué)習(xí)模型、以及相應(yīng)的神經(jīng)語言模型出現(xiàn)后變得非?？尚?。比如，目前成熟的深度學(xué)習(xí)模型可以不止對句子級別進行詞到向量的轉(zhuǎn)化，并且還可以對跨句子和篇章級別的內(nèi)容進行向量轉(zhuǎn)化 (sentences/paragraphs to vectors), 這樣，對文本和背景知識的學(xué)習(xí)可以嵌入到評測系統(tǒng)里，作為模型學(xué)習(xí)的特征。

再次，基于具體任務(wù) (task-oriented) 的翻譯評測在機器翻譯的大流行下變得越來越緊迫需要 [54]，比如旅館預(yù)定的機器翻譯，由于該領(lǐng)域句子偏短并且多附有表格填寫，會更側(cè)重于命名實體的翻譯準(zhǔn)確性如地名、機構(gòu)名、人名（尤其外語人名的翻譯）等；再比如目前剛開始流行的多模態(tài)機器翻譯(multi-modal MT) 包括多模態(tài)圖片標(biāo)題生成和翻譯（image captioning MT）任務(wù)，這樣的情況下對多模態(tài) (image+text) 資源的利用變得非常必要。最后，無參考譯文的機器翻譯質(zhì)量估計（QE）是研究的一個重點 [145, 67]。由于在某些情境下參考譯文的缺失，比如地震災(zāi)害等情況下需要對當(dāng)?shù)卣Z言進行多語種翻譯以提高營救效果，無參考譯文的質(zhì)量估計模型更加的適用于現(xiàn)實的需求。這在 WMT 的歷史機器翻譯任務(wù)里有出現(xiàn)過。在其他情況，當(dāng)參考譯文的獲得非常昂貴或者不實際時，沒有參考譯文的翻譯質(zhì)量信心估計也是一個挑戰(zhàn)性的問題，比如現(xiàn)有的在線翻譯平臺軟件，很少有在提供用戶自動翻譯譯文的同時提供翻譯質(zhì)量估計水平 (confidence estimation)。在未來機器翻譯和評測的發(fā)展中，如何將翻譯和質(zhì)量估計同時提供給使用者是一個難題。這涉及到翻譯模型和質(zhì)量估計模型的同步學(xué)習(xí)訓(xùn)練。

7 結(jié)語

此文主在介紹機器翻譯評測的發(fā)展，內(nèi)容覆蓋人工評價模型、自動評價模型、元評測（評價模型的評價）、以及對此方向的未來發(fā)展研究展望。在人工評價和自動評價模型分塊分別簡要介紹了歷史性的方法和前沿的進展，這包含人工評價里對 crowd-source 的應(yīng)用以及自動評價里對當(dāng)前的深度學(xué)習(xí)和預(yù)訓(xùn)練模型的運用。在元評測部分我們探討了統(tǒng)計學(xué)中顯著性差異、可信度等在評價里的應(yīng)用、以及不同的相關(guān)性系數(shù)比較。由于機器翻譯屬于自然語言處理（NLP）的一個大的分支，涉及到自然語言理解 (NLU) 和自然語言生成 (NLG) 的其他不同子分支，我們希望這份綜合性評測報告也會有利于其他 NLP 相關(guān)研究領(lǐng)域的推進、尤其在評測和質(zhì)量估計建模方面，比如這包括摘要生成 (summarization) 的評測、圖像標(biāo)題生成 (image captioning) 的評測、釋義 (paraphrase) 和蘊含 (entailment) 的評測、信息提取 (information extraction) 的評測、代碼生成 (code generation) 的評測等。

---------?---------