一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

最新2022綜述 | 機器翻譯評測研究

 漢無為 2022-04-03

點上方人工智能算法與Python大數(shù)據(jù)獲取更多干貨

在右上方 ··· 設(shè)為星標(biāo) ,第一時間獲取資源

僅做學(xué)術(shù)分享,如有侵權(quán),聯(lián)系刪除

轉(zhuǎn)載于 :專知

圖片

自從 1950 年代開始,機器翻譯成為人工智能研究發(fā)展的重要任務(wù) 之一,經(jīng)歷了幾個不同時期和階段性發(fā)展,包括基于規(guī)則的方法、統(tǒng)計的方 法、和最近提出的基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。伴隨這幾個階段性飛躍的是機器 翻譯的評測研究與發(fā)展,尤其是評測方法在統(tǒng)計翻譯和神經(jīng)翻譯研究上所扮 演的重要角色。機器翻譯的評測任務(wù)不僅僅在于評價機器翻譯質(zhì)量,還在于及 時的反饋給機器翻譯研究人員機器翻譯本身存在的問題,如何去改進以及如 何去優(yōu)化。在一些實際的應(yīng)用領(lǐng)域,比如在沒有參考譯文的情況下,機器翻譯 的質(zhì)量估計更是起到重要的指示作用來揭示自動翻譯目標(biāo)譯文的可信度。這 份報告主要包括一下內(nèi)容:機器翻譯評測的簡史、研究方法分類、以及前沿的 進展,這其中包括人工評測、自動評測、和評測方法的評測(元評測)。人工評 測和自動評測包含基于參考譯文的和不需參考譯文參與的;自動評測方法包 括傳統(tǒng)字符串匹配、應(yīng)用句法和語義的模型、以及深度學(xué)習(xí)模型;評測方法的 評測包含估計人工評測的可信度、自動評測的可信度、和測試集的可信度等。前沿的評測方法進展包括基于任務(wù)的評測、基于大數(shù)據(jù)預(yù)訓(xùn)練的模型、以及應(yīng) 用蒸餾技術(shù)的輕便優(yōu)化模型。

https://www./paper/1a1dbb2ca0c5430b4de224253237f95d

1 簡介 

機器翻譯 (machine translation) 的研究始于 1950 年代 [152],隸屬于機器智能 框架下的計算語言學(xué) (computational linguistics) 的一個重要分支。機器翻譯 經(jīng)歷了基于規(guī)則理論模型 (rule-based)、基于實例的方法 (example-based)、基 于概率統(tǒng)計學(xué) (statistical MT, SMT)、和近年來的基于機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的 方法 (neural MT, NMT) [18, 122, 32, 88, 33, 83, 151, 149, 91]。雖然機器翻譯 的質(zhì)量持續(xù)改進,自動翻譯的目標(biāo)譯文依然沒有真正達到人類翻譯專家的水平,這個現(xiàn)象在大部分語料對和不同領(lǐng)域的測試集上非常明顯,最近的研究包 括反應(yīng)普遍流行的翻譯測試集的狹隘性和文學(xué)領(lǐng)域 (literature domain) 機器 翻譯的表現(xiàn)很不佳 [95, 108, 77, 79]。因此,一如既往,機器翻譯的評測 (MT evaluation, MTE) 扮演著推動機器翻譯發(fā)展的重要角色 [77, 80]。機器翻譯質(zhì)量的評測本身是一個很有挑戰(zhàn)性的研究課題,這源于翻譯本身的多樣性、語言 的多變性和豐富性、以及語義相似度計算的復(fù)雜性。

這份報告包括對人工評測、自動評測、和針對評測的評測(元評測)的介 紹、以及該領(lǐng)域一些前沿的研究進展,請參見圖1,其中還包括交叉性的研究 比如有人工參與的 Metric、以及 Metric 用于質(zhì)量估計的研究。圖1的上部分 框架還揭示這個元評測的理論圖也可應(yīng)用于大部分的自然語言處理評測任務(wù)、 不僅限于機器翻譯。 

圖片


有關(guān)機器翻譯評測的國際賽事包括每年一屆的統(tǒng)計機器翻譯會議(WMT) [89, 21, 23, 24, 25, 26, 27, 12, 13, 14, 15, 16, 17, 8, 9, 10] 所組織的人工評 測、自動評測(Metrics)和質(zhì)量估計任務(wù)(QE),美國國家標(biāo)椎和技術(shù)機構(gòu) (NIST)組織的機器翻譯比賽 [100] 1,和語音語言技術(shù)國際研討會(IWSLT) [46, 124, 125, 49] 協(xié)辦的文本翻譯賽事;地區(qū)性的賽事包括中國機器翻譯研討會(CWMT)。這份報告的大部分方法來自對以上國際和地區(qū)性的評測賽事的 總結(jié)。

2 相關(guān)工作 

從翻譯教學(xué)和翻譯工業(yè)應(yīng)用的角度,[138] 在 2005 年做了有關(guān)機器翻譯錯誤 分類的研究。歐洲機器翻譯研究聯(lián)合項目 EuroMatrix 于 2007 年的一份報 告簡介了人工評測和當(dāng)時流行的自動評測 [48]。美國國防先進研究項目機構(gòu) (DARPA)的 GALE 項目助攻機器翻譯并在 2009 年的一份匯報中介紹了自 動評測和半自動評測,包含基于任務(wù)的和有人工參與的評測方法,其中 HTER 是該項目主要信賴評測指標(biāo)。該報告還指出評測方法可用來機器翻譯參數(shù)的 優(yōu)化 [43]。2013 年歐洲機器翻譯會議(EAMT)的一份邀請報告闡述了該作 者所在機構(gòu)開發(fā)的 Asiya 在線機器翻譯錯誤分析平臺。同時還提及了機器翻 譯評測的簡史,包含基于詞面相似度的方法和語言學(xué)驅(qū)動的方法。這份報告區(qū) 別于以上工作,在人工評測、自動評測、和元評測上分別加以綜合介紹,并且 對近幾年的該領(lǐng)域研究進展進行更新講解。此報告是基于我們近期發(fā)表在 “翻 譯建模:數(shù)字時代的翻譯學(xué) (MoTra21) ” 國際研討會的工作 [80]。

3 人工評測 

人工評測部分我們分兩個小節(jié)介紹傳統(tǒng)的方法和后續(xù)發(fā)展的方法,參見圖2。

圖片


3.1 傳統(tǒng)方法 

早期的機器翻譯人工評價標(biāo)準(zhǔn)始于美國自動語言處理指導(dǎo)委員會 (ALPAC) [28] 所制定的 “清晰度” 和 “保真度”。清晰度被定義為:盡最大可能地,翻譯文本應(yīng)該讀起來像正常的認(rèn)真寫出來的片段,并且容易理解,就像是一開始就 是用目標(biāo)語言所寫的。保真度被定義為:翻譯文本應(yīng)該盡小可能地對源語言 文本進行扭曲、歪曲、或者制造爭議。

在 1990 年代,美國先進研究項目機構(gòu) (ARPA) 制定新的機器翻譯評測標(biāo) 準(zhǔn),包含流利度、忠實度、和理解力 [34]。這些標(biāo)準(zhǔn)被后續(xù)機器翻譯競賽所采 納 [154]。流利度反應(yīng)翻譯文本的句法和語法正確性和流暢性,流利度的判斷 不需要參考原文;忠實度反應(yīng)對原文的保真性,需要有源語言文本的指導(dǎo);理 解力反應(yīng)信息度也就是看一個機器翻譯系統(tǒng)能否輸出給用戶充分有效的和必 要的信息。最初的流利度和忠實度的設(shè)計包含五個不同等級;而對于理解力, 則設(shè)計了六個不同的問題讓專業(yè)評判者回答。由于流利度和忠實度的互補性和易用性,機器翻譯研究人員對這兩個指標(biāo) 進行了不同程度的應(yīng)用、修改和整合等。比如以 “準(zhǔn)確性” 作為整合的標(biāo)準(zhǔn),[7] 對準(zhǔn)確性加以分類,包括簡單字符串、生成字符串、和解析樹的準(zhǔn)確性。[133] 的工作進行了流利度和所需字?jǐn)?shù)的相關(guān)性計算來區(qū)分人工翻譯和機器翻譯。語 言數(shù)據(jù)集團 (LDC)2采用五個等級的流利度和忠實度來評估 NIST 的機器翻譯 比賽。其中對流利度的判斷除了語法要求,還包含了對習(xí)慣用詞(慣用語)的 選擇。

[144] 則對忠實度進行了四個等級的劃分:非常、一般、較差、和完全不忠 實。非常 (highly): 翻譯文本非常信實的傳達原文意思;一般 (fairly): 翻譯文 本在傳達原文意思上一般表現(xiàn)一般,在字序、時態(tài)、語氣、數(shù)字等方面有問題, 或者存在重復(fù)、添加或遺漏字詞;較差 (poorly): 譯文沒有足夠反應(yīng)到原文意 思;完全不忠實 (completely not): 譯文沒有反應(yīng)原文的任何意思。

3.2 后續(xù)發(fā)展 

后續(xù)和近期發(fā)展的人工評測歸為以下幾類:基于任務(wù) (task)、后編輯 (postediting)、新標(biāo)準(zhǔn)、子集排序 (segment-ranking)、眾籌平臺 (crowd-sourcing)、 和對傳統(tǒng)方法的回顧更新。這種分法是為了便捷需要,有的人工評測方法可以 涉及多個子類的交叉,比如基于任務(wù)和后編輯的兩個子類型。

4 自動評測 

人工評測一直以來作為評測機器翻譯質(zhì)量的最終標(biāo)準(zhǔn),但是人工評測也存在 很多缺陷,比如耗時、昂貴、不可重復(fù) (抑或不可重用) 性、以及很多情況下 出現(xiàn)的人工評價人員之間的不一致性(主觀性)。因此自動評測方法成為技術(shù) 和實踐上的雙重需求。自動評價的產(chǎn)生伴隨著幾個不同的類型,包括需要參考 譯文的和不基于參考譯文的情況。在需要參考譯文的模型里又包括使用單個 參考譯文和多項參考譯文的類型 [103, 66, 80]?;趨⒖甲g文的自動翻譯評測 模型,多屬于計算自動譯文輸出和參考譯文之間的相似度來評價翻譯質(zhì)量。當(dāng) 然,語言相似度的計算是一個很有爭議、也很有挑戰(zhàn)性的問題,比如句法上、 語義上、風(fēng)格上、寫作領(lǐng)域和標(biāo)準(zhǔn)上的不同和變化等。不依賴于參考譯文的評 價模型大多依賴機器學(xué)習(xí)的特征模型,從源語言的原句字和目標(biāo)語言的譯文 里提取有效特征來估計譯文質(zhì)量、這些特征可以包括詞性、句法、語言模型等。與人工評價相比,自動評價的好處包括廉價、快速、可重復(fù)性、和可用來調(diào)整 和優(yōu)化機器翻譯的模型參數(shù)等。

圖片

在本節(jié),我們將傳統(tǒng)的自動翻譯評價模型分為基于字符串匹配的(n-gram) 和應(yīng)用語言學(xué)特征的兩類。在字符串匹配的種類里又包括基于編輯距離、準(zhǔn)確 度和召回率、以及加強模型的。在語言學(xué)特征上我們把基于句法和語義的分兩 個子類。其中句法特征包括詞性、短語、句子結(jié)構(gòu)等,而語義特征包括命名體、 組合詞、同義詞、文本蘊含、釋義、語義角色、和語言模型等。我們將基于深 度學(xué)習(xí)和大規(guī)模預(yù)訓(xùn)練模型的評測方法歸為新近模型一類。在這一個領(lǐng)域,最 近又發(fā)展了優(yōu)化大數(shù)據(jù)和大模型花費的蒸餾模型??傆[見圖3。當(dāng)然這些分發(fā) 是為了介紹和理解的方便,部分自動評測模型也會涉及到多個子類里面、各個 子類也有時候會交叉,比如我們自己開發(fā)的 LEPOR、hLEPOR、和 nLEPOR 方法 [71, 74],將會在下文提到。

5 元評測 (評測的評測) 

在元評測這一節(jié),我們介紹針對評測方法的評測。這包括統(tǒng)計學(xué)重要性(也叫 顯著性差異, statistical significance),評價一致性 (agreement level),和評測 結(jié)果的相關(guān)系性數(shù),以及對不同評測指標(biāo)(metric)的相互比較等。

6 未來展望及研究方向 

首先,組合詞以及組合詞表達 (multiword-expressions, MWEs) 的識別是自然 語言處理的一個重要任務(wù),組合詞表達包含很多不同類別的詞語組合并且涵 蓋比喻、言語、成語等成分,在機器翻譯、自然語言處理 (NLP) 和評測任務(wù) 扮演著非常重要的角色 [135, 110, 121, 132, 77]。這反映在歷年的國際 MWE 研討會和近幾年該研討會組織的 MWE 識別任務(wù) [112, 111, 137]。因此,在此 方面與機器翻譯領(lǐng)域的兩個未來研究方向包括:1)組合詞表達的識別模型和 翻譯模型的結(jié)合;2)組合詞表達在機器翻譯評測里的應(yīng)用。 

針對 1),目前在深度學(xué)習(xí)領(lǐng)域已有對 MWE 的可解析性 (decompositionality) 和可偵測性 (identification) 的前沿進展,比如 [64] 用神經(jīng)網(wǎng)絡(luò)對名詞構(gòu) 成詞的語義結(jié)構(gòu)研究,如何建立綜合的神經(jīng)網(wǎng)絡(luò)模型 (hybrid neural networks) 將 MWE 構(gòu)詞和解析研究與神經(jīng)機器翻譯兩個目前分開的神經(jīng)學(xué)習(xí)模型結(jié)合 起來,是一個非??尚械难芯空n題 (討論見 [78]),并且這種結(jié)合的模型訓(xùn)練將 有助于系統(tǒng)的總體優(yōu)化,比如使用機器學(xué)習(xí)里現(xiàn)有的先進的神經(jīng)網(wǎng)絡(luò)高等參 數(shù)優(yōu)化框架模型 (hyper-parameter optimisation framework, Optuna)[1]。

針對 2),如何改進目前的廣泛使用又飽受批評的流行評測方法(如 BLEU),設(shè)計 新的評測模型,將語義評測合理囊括進評測系統(tǒng)里,這是一個很有挑戰(zhàn)性的課 題。而由于眾多 MWE 子類對語義的涉及(比如言語、成語、習(xí)語),其在翻 譯評測過程扮演了一個很重要的角色。這既可以是障礙(如歧義)、也可以是 助手。因此如何積極利用這一角色,發(fā)揮其優(yōu)勢是一個非??尚械难芯糠较?, 這包含相應(yīng)的多語種對齊語料建設(shè)、人工標(biāo)注、神經(jīng)網(wǎng)絡(luò)建模、和模型測試。 

其次,篇章級別(context-aware)的機器翻譯評測是未來發(fā)展趨勢之一。目 前的評測方法,大都關(guān)注于句子級別的內(nèi)容。但是,從語言學(xué)角度觀察,一個 句子所在的環(huán)境(篇章背景)對本句子的理解起到至關(guān)重要的作用,尤其是含 有指代詞、和歧義詞的情況,如何更精確的去翻譯和評價翻譯的好壞,需要對 句子背后的信息有足夠的認(rèn)知掌握 [77]。這個研究方向在深度學(xué)習(xí)模型、以及 相應(yīng)的神經(jīng)語言模型出現(xiàn)后變得非??尚?。比如,目前成熟的深度學(xué)習(xí)模型可 以不止對句子級別進行詞到向量的轉(zhuǎn)化,并且還可以對跨句子和篇章級別的 內(nèi)容進行向量轉(zhuǎn)化 (sentences/paragraphs to vectors), 這樣,對文本和背景知 識的學(xué)習(xí)可以嵌入到評測系統(tǒng)里,作為模型學(xué)習(xí)的特征。 

再次,基于具體任務(wù) (task-oriented) 的翻譯評測在機器翻譯的大流行下 變得越來越緊迫需要 [54],比如旅館預(yù)定的機器翻譯,由于該領(lǐng)域句子偏短 并且多附有表格填寫,會更側(cè)重于命名實體的翻譯準(zhǔn)確性如地名、機構(gòu)名、 人名(尤其外語人名的翻譯)等;再比如目前剛開始流行的多模態(tài)機器翻譯(multi-modal MT) 包括多模態(tài)圖片標(biāo)題生成和翻譯(image captioning MT) 任務(wù),這樣的情況下對多模態(tài) (image+text) 資源的利用變得非常必要。最后,無參考譯文的機器翻譯質(zhì)量估計(QE)是研究的一個重點 [145, 67]。由于在某些情境下參考譯文的缺失,比如地震災(zāi)害等情況下需要對當(dāng)?shù)卣Z言 進行多語種翻譯以提高營救效果,無參考譯文的質(zhì)量估計模型更加的適用于 現(xiàn)實的需求。這在 WMT 的歷史機器翻譯任務(wù)里有出現(xiàn)過。在其他情況,當(dāng)參 考譯文的獲得非常昂貴或者不實際時,沒有參考譯文的翻譯質(zhì)量信心估計也 是一個挑戰(zhàn)性的問題,比如現(xiàn)有的在線翻譯平臺軟件,很少有在提供用戶自動 翻譯譯文的同時提供翻譯質(zhì)量估計水平 (confidence estimation)。在未來機器 翻譯和評測的發(fā)展中,如何將翻譯和質(zhì)量估計同時提供給使用者是一個難題。這涉及到翻譯模型和質(zhì)量估計模型的同步學(xué)習(xí)訓(xùn)練。

7 結(jié)語 

此文主在介紹機器翻譯評測的發(fā)展,內(nèi)容覆蓋人工評價模型、自動評價模型、 元評測(評價模型的評價)、以及對此方向的未來發(fā)展研究展望。在人工評價 和自動評價模型分塊分別簡要介紹了歷史性的方法和前沿的進展,這包含人 工評價里對 crowd-source 的應(yīng)用以及自動評價里對當(dāng)前的深度學(xué)習(xí)和預(yù)訓(xùn)練 模型的運用。在元評測部分我們探討了統(tǒng)計學(xué)中顯著性差異、可信度等在評 價里的應(yīng)用、以及不同的相關(guān)性系數(shù)比較。由于機器翻譯屬于自然語言處理 (NLP)的一個大的分支,涉及到自然語言理解 (NLU) 和自然語言生成 (NLG) 的其他不同子分支,我們希望這份綜合性評測報告也會有利于其他 NLP 相 關(guān)研究領(lǐng)域的推進、尤其在評測和質(zhì)量估計建模方面,比如這包括摘要生 成 (summarization) 的評測、圖像標(biāo)題生成 (image captioning) 的評測、釋義 (paraphrase) 和蘊含 (entailment) 的評測、信息提取 (information extraction) 的評測、代碼生成 (code generation) 的評測等。

---------?---------

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产精品亚洲精品亚洲| 日本99精品在线观看| 午夜精品久久久免费视频| 国产国产精品精品在线| 一区二区福利在线视频| 国产成人精品国内自产拍| 高跟丝袜av在线一区二区三区| 丰满熟女少妇一区二区三区| 久久99亚洲小姐精品综合| 午夜亚洲少妇福利诱惑| 91香蕉国产观看免费人人| 中文字幕亚洲人妻在线视频| 欧美加勒比一区二区三区| 日本不卡在线视频你懂的| 亚洲黄色在线观看免费高清| 日韩精品一区二区三区射精 | 亚洲专区中文字幕视频| 国产欧美一区二区三区精品视| 免费在线观看欧美喷水黄片| 亚洲一区二区福利在线| 中文字幕高清免费日韩视频| 亚洲最新一区二区三区| 国产成人精品一区二区在线看| 久久亚洲精品中文字幕| 国产综合香蕉五月婷在线| 亚洲国产精品肉丝袜久久| 国产精品欧美一区二区三区| 日韩精品免费一区二区三区| 高清一区二区三区不卡免费| 草草夜色精品国产噜噜竹菊| 国产白丝粉嫩av在线免费观看| 亚洲精品一区二区三区日韩| 欧美精品专区一区二区| 激情爱爱一区二区三区| 亚洲一区二区三区三州| 欧美尤物在线观看西比尔| 老熟妇乱视频一区二区| 夜夜嗨激情五月天精品| 国自产拍偷拍福利精品图片| 香港国产三级久久精品三级| 字幕日本欧美一区二区|