點上方人工智能算法與Python大數(shù)據(jù)獲取更多干貨 在右上方 ··· 設(shè)為星標(biāo) ★,第一時間獲取資源 僅做學(xué)術(shù)分享,如有侵權(quán),聯(lián)系刪除 轉(zhuǎn)載于 :專知 自從 1950 年代開始,機器翻譯成為人工智能研究發(fā)展的重要任務(wù) 之一,經(jīng)歷了幾個不同時期和階段性發(fā)展,包括基于規(guī)則的方法、統(tǒng)計的方 法、和最近提出的基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。伴隨這幾個階段性飛躍的是機器 翻譯的評測研究與發(fā)展,尤其是評測方法在統(tǒng)計翻譯和神經(jīng)翻譯研究上所扮 演的重要角色。機器翻譯的評測任務(wù)不僅僅在于評價機器翻譯質(zhì)量,還在于及 時的反饋給機器翻譯研究人員機器翻譯本身存在的問題,如何去改進以及如 何去優(yōu)化。在一些實際的應(yīng)用領(lǐng)域,比如在沒有參考譯文的情況下,機器翻譯 的質(zhì)量估計更是起到重要的指示作用來揭示自動翻譯目標(biāo)譯文的可信度。這 份報告主要包括一下內(nèi)容:機器翻譯評測的簡史、研究方法分類、以及前沿的 進展,這其中包括人工評測、自動評測、和評測方法的評測(元評測)。人工評 測和自動評測包含基于參考譯文的和不需參考譯文參與的;自動評測方法包 括傳統(tǒng)字符串匹配、應(yīng)用句法和語義的模型、以及深度學(xué)習(xí)模型;評測方法的 評測包含估計人工評測的可信度、自動評測的可信度、和測試集的可信度等。前沿的評測方法進展包括基于任務(wù)的評測、基于大數(shù)據(jù)預(yù)訓(xùn)練的模型、以及應(yīng) 用蒸餾技術(shù)的輕便優(yōu)化模型。 https://www./paper/1a1dbb2ca0c5430b4de224253237f95d 機器翻譯 (machine translation) 的研究始于 1950 年代 [152],隸屬于機器智能 框架下的計算語言學(xué) (computational linguistics) 的一個重要分支。機器翻譯 經(jīng)歷了基于規(guī)則理論模型 (rule-based)、基于實例的方法 (example-based)、基 于概率統(tǒng)計學(xué) (statistical MT, SMT)、和近年來的基于機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的 方法 (neural MT, NMT) [18, 122, 32, 88, 33, 83, 151, 149, 91]。雖然機器翻譯 的質(zhì)量持續(xù)改進,自動翻譯的目標(biāo)譯文依然沒有真正達到人類翻譯專家的水平,這個現(xiàn)象在大部分語料對和不同領(lǐng)域的測試集上非常明顯,最近的研究包 括反應(yīng)普遍流行的翻譯測試集的狹隘性和文學(xué)領(lǐng)域 (literature domain) 機器 翻譯的表現(xiàn)很不佳 [95, 108, 77, 79]。因此,一如既往,機器翻譯的評測 (MT evaluation, MTE) 扮演著推動機器翻譯發(fā)展的重要角色 [77, 80]。機器翻譯質(zhì)量的評測本身是一個很有挑戰(zhàn)性的研究課題,這源于翻譯本身的多樣性、語言 的多變性和豐富性、以及語義相似度計算的復(fù)雜性。這份報告包括對人工評測、自動評測、和針對評測的評測(元評測)的介 紹、以及該領(lǐng)域一些前沿的研究進展,請參見圖1,其中還包括交叉性的研究 比如有人工參與的 Metric、以及 Metric 用于質(zhì)量估計的研究。圖1的上部分 框架還揭示這個元評測的理論圖也可應(yīng)用于大部分的自然語言處理評測任務(wù)、 不僅限于機器翻譯。 有關(guān)機器翻譯評測的國際賽事包括每年一屆的統(tǒng)計機器翻譯會議(WMT) [89, 21, 23, 24, 25, 26, 27, 12, 13, 14, 15, 16, 17, 8, 9, 10] 所組織的人工評 測、自動評測(Metrics)和質(zhì)量估計任務(wù)(QE),美國國家標(biāo)椎和技術(shù)機構(gòu) (NIST)組織的機器翻譯比賽 [100] 1,和語音語言技術(shù)國際研討會(IWSLT) [46, 124, 125, 49] 協(xié)辦的文本翻譯賽事;地區(qū)性的賽事包括中國機器翻譯研討會(CWMT)。這份報告的大部分方法來自對以上國際和地區(qū)性的評測賽事的 總結(jié)。從翻譯教學(xué)和翻譯工業(yè)應(yīng)用的角度,[138] 在 2005 年做了有關(guān)機器翻譯錯誤 分類的研究。歐洲機器翻譯研究聯(lián)合項目 EuroMatrix 于 2007 年的一份報 告簡介了人工評測和當(dāng)時流行的自動評測 [48]。美國國防先進研究項目機構(gòu) (DARPA)的 GALE 項目助攻機器翻譯并在 2009 年的一份匯報中介紹了自 動評測和半自動評測,包含基于任務(wù)的和有人工參與的評測方法,其中 HTER 是該項目主要信賴評測指標(biāo)。該報告還指出評測方法可用來機器翻譯參數(shù)的 優(yōu)化 [43]。2013 年歐洲機器翻譯會議(EAMT)的一份邀請報告闡述了該作 者所在機構(gòu)開發(fā)的 Asiya 在線機器翻譯錯誤分析平臺。同時還提及了機器翻 譯評測的簡史,包含基于詞面相似度的方法和語言學(xué)驅(qū)動的方法。這份報告區(qū) 別于以上工作,在人工評測、自動評測、和元評測上分別加以綜合介紹,并且 對近幾年的該領(lǐng)域研究進展進行更新講解。此報告是基于我們近期發(fā)表在 “翻 譯建模:數(shù)字時代的翻譯學(xué) (MoTra21) ” 國際研討會的工作 [80]。人工評測部分我們分兩個小節(jié)介紹傳統(tǒng)的方法和后續(xù)發(fā)展的方法,參見圖2。早期的機器翻譯人工評價標(biāo)準(zhǔn)始于美國自動語言處理指導(dǎo)委員會 (ALPAC) [28] 所制定的 “清晰度” 和 “保真度”。清晰度被定義為:盡最大可能地,翻譯文本應(yīng)該讀起來像正常的認(rèn)真寫出來的片段,并且容易理解,就像是一開始就 是用目標(biāo)語言所寫的。保真度被定義為:翻譯文本應(yīng)該盡小可能地對源語言 文本進行扭曲、歪曲、或者制造爭議。在 1990 年代,美國先進研究項目機構(gòu) (ARPA) 制定新的機器翻譯評測標(biāo) 準(zhǔn),包含流利度、忠實度、和理解力 [34]。這些標(biāo)準(zhǔn)被后續(xù)機器翻譯競賽所采 納 [154]。流利度反應(yīng)翻譯文本的句法和語法正確性和流暢性,流利度的判斷 不需要參考原文;忠實度反應(yīng)對原文的保真性,需要有源語言文本的指導(dǎo);理 解力反應(yīng)信息度也就是看一個機器翻譯系統(tǒng)能否輸出給用戶充分有效的和必 要的信息。最初的流利度和忠實度的設(shè)計包含五個不同等級;而對于理解力, 則設(shè)計了六個不同的問題讓專業(yè)評判者回答。由于流利度和忠實度的互補性和易用性,機器翻譯研究人員對這兩個指標(biāo) 進行了不同程度的應(yīng)用、修改和整合等。比如以 “準(zhǔn)確性” 作為整合的標(biāo)準(zhǔn),[7] 對準(zhǔn)確性加以分類,包括簡單字符串、生成字符串、和解析樹的準(zhǔn)確性。[133] 的工作進行了流利度和所需字?jǐn)?shù)的相關(guān)性計算來區(qū)分人工翻譯和機器翻譯。語 言數(shù)據(jù)集團 (LDC)2采用五個等級的流利度和忠實度來評估 NIST 的機器翻譯 比賽。其中對流利度的判斷除了語法要求,還包含了對習(xí)慣用詞(慣用語)的 選擇。[144] 則對忠實度進行了四個等級的劃分:非常、一般、較差、和完全不忠 實。非常 (highly): 翻譯文本非常信實的傳達原文意思;一般 (fairly): 翻譯文 本在傳達原文意思上一般表現(xiàn)一般,在字序、時態(tài)、語氣、數(shù)字等方面有問題, 或者存在重復(fù)、添加或遺漏字詞;較差 (poorly): 譯文沒有足夠反應(yīng)到原文意 思;完全不忠實 (completely not): 譯文沒有反應(yīng)原文的任何意思。后續(xù)和近期發(fā)展的人工評測歸為以下幾類:基于任務(wù) (task)、后編輯 (postediting)、新標(biāo)準(zhǔn)、子集排序 (segment-ranking)、眾籌平臺 (crowd-sourcing)、 和對傳統(tǒng)方法的回顧更新。這種分法是為了便捷需要,有的人工評測方法可以 涉及多個子類的交叉,比如基于任務(wù)和后編輯的兩個子類型。人工評測一直以來作為評測機器翻譯質(zhì)量的最終標(biāo)準(zhǔn),但是人工評測也存在 很多缺陷,比如耗時、昂貴、不可重復(fù) (抑或不可重用) 性、以及很多情況下 出現(xiàn)的人工評價人員之間的不一致性(主觀性)。因此自動評測方法成為技術(shù) 和實踐上的雙重需求。自動評價的產(chǎn)生伴隨著幾個不同的類型,包括需要參考 譯文的和不基于參考譯文的情況。在需要參考譯文的模型里又包括使用單個 參考譯文和多項參考譯文的類型 [103, 66, 80]?;趨⒖甲g文的自動翻譯評測 模型,多屬于計算自動譯文輸出和參考譯文之間的相似度來評價翻譯質(zhì)量。當(dāng) 然,語言相似度的計算是一個很有爭議、也很有挑戰(zhàn)性的問題,比如句法上、 語義上、風(fēng)格上、寫作領(lǐng)域和標(biāo)準(zhǔn)上的不同和變化等。不依賴于參考譯文的評 價模型大多依賴機器學(xué)習(xí)的特征模型,從源語言的原句字和目標(biāo)語言的譯文 里提取有效特征來估計譯文質(zhì)量、這些特征可以包括詞性、句法、語言模型等。與人工評價相比,自動評價的好處包括廉價、快速、可重復(fù)性、和可用來調(diào)整 和優(yōu)化機器翻譯的模型參數(shù)等。在本節(jié),我們將傳統(tǒng)的自動翻譯評價模型分為基于字符串匹配的(n-gram) 和應(yīng)用語言學(xué)特征的兩類。在字符串匹配的種類里又包括基于編輯距離、準(zhǔn)確 度和召回率、以及加強模型的。在語言學(xué)特征上我們把基于句法和語義的分兩 個子類。其中句法特征包括詞性、短語、句子結(jié)構(gòu)等,而語義特征包括命名體、 組合詞、同義詞、文本蘊含、釋義、語義角色、和語言模型等。我們將基于深 度學(xué)習(xí)和大規(guī)模預(yù)訓(xùn)練模型的評測方法歸為新近模型一類。在這一個領(lǐng)域,最 近又發(fā)展了優(yōu)化大數(shù)據(jù)和大模型花費的蒸餾模型??傆[見圖3。當(dāng)然這些分發(fā) 是為了介紹和理解的方便,部分自動評測模型也會涉及到多個子類里面、各個 子類也有時候會交叉,比如我們自己開發(fā)的 LEPOR、hLEPOR、和 nLEPOR 方法 [71, 74],將會在下文提到。在元評測這一節(jié),我們介紹針對評測方法的評測。這包括統(tǒng)計學(xué)重要性(也叫 顯著性差異, statistical significance),評價一致性 (agreement level),和評測 結(jié)果的相關(guān)系性數(shù),以及對不同評測指標(biāo)(metric)的相互比較等。首先,組合詞以及組合詞表達 (multiword-expressions, MWEs) 的識別是自然 語言處理的一個重要任務(wù),組合詞表達包含很多不同類別的詞語組合并且涵 蓋比喻、言語、成語等成分,在機器翻譯、自然語言處理 (NLP) 和評測任務(wù) 扮演著非常重要的角色 [135, 110, 121, 132, 77]。這反映在歷年的國際 MWE 研討會和近幾年該研討會組織的 MWE 識別任務(wù) [112, 111, 137]。因此,在此 方面與機器翻譯領(lǐng)域的兩個未來研究方向包括:1)組合詞表達的識別模型和 翻譯模型的結(jié)合;2)組合詞表達在機器翻譯評測里的應(yīng)用。 針對 1),目前在深度學(xué)習(xí)領(lǐng)域已有對 MWE 的可解析性 (decompositionality) 和可偵測性 (identification) 的前沿進展,比如 [64] 用神經(jīng)網(wǎng)絡(luò)對名詞構(gòu) 成詞的語義結(jié)構(gòu)研究,如何建立綜合的神經(jīng)網(wǎng)絡(luò)模型 (hybrid neural networks) 將 MWE 構(gòu)詞和解析研究與神經(jīng)機器翻譯兩個目前分開的神經(jīng)學(xué)習(xí)模型結(jié)合 起來,是一個非??尚械难芯空n題 (討論見 [78]),并且這種結(jié)合的模型訓(xùn)練將 有助于系統(tǒng)的總體優(yōu)化,比如使用機器學(xué)習(xí)里現(xiàn)有的先進的神經(jīng)網(wǎng)絡(luò)高等參 數(shù)優(yōu)化框架模型 (hyper-parameter optimisation framework, Optuna)[1]。針對 2),如何改進目前的廣泛使用又飽受批評的流行評測方法(如 BLEU),設(shè)計 新的評測模型,將語義評測合理囊括進評測系統(tǒng)里,這是一個很有挑戰(zhàn)性的課 題。而由于眾多 MWE 子類對語義的涉及(比如言語、成語、習(xí)語),其在翻 譯評測過程扮演了一個很重要的角色。這既可以是障礙(如歧義)、也可以是 助手。因此如何積極利用這一角色,發(fā)揮其優(yōu)勢是一個非??尚械难芯糠较?, 這包含相應(yīng)的多語種對齊語料建設(shè)、人工標(biāo)注、神經(jīng)網(wǎng)絡(luò)建模、和模型測試。 其次,篇章級別(context-aware)的機器翻譯評測是未來發(fā)展趨勢之一。目 前的評測方法,大都關(guān)注于句子級別的內(nèi)容。但是,從語言學(xué)角度觀察,一個 句子所在的環(huán)境(篇章背景)對本句子的理解起到至關(guān)重要的作用,尤其是含 有指代詞、和歧義詞的情況,如何更精確的去翻譯和評價翻譯的好壞,需要對 句子背后的信息有足夠的認(rèn)知掌握 [77]。這個研究方向在深度學(xué)習(xí)模型、以及 相應(yīng)的神經(jīng)語言模型出現(xiàn)后變得非??尚?。比如,目前成熟的深度學(xué)習(xí)模型可 以不止對句子級別進行詞到向量的轉(zhuǎn)化,并且還可以對跨句子和篇章級別的 內(nèi)容進行向量轉(zhuǎn)化 (sentences/paragraphs to vectors), 這樣,對文本和背景知 識的學(xué)習(xí)可以嵌入到評測系統(tǒng)里,作為模型學(xué)習(xí)的特征。 再次,基于具體任務(wù) (task-oriented) 的翻譯評測在機器翻譯的大流行下 變得越來越緊迫需要 [54],比如旅館預(yù)定的機器翻譯,由于該領(lǐng)域句子偏短 并且多附有表格填寫,會更側(cè)重于命名實體的翻譯準(zhǔn)確性如地名、機構(gòu)名、 人名(尤其外語人名的翻譯)等;再比如目前剛開始流行的多模態(tài)機器翻譯(multi-modal MT) 包括多模態(tài)圖片標(biāo)題生成和翻譯(image captioning MT) 任務(wù),這樣的情況下對多模態(tài) (image+text) 資源的利用變得非常必要。最后,無參考譯文的機器翻譯質(zhì)量估計(QE)是研究的一個重點 [145, 67]。由于在某些情境下參考譯文的缺失,比如地震災(zāi)害等情況下需要對當(dāng)?shù)卣Z言 進行多語種翻譯以提高營救效果,無參考譯文的質(zhì)量估計模型更加的適用于 現(xiàn)實的需求。這在 WMT 的歷史機器翻譯任務(wù)里有出現(xiàn)過。在其他情況,當(dāng)參 考譯文的獲得非常昂貴或者不實際時,沒有參考譯文的翻譯質(zhì)量信心估計也 是一個挑戰(zhàn)性的問題,比如現(xiàn)有的在線翻譯平臺軟件,很少有在提供用戶自動 翻譯譯文的同時提供翻譯質(zhì)量估計水平 (confidence estimation)。在未來機器 翻譯和評測的發(fā)展中,如何將翻譯和質(zhì)量估計同時提供給使用者是一個難題。這涉及到翻譯模型和質(zhì)量估計模型的同步學(xué)習(xí)訓(xùn)練。此文主在介紹機器翻譯評測的發(fā)展,內(nèi)容覆蓋人工評價模型、自動評價模型、 元評測(評價模型的評價)、以及對此方向的未來發(fā)展研究展望。在人工評價 和自動評價模型分塊分別簡要介紹了歷史性的方法和前沿的進展,這包含人 工評價里對 crowd-source 的應(yīng)用以及自動評價里對當(dāng)前的深度學(xué)習(xí)和預(yù)訓(xùn)練 模型的運用。在元評測部分我們探討了統(tǒng)計學(xué)中顯著性差異、可信度等在評 價里的應(yīng)用、以及不同的相關(guān)性系數(shù)比較。由于機器翻譯屬于自然語言處理 (NLP)的一個大的分支,涉及到自然語言理解 (NLU) 和自然語言生成 (NLG) 的其他不同子分支,我們希望這份綜合性評測報告也會有利于其他 NLP 相 關(guān)研究領(lǐng)域的推進、尤其在評測和質(zhì)量估計建模方面,比如這包括摘要生 成 (summarization) 的評測、圖像標(biāo)題生成 (image captioning) 的評測、釋義 (paraphrase) 和蘊含 (entailment) 的評測、信息提取 (information extraction) 的評測、代碼生成 (code generation) 的評測等。
|