【原】字節(jié)跳動(dòng)火山翻譯負(fù)責(zé)人：預(yù)訓(xùn)練時(shí)代的機(jī)器翻譯

Donews 2021-10-14

展開全文

2021年10月8日-10日，第十七屆全國(guó)機(jī)器翻譯大會(huì) (CCMT 2021) 在西寧舉行，字節(jié)跳動(dòng)火山翻譯團(tuán)隊(duì)技術(shù)和產(chǎn)品研發(fā)負(fù)責(zé)人王明軒以《預(yù)訓(xùn)練時(shí)代的機(jī)器翻譯》為題，闡述預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯的應(yīng)用。

工欲善其事，必先利其器?；鹕椒g能夠持續(xù)提供快速、穩(wěn)定、安全的翻譯服務(wù)，離不開團(tuán)隊(duì)對(duì)機(jī)器翻譯前沿技術(shù)的深刻探索。近年來(lái)，預(yù)訓(xùn)練技術(shù)在多個(gè)領(lǐng)域都取得了不小的成就，隨著深度學(xué)習(xí)的快速發(fā)展，面向自然語(yǔ)言處理領(lǐng)域的預(yù)訓(xùn)練技術(shù) (Pre-training) 也獲得了長(zhǎng)足的進(jìn)步，火山翻譯團(tuán)隊(duì)對(duì)于預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯的應(yīng)用也收獲了一些成果。

以下是王明軒演講全文：

這次我主要想介紹一下預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯的應(yīng)用。今天早上各位老師提供了非常好的座談會(huì)，對(duì)這方面已經(jīng)做了一些介紹；此外，剛才王瑞老師提及的監(jiān)督機(jī)器翻譯和預(yù)訓(xùn)練也有比較密切的聯(lián)系。那么我主要帶大家整體了解一下預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯里面有什么樣的應(yīng)用，因?yàn)闀r(shí)間關(guān)系，主要會(huì)聚焦在文本翻譯方面的預(yù)訓(xùn)練。

其實(shí)談到 NLP（Natural Language Processing, 自然語(yǔ)言處理），這兩三年以來(lái)最大的一個(gè)變化就是預(yù)訓(xùn)練。從 BERT（Bidirectional Encoder Representations from Transformers, 由 Google AI 研究院提出的一種預(yù)訓(xùn)練模型）到 GPT（Generative Pre-trained Transformer, 由 Open AI 提出的預(yù)訓(xùn)練語(yǔ)言模型）。從 NLP 到 CV (Computer Vision，計(jì)算機(jī)視覺(jué)) 再到 speech，他們?cè)谡麄€(gè)行業(yè)引起了一些翻天覆地的變化，可以說(shuō)是過(guò)去十年來(lái)最大的進(jìn)展。

預(yù)訓(xùn)練框架其實(shí)是一個(gè)非常簡(jiǎn)單但非常有效的思路，簡(jiǎn)單來(lái)說(shuō)，它本質(zhì)上也是一種監(jiān)督學(xué)習(xí)，即通過(guò)大量的、沒(méi)有標(biāo)簽的數(shù)據(jù)，來(lái)訓(xùn)練一個(gè)預(yù)訓(xùn)練模型，然后在下游任務(wù)上做 fine-tuning。其實(shí)這是一個(gè)非常簡(jiǎn)單的思路。它的一個(gè)優(yōu)點(diǎn)是泛化性非常強(qiáng)：一個(gè)預(yù)訓(xùn)練模型，可以在不同的下游任務(wù)上進(jìn)行適應(yīng)。今天我們這場(chǎng)講座其實(shí)并不是針對(duì)預(yù)訓(xùn)練，更多是探討預(yù)訓(xùn)練和機(jī)器翻譯結(jié)合會(huì)不會(huì)產(chǎn)生某種化學(xué)反應(yīng)。

今天我的講話內(nèi)容主要包含兩個(gè)部分，第一個(gè)部分是介紹單語(yǔ)的預(yù)訓(xùn)練模型，以及為什么預(yù)訓(xùn)練可能會(huì)對(duì)機(jī)器翻譯有作用。

機(jī)器翻譯的多語(yǔ)言預(yù)訓(xùn)練（Monolingual Pre-training for NMT）

這個(gè)是我畫的一個(gè)實(shí)體圖，主要用來(lái)介紹現(xiàn)今機(jī)器翻譯雙語(yǔ)、單語(yǔ)數(shù)據(jù)的大小。這個(gè)是現(xiàn)今的中英雙語(yǔ)數(shù)據(jù)，包括在商業(yè)系統(tǒng)里面，大概一億數(shù)據(jù)?？梢钥吹絾握Z(yǔ)數(shù)據(jù)是遠(yuǎn)遠(yuǎn)大于雙語(yǔ)數(shù)據(jù)的。因此，這么多數(shù)據(jù)怎么更好地被利用起來(lái)其實(shí)是一個(gè)非常值得關(guān)注的點(diǎn) 。

此外，我們將BERT出現(xiàn)之前與之后的數(shù)據(jù)量進(jìn)行對(duì)比。預(yù)訓(xùn)練其實(shí)是一個(gè)很古老的主題：在BERT之前，其實(shí)也有很多預(yù)訓(xùn)練的研究，早在2012年大家就已經(jīng)開始了這類工作。過(guò)去到現(xiàn)在發(fā)生了什么變化呢？如圖所示，過(guò)去的單語(yǔ)數(shù)據(jù)的量級(jí)比較小，而在 BERT 出現(xiàn)后數(shù)據(jù)量開始百倍增加，我認(rèn)為質(zhì)變可能是來(lái)自于數(shù)據(jù)這塊的增加。因此，我們今天的一個(gè)主題就是：機(jī)器翻譯能不能也利用上這么大規(guī)模的單語(yǔ)數(shù)據(jù)，或者通過(guò)預(yù)訓(xùn)練的技術(shù)把這部分的信息融合到翻譯里面。第一部分會(huì)分為兩節(jié)，第一節(jié)主要是把最近的幾個(gè)工作簡(jiǎn)單介紹一下，分為兩種類型，一種可以簡(jiǎn)單歸類為 BERT fusion model，也就是研究它如何和已有的預(yù)訓(xùn)練模型做結(jié)合。我們知道機(jī)器翻譯是一個(gè)端到端的模型，但是之前大家比較了解的一些模型像 BERT , GPT，這些都是一個(gè)理解模型，是一個(gè)language model。他們的模型和機(jī)器翻譯的模型不一樣，那么如何把這種異構(gòu)的網(wǎng)絡(luò)信息能夠更好地結(jié)合起來(lái)，可能是一部分探索的方向。同時(shí)還有一部分探索方向，就是怎么做一個(gè)端到端的預(yù)訓(xùn)練，然后把它應(yīng)用到機(jī)器翻譯里面。這是目前從單語(yǔ)的角度來(lái)看兩個(gè)大的應(yīng)用方向。

BERT 在機(jī)器翻譯里面發(fā)揮了什么作用？

關(guān)于第一個(gè)方向：BERT 在機(jī)器翻譯里面會(huì)起什么樣的一個(gè)作用？這塊我們大概會(huì)介紹三個(gè)工作，基本上都是2020年以后的研究，那么第一個(gè)是微軟早期的一個(gè)工作。他們提出，直接把 BERT 運(yùn)用到 NMT（Neural Machine Translation，神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯）里面，發(fā)現(xiàn)直接用它去做 initialize，并沒(méi)有那么有效，因?yàn)橐话銇?lái)說(shuō) BERT pre-training fine-tuning 的模型需要更新parameter 。團(tuán)隊(duì)甚至發(fā)現(xiàn) BERT-Frozen 可以把整個(gè)參數(shù)固定下來(lái)，可能取得的效果會(huì)更好，所以這個(gè)工作主要探討的是 BERT 怎么樣和 NMT 模型更好地結(jié)合起來(lái) ，他們提出這樣一個(gè)思路：把BERT的表示作為feature 加進(jìn)來(lái)。另外還提出一個(gè)框架，可以簡(jiǎn)單理解為雙encoder。一個(gè)encoder是BERT，一個(gè) encoder 是機(jī)器翻譯本身的 encoder，接著讓 decoder 同時(shí)去做 attention ，這樣的話等于 BERT 這部分信息就會(huì)被加進(jìn)去。這個(gè)是ICLR2020的工作，比較簡(jiǎn)潔有效。最后證明了 BERT-fused 在 rich resource 還有 low resource 的場(chǎng)景都取得了比較好的結(jié)果，另外也發(fā)現(xiàn)這種預(yù)訓(xùn)練對(duì)于無(wú)監(jiān)督的提升是非常大的。尤其當(dāng)數(shù)據(jù)量比較少，或者是沒(méi)有平行數(shù)據(jù)的時(shí)候，加了預(yù)訓(xùn)練可能會(huì)帶來(lái)質(zhì)變的提升，而且會(huì)讓整個(gè)模型都更容易訓(xùn)練。

這是另外一篇工作，由阿里和南京大學(xué)合作完成，他和上一個(gè)工作本質(zhì)上是比較接近的，但其中一個(gè)很大的不同點(diǎn)在于他做了一些 dynamic layers fusion，考慮到了把不同的 layer，即把 BERT 和 NMT 的 encoder 結(jié)合。另外一個(gè)不同點(diǎn)是：他們也在 decoder 做了一些嘗試，就是包括把 decoder 用 GPT 去做預(yù)訓(xùn)練。最后發(fā)現(xiàn)了一個(gè)簡(jiǎn)單的結(jié)論：encoder 用 BERT，decoder 用 GPT，這樣的提升是最顯著的。在 transformer base 的情況下，差不多有接近兩個(gè)點(diǎn)的、比較顯著的提升。

第三個(gè)是我們的工作。我簡(jiǎn)單介紹一下，我們的工作和前兩個(gè)不一樣的地方，是我們更關(guān)注于怎么在不改變模型的架構(gòu)的情況下，也就是仍然用 BERT 做 initialize 進(jìn)行 fine-tuning。最簡(jiǎn)單的一個(gè)思路就是我們不把 BERT tuning 得太多。在 tuning 的過(guò)程中就引入了 continue learning 的一些方法，就讓 BERT 的 knowledge 和 NMT 的 knowledge 都能夠同時(shí)保存，為此我們采用了一些具體的方法，結(jié)果也得到了比較大的提升。該模型已經(jīng)開源，大家有興趣的話可以在網(wǎng)上查詢到相關(guān)細(xì)節(jié)。

這些思路，其實(shí)還有一個(gè)問(wèn)題，我們可以看到前面幾個(gè)工作，主要是集中在BERT pre-train，就是對(duì) decoder，包括 GPT 的應(yīng)用其實(shí)是相對(duì)比較弱的。但從事機(jī)器翻譯的同學(xué)其實(shí)都明白，target of language model 是非常重要的，或者說(shuō) target 的數(shù)據(jù)其實(shí)甚至是比 source 都要重要。那怎么能夠把類似于 language model 或者 GPT model 等用到 NMT 模型里面是我們非常需要關(guān)注的一個(gè)點(diǎn)。這塊的一個(gè)挑戰(zhàn)在于，decoder 的分布是不一樣的。如果直接用 GPT 預(yù)訓(xùn)練一個(gè)機(jī)器翻譯模型的話，會(huì)發(fā)現(xiàn)中間的 cross attention 沒(méi)有辦法預(yù)訓(xùn)練，那么每一層的輸出就不一樣了。

這種初始化其實(shí)效果不是特別好，所以我們今年在 EMNLP 會(huì)議上發(fā)表了一個(gè)比較簡(jiǎn)單的工作，就是 encoder 用 BERT， decoder 用 GPT，用 grafting 作為嫁接模型。中間再用類似的 adaptor 把它連接起來(lái)。因?yàn)?encoder 是一個(gè)多語(yǔ)言 BERT，decoder 是一個(gè)多語(yǔ)言 GPT，我們可以不考慮初始化，直接把多語(yǔ)言 GPT 的 attention 去掉，然后在上面再結(jié)合 cause attention。這樣的好處是整個(gè)模型能夠完全地保留 encoder 和 decoder 的信息，然后用少量的數(shù)據(jù)就能得到一個(gè)非常好的結(jié)果。上面講述的主要是一種 fusion style，我們?cè)趺窗堰@種表示、生成，結(jié)合到機(jī)器翻譯里面？

如何設(shè)計(jì)一種端到端預(yù)訓(xùn)練模型應(yīng)用于機(jī)器翻譯

當(dāng)然，這塊還有另外一種類型的工作，類似 MASS (Masked Sequence to Sequence Pre-training for Language Generation) 或者 BERT。他們其實(shí)是采取了一個(gè)不一樣的思路：他們保證了模型結(jié)構(gòu)的一致性來(lái)預(yù)訓(xùn)練一個(gè)端到端模型。這樣的一個(gè)好處在于，我們接下來(lái)做模型 fine-tuning 的話結(jié)構(gòu)是一致的，整個(gè)模型、參數(shù)等會(huì)比較簡(jiǎn)單，不需要去考慮模型結(jié)構(gòu)不一致的問(wèn)題，結(jié)果也比較簡(jiǎn)單。

為了驗(yàn)證效果，我們?cè)跓o(wú)監(jiān)督的機(jī)器翻譯上做了驗(yàn)證，其實(shí)效果是非常好的，基本上提升是七到八個(gè)點(diǎn)，但是在 rich resource 上的提升是比較有限的。此外，這個(gè)工作可能還有一個(gè) cross-lingual 的問(wèn)題。因?yàn)槲覀冎?，機(jī)器翻譯至少涉及兩個(gè)語(yǔ)言，比如說(shuō)中英翻譯。那么我們?nèi)绻糜⒄Z(yǔ)去預(yù)訓(xùn)練一個(gè)英語(yǔ)的 MASS，其實(shí)中文部分是沒(méi)有辦法很好地被預(yù)訓(xùn)練的。也就是其實(shí)整個(gè)模型雖然結(jié)構(gòu)上一致了，但本質(zhì)上也只有大概一半以上的參數(shù)被初始化，有一部分參數(shù)還是沒(méi)有做好的，此外它的上下游的目標(biāo)也不一致。端到端的預(yù)訓(xùn)練更多是一個(gè) autoencoder 對(duì)自編碼，而沒(méi)有考慮 language transfer，所以也不一定是最好的結(jié)構(gòu)。類似的一個(gè)工作還有 BART，它其實(shí)和 MASS 本質(zhì)上比較接近。最大的區(qū)別是 MASS 包含一些更復(fù)雜的過(guò)程。它不只是做 mask，還關(guān)注了包括輸入文本做 random shuffle 等細(xì)節(jié)。最后這個(gè)工作在 low resource 上，包括在 unsupervised results 上做了一些驗(yàn)證，效果也比較好。

簡(jiǎn)單地做一個(gè)總結(jié)，第一部分講了兩塊，一塊是 fused style，就是把多個(gè)模塊結(jié)合起來(lái)，比如把 BERT 把 GPT 放到 NMT 里面，怎么做能更好地結(jié)合；一種是做預(yù)訓(xùn)練的端到端模型。主要是這兩塊的工作，剛才也提到，這兩塊都有它的一些局限性。

Fused model 的這種局限性主要是指整個(gè)模型比較復(fù)雜，往往需要改變網(wǎng)絡(luò)結(jié)構(gòu)，訓(xùn)練也沒(méi)有那么穩(wěn)定。對(duì)于端到端模型，其實(shí)它使用起來(lái)非常方便，但缺點(diǎn)在于上下游任務(wù)不一致，所以就不一定把這個(gè)語(yǔ)言的信息用到了最大。此外，這是個(gè)單語(yǔ)模型，沒(méi)有辦法擴(kuò)展到雙語(yǔ)的場(chǎng)景。就好比用英語(yǔ)去訓(xùn)練一個(gè)預(yù)訓(xùn)練模型，放到中英機(jī)器翻譯里面，中文部分的信息是沒(méi)有被充分考慮到的。所以接下來(lái)我們就會(huì)討論這兩年的一些在多語(yǔ)言預(yù)訓(xùn)練的一些探索。

機(jī)器翻譯的多語(yǔ)言預(yù)訓(xùn)練（Multilingual Pre-training for NMT）

因?yàn)闄C(jī)器翻譯本身就是一個(gè)多語(yǔ)言的問(wèn)題，多語(yǔ)言機(jī)器翻譯預(yù)訓(xùn)練也是一件非常自然的事情。這塊的話，我們還是分兩個(gè)部分去講，一部分是關(guān)于 fused 的預(yù)訓(xùn)練，一部分是多語(yǔ)言的端到端預(yù)訓(xùn)練，這一塊也會(huì)有一些不同的思路。

比如多語(yǔ)言模型，雖然模型一樣，但大家研究的側(cè)重點(diǎn)更多的是集中在 knowledge transfer，就是指不同的語(yǔ)言其實(shí)分享了同樣的 knowledge。比如說(shuō)中文和英文，因?yàn)榇蠹叶忌钤诘厍蛏?，我們可能用不同的語(yǔ)言去描述同一個(gè)世界，所以這些知識(shí)理論上是可以轉(zhuǎn)換的。當(dāng)然，人其實(shí)也有一個(gè)直覺(jué)，我們會(huì)發(fā)現(xiàn)很多語(yǔ)言學(xué)家在學(xué)過(guò)兩種語(yǔ)言之后，學(xué)第三種語(yǔ)言會(huì)越來(lái)越快，甚至一些非常有天賦的人可以學(xué)八種語(yǔ)言。他們學(xué)語(yǔ)言的時(shí)候其實(shí)是會(huì)不斷的去學(xué)習(xí)語(yǔ)言中的共性然后適應(yīng)。所以我們?cè)诳紤]語(yǔ)言之間是不是能夠也尋找到這種共性然后學(xué)習(xí)。

這個(gè)是NeuIPS比較早期的工作：Cross-lingual Language Model Pretraining。它的思路是：是否能夠把相同語(yǔ)義的句子表示到同一個(gè)空間里面。因?yàn)閱为?dú)的模型中不同語(yǔ)義的句子其實(shí)是表示在不同空間里面的。這是一個(gè)例子：通過(guò)不斷地去拉齊語(yǔ)義的表示達(dá)到目標(biāo)。然后剛才王瑞老師也提及了，我就不再多講，就是一個(gè)多語(yǔ)言預(yù)訓(xùn)練模型，這個(gè)模型其實(shí)比較簡(jiǎn)單。它沿用BERT的思路，把前半句翻譯成英文后半句翻譯成法語(yǔ)，一起去訓(xùn)練一個(gè) mask predict model。因?yàn)橥N語(yǔ)義的英語(yǔ)和法語(yǔ)被放在了一個(gè) context 里面，模型希望通過(guò) context 能夠比較隱式地去學(xué)習(xí)這種語(yǔ)言的貢獻(xiàn)信息，最后把相似的東西表示在一塊。

最后這項(xiàng)工作做了較多實(shí)驗(yàn)，主要集中在 low resource 和無(wú)監(jiān)督，具體的實(shí)驗(yàn)結(jié)果這里就不再詳細(xì)介紹，但其中有兩個(gè) ablation study 的結(jié)論是非常有趣的。一個(gè)是增加更多的語(yǔ)言，對(duì) low resource 的提升非常顯著。在我們要翻譯一些很冷門的語(yǔ)言對(duì)時(shí)，比如說(shuō)從英語(yǔ)到印地語(yǔ)，增加更多的語(yǔ)言對(duì)其實(shí)是對(duì)low resource有較大的提升幫助的。但是增加更多的語(yǔ)言對(duì)有可能會(huì)降低 rich resource 的結(jié)果。為什么會(huì)降低 rich resource 的結(jié)果？我覺(jué)得本質(zhì)可能還是因?yàn)?model capacity 不夠，也就是說(shuō)這個(gè)模型空間是有限的，rich resource 本身資源已經(jīng)比較充分了。所以這一塊的話就需要引入更大的模型。說(shuō)明多語(yǔ)言之間是能夠很好的去學(xué)習(xí) share knowledge 的。

接下來(lái)的這個(gè)工作是微軟的另外一個(gè)研究，這個(gè)工作比較上一個(gè)，有一些不一樣的地方。不一樣的地方是上一個(gè)工作是在句子的維度做了mix，上半句放中文，下半句放法語(yǔ)，然后把它放在一起。希望他們的context 能夠?qū)R，是潛在的。而微軟的這個(gè)工作是在做一個(gè) language model：我們希望模型對(duì)于英文的下半句的預(yù)測(cè)不一定是英文，因而我們會(huì)去做一些替換，像“calls for 新的勞工”。其實(shí)就是把中文和英文混在一起，讓英文去預(yù)測(cè)中文。該模型中，詞本身就是它的 contaxt，它的表示來(lái)自于contaxt，那么“新的勞工”和 "calls for action" 這種關(guān)系就會(huì)被建立起來(lái)。甚至于“新的勞工”可能和其對(duì)應(yīng)的英文表達(dá) "fresh industrial action" 也能夠?qū)R。它其實(shí)是一個(gè) Alternating language model，當(dāng)然這塊的話側(cè)重的是一個(gè) language model。最后對(duì)結(jié)果可視化，發(fā)現(xiàn)從詞的級(jí)別來(lái)看這種模型確實(shí)是能夠把距離拉近的。

還有一個(gè)類似的工作——mBART。mBART 的思路和前兩個(gè)不太一樣，如果用一個(gè)詞一句話來(lái)總結(jié)，我覺(jué)得就是：“大力出奇跡。”也就是說(shuō)做的事情是非常簡(jiǎn)單的，它本質(zhì)上還是把所有的語(yǔ)言放在一起去做預(yù)訓(xùn)練，你可以理解為一個(gè)多語(yǔ)言MASS或者多語(yǔ)言 BERT。我們不需要雙語(yǔ)數(shù)據(jù)，只需把英語(yǔ) 、法語(yǔ)、德語(yǔ)幾十種數(shù)據(jù)全部放在一起，然后做一個(gè) auto-encoder，然后再去下游任務(wù)做 fine-tuning ，那么他希望隱式的，比如 model 本身不同的語(yǔ)言都有相同的阿拉伯?dāng)?shù)字，或者有一些東西本身就是隱式的，能夠?qū)W習(xí)不同語(yǔ)言之間的 share 的表示。最后它的規(guī)模非常大，引入了可能有二十幾倍的 BERT 的數(shù)據(jù)量，做了一個(gè)很大的多語(yǔ)言 BERT。最后在非常多的任務(wù)上，尤其在 low resource 上可能有三到十個(gè)點(diǎn)的提升。

同期類似的工作還有 Code-switching pretraining，當(dāng)然這個(gè)也是完整地沿用了 MASS 的結(jié)構(gòu)。它和 MASS 唯一的區(qū)別點(diǎn)在于 MASS 是 mask 來(lái) predict ，模型把 mask 的 token 替換成了其他語(yǔ)言。所以就也是一個(gè) Code-switching 的結(jié)構(gòu)。

同期我們完成了 mRASP 工作，也是同期工作，做的規(guī)模要大很多。我們把多種語(yǔ)言混在一起去做預(yù)訓(xùn)練。這些語(yǔ)言會(huì)有比較豐富的 code-switching，最后可以把所有的語(yǔ)言距離拉近。最后得到的一個(gè)結(jié)果，即 rich resource 和 low resource 都能被映射到一個(gè)空間，那么 low resource 就能更好地借助 rich resource。而且在下游 fine-tuning速度也是非常快的，即能夠一定程度上減少 pretraining knowledge loss 的一個(gè)問(wèn)題。以前用 BERT 之類的進(jìn)行預(yù)訓(xùn)練，最后做 fine-tuning 時(shí)往往需要花費(fèi)兩三天。那么用端到端預(yù)訓(xùn)練的模型可能只需兩三個(gè)小時(shí)就可以完成fine-tuning。那么它的災(zāi)難性遺忘問(wèn)題其實(shí)也會(huì)潛在地被緩解。

在這個(gè)基礎(chǔ)上，在今年的 ACL2021 會(huì)議，我們也做了一個(gè) unsupervised 的，或者說(shuō) contrast learning 來(lái)進(jìn)行預(yù)訓(xùn)練。我們的正例可能是 parallel 的，cross-lingual 的句子，反例可能讓模型去區(qū)分不同語(yǔ)言，不再做數(shù)據(jù)增強(qiáng)，那么最后也能夠得到一個(gè)統(tǒng)一的表示。另外，我們的框架跟之前的一個(gè)區(qū)別點(diǎn)在于，不論是單語(yǔ)還是多語(yǔ)言數(shù)據(jù)，都能放到一個(gè)框架里。這個(gè)模型的一個(gè)潛在優(yōu)點(diǎn)在于，即使不做 fine-tuning，效果也挺好的。當(dāng)然，做了 fine-tuning 則會(huì)有進(jìn)一步提升，細(xì)節(jié)就不展開描述了。

從整體來(lái)看，在 rich resource, low resource，甚至 zero-shot 的情況下表現(xiàn)都不錯(cuò)。關(guān)于 zero-shot 在這里稍微多提一句，我們發(fā)現(xiàn)一個(gè)很有趣的點(diǎn)：把所有的語(yǔ)言進(jìn)行對(duì)齊之后，模型就潛在具備了這種 zero-shot 的能力。也就是說(shuō)，我們訓(xùn)練數(shù)據(jù)里沒(méi)有法語(yǔ)到德語(yǔ)的平行數(shù)據(jù)，但我們當(dāng)我們把德語(yǔ)和英語(yǔ)、法語(yǔ)和英語(yǔ)映射到一起后，這個(gè) model 直接得出的法語(yǔ)和德語(yǔ)的翻譯效果居然還不錯(cuò)，基本上能夠接近于 pure。這種方式得到的 bleu 差距在一個(gè)點(diǎn)以內(nèi)，我覺(jué)得幾乎已經(jīng)達(dá)到可用的狀態(tài)。

最后我們簡(jiǎn)單地做一個(gè)總結(jié)，其實(shí)今天圍繞文本翻譯主要講了兩塊，第一部分是如何在多語(yǔ)言的場(chǎng)景下，怎么盡可能用更多的單語(yǔ)數(shù)據(jù)來(lái)幫助機(jī)器翻譯。這里有兩種方式，一種是把已經(jīng)訓(xùn)練好的或者最強(qiáng)的，類似于 BERT, GPT 這類單獨(dú)訓(xùn)練的 model 嘗試用到機(jī)器翻譯里。另一種場(chǎng)景：嘗試針對(duì)機(jī)器翻譯，端到端設(shè)計(jì)一種預(yù)訓(xùn)練模型，然后和機(jī)器翻譯比較好地結(jié)合起來(lái)。

第二部分主要是介紹，多語(yǔ)言預(yù)訓(xùn)練最重要的一個(gè)點(diǎn)在于：它更多的不是依靠增加單語(yǔ)數(shù)據(jù)，而是學(xué)習(xí)一種 universal的 knowledge，即實(shí)現(xiàn)不同語(yǔ)言的表示，只要語(yǔ)義是接近的，他們就能有相似的表示。其實(shí)，不管對(duì) low resource 還是 rich resource 其實(shí)都會(huì)有非常大的幫助。

因?yàn)闀r(shí)間關(guān)系，今天的介紹就主要到這里，謝謝大家。

聲明：本站轉(zhuǎn)載此文目的在于傳遞更多信息，并不代表贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除內(nèi)容,本網(wǎng)站對(duì)此聲明具有最終解釋權(quán)。

/news/detail/4/3176229.html