2021年10月8日-10日,第十七屆全國(guó)機(jī)器翻譯大會(huì) (CCMT 2021) 在西寧舉行,字節(jié)跳動(dòng)火山翻譯團(tuán)隊(duì)技術(shù)和產(chǎn)品研發(fā)負(fù)責(zé)人王明軒以《預(yù)訓(xùn)練時(shí)代的機(jī)器翻譯》為題,闡述預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯的應(yīng)用。 工欲善其事,必先利其器?;鹕椒g能夠持續(xù)提供快速、穩(wěn)定、安全的翻譯服務(wù),離不開團(tuán)隊(duì)對(duì)機(jī)器翻譯前沿技術(shù)的深刻探索。近年來(lái),預(yù)訓(xùn)練技術(shù)在多個(gè)領(lǐng)域都取得了不小的成就,隨著深度學(xué)習(xí)的快速發(fā)展,面向自然語(yǔ)言處理領(lǐng)域的預(yù)訓(xùn)練技術(shù) (Pre-training) 也獲得了長(zhǎng)足的進(jìn)步,火山翻譯團(tuán)隊(duì)對(duì)于預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯的應(yīng)用也收獲了一些成果。 以下是王明軒演講全文: 這次我主要想介紹一下預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯的應(yīng)用。今天早上各位老師提供了非常好的座談會(huì),對(duì)這方面已經(jīng)做了一些介紹;此外,剛才王瑞老師提及的監(jiān)督機(jī)器翻譯和預(yù)訓(xùn)練也有比較密切的聯(lián)系。那么我主要帶大家整體了解一下預(yù)訓(xùn)練技術(shù)在機(jī)器翻譯里面有什么樣的應(yīng)用,因?yàn)闀r(shí)間關(guān)系,主要會(huì)聚焦在文本翻譯方面的預(yù)訓(xùn)練。 其實(shí)談到 NLP(Natural Language Processing, 自然語(yǔ)言處理),這兩三年以來(lái)最大的一個(gè)變化就是預(yù)訓(xùn)練。從 BERT(Bidirectional Encoder Representations from Transformers, 由 Google AI 研究院提出的一種預(yù)訓(xùn)練模型)到 GPT(Generative Pre-trained Transformer, 由 Open AI 提出的預(yù)訓(xùn)練語(yǔ)言模型)。從 NLP 到 CV (Computer Vision,計(jì)算機(jī)視覺(jué)) 再到 speech,他們?cè)谡麄€(gè)行業(yè)引起了一些翻天覆地的變化,可以說(shuō)是過(guò)去十年來(lái)最大的進(jìn)展。 預(yù)訓(xùn)練框架其實(shí)是一個(gè)非常簡(jiǎn)單但非常有效的思路,簡(jiǎn)單來(lái)說(shuō),它本質(zhì)上也是一種監(jiān)督學(xué)習(xí),即通過(guò)大量的、沒(méi)有標(biāo)簽的數(shù)據(jù),來(lái)訓(xùn)練一個(gè)預(yù)訓(xùn)練模型,然后在下游任務(wù)上做 fine-tuning。其實(shí)這是一個(gè)非常簡(jiǎn)單的思路。它的一個(gè)優(yōu)點(diǎn)是泛化性非常強(qiáng):一個(gè)預(yù)訓(xùn)練模型,可以在不同的下游任務(wù)上進(jìn)行適應(yīng)。今天我們這場(chǎng)講座其實(shí)并不是針對(duì)預(yù)訓(xùn)練,更多是探討預(yù)訓(xùn)練和機(jī)器翻譯結(jié)合會(huì)不會(huì)產(chǎn)生某種化學(xué)反應(yīng)。 今天我的講話內(nèi)容主要包含兩個(gè)部分,第一個(gè)部分是介紹單語(yǔ)的預(yù)訓(xùn)練模型,以及為什么預(yù)訓(xùn)練可能會(huì)對(duì)機(jī)器翻譯有作用。 機(jī)器翻譯的多語(yǔ)言預(yù)訓(xùn)練(Monolingual Pre-training for NMT) 這個(gè)是我畫的一個(gè)實(shí)體圖,主要用來(lái)介紹現(xiàn)今機(jī)器翻譯雙語(yǔ)、單語(yǔ)數(shù)據(jù)的大小。這個(gè)是現(xiàn)今的中英雙語(yǔ)數(shù)據(jù),包括在商業(yè)系統(tǒng)里面,大概一億數(shù)據(jù)??梢钥吹絾握Z(yǔ)數(shù)據(jù)是遠(yuǎn)遠(yuǎn)大于雙語(yǔ)數(shù)據(jù)的。因此,這么多數(shù)據(jù)怎么更好地被利用起來(lái)其實(shí)是一個(gè)非常值得關(guān)注的點(diǎn) 。 此外,我們將BERT出現(xiàn)之前與之后的數(shù)據(jù)量進(jìn)行對(duì)比。預(yù)訓(xùn)練其實(shí)是一個(gè)很古老的主題:在BERT之前,其實(shí)也有很多預(yù)訓(xùn)練的研究,早在2012年大家就已經(jīng)開始了這類工作。過(guò)去到現(xiàn)在發(fā)生了什么變化呢?如圖所示,過(guò)去的單語(yǔ)數(shù)據(jù)的量級(jí)比較小,而在 BERT 出現(xiàn)后數(shù)據(jù)量開始百倍增加,我認(rèn)為質(zhì)變可能是來(lái)自于數(shù)據(jù)這塊的增加。因此,我們今天的一個(gè)主題就是:機(jī)器翻譯能不能也利用上這么大規(guī)模的單語(yǔ)數(shù)據(jù),或者通過(guò)預(yù)訓(xùn)練的技術(shù)把這部分的信息融合到翻譯里面。第一部分會(huì)分為兩節(jié),第一節(jié)主要是把最近的幾個(gè)工作簡(jiǎn)單介紹一下,分為兩種類型,一種可以簡(jiǎn)單歸類為 BERT fusion model,也就是研究它如何和已有的預(yù)訓(xùn)練模型做結(jié)合。我們知道機(jī)器翻譯是一個(gè)端到端的模型,但是之前大家比較了解的一些模型像 BERT , GPT,這些都是一個(gè)理解模型,是一個(gè)language model。他們的模型和機(jī)器翻譯的模型不一樣,那么如何把這種異構(gòu)的網(wǎng)絡(luò)信息能夠更好地結(jié)合起來(lái),可能是一部分探索的方向。同時(shí)還有一部分探索方向,就是怎么做一個(gè)端到端的預(yù)訓(xùn)練,然后把它應(yīng)用到機(jī)器翻譯里面。這是目前從單語(yǔ)的角度來(lái)看兩個(gè)大的應(yīng)用方向。 BERT 在機(jī)器翻譯里面發(fā)揮了什么作用? 關(guān)于第一個(gè)方向:BERT 在機(jī)器翻譯里面會(huì)起什么樣的一個(gè)作用?這塊我們大概會(huì)介紹三個(gè)工作,基本上都是2020年以后的研究,那么第一個(gè)是微軟早期的一個(gè)工作。他們提出,直接把 BERT 運(yùn)用到 NMT(Neural Machine Translation,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯)里面 ,發(fā)現(xiàn)直接用它去做 initialize,并沒(méi)有那么有效,因?yàn)橐话銇?lái)說(shuō) BERT pre-training fine-tuning 的模型需要更新parameter 。團(tuán)隊(duì)甚至發(fā)現(xiàn) BERT-Frozen 可以把整個(gè)參數(shù)固定下來(lái),可能取得的效果會(huì)更好,所以這個(gè)工作主要探討的是 BERT 怎么樣和 NMT 模型更好地結(jié)合起來(lái) ,他們提出這樣一個(gè)思路:把BERT的表示作為feature 加進(jìn)來(lái)。另外還提出一個(gè)框架,可以簡(jiǎn)單理解為雙encoder。一個(gè)encoder是BERT, 一個(gè) encoder 是機(jī)器翻譯本身的 encoder,接著讓 decoder 同時(shí)去做 attention ,這樣的話等于 BERT 這部分信息就會(huì)被加進(jìn)去。這個(gè)是ICLR2020的工作,比較簡(jiǎn)潔有效。最后證明了 BERT-fused 在 rich resource 還有 low resource 的場(chǎng)景都取得了比較好的結(jié)果,另外也發(fā)現(xiàn)這種預(yù)訓(xùn)練對(duì)于無(wú)監(jiān)督的提升是非常大的。尤其當(dāng)數(shù)據(jù)量比較少,或者是沒(méi)有平行數(shù)據(jù)的時(shí)候,加了預(yù)訓(xùn)練可能會(huì)帶來(lái)質(zhì)變的提升,而且會(huì)讓整個(gè)模型都更容易訓(xùn)練。 這是另外一篇工作,由阿里和南京大學(xué)合作完成,他和上一個(gè)工作本質(zhì)上是比較接近的,但其中一個(gè)很大的不同點(diǎn)在于他做了一些 dynamic layers fusion,考慮到了把不同的 layer,即把 BERT 和 NMT 的 encoder 結(jié)合。另外一個(gè)不同點(diǎn)是:他們也在 decoder 做了一些嘗試, 就是包括把 decoder 用 GPT 去做預(yù)訓(xùn)練。最后發(fā)現(xiàn)了一個(gè)簡(jiǎn)單的結(jié)論:encoder 用 BERT,decoder 用 GPT,這樣的提升是最顯著的。在 transformer base 的情況下,差不多有接近兩個(gè)點(diǎn)的、比較顯著的提升。 第三個(gè)是我們的工作。我簡(jiǎn)單介紹一下,我們的工作和前兩個(gè)不一樣的地方,是我們更關(guān)注于怎么在不改變模型的架構(gòu)的情況下,也就是仍然用 BERT 做 initialize 進(jìn)行 fine-tuning。最簡(jiǎn)單的一個(gè)思路就是我們不把 BERT tuning 得太多。在 tuning 的過(guò)程中就引入了 continue learning 的一些方法,就讓 BERT 的 knowledge 和 NMT 的 knowledge 都能夠同時(shí)保存,為此我們采用了一些具體的方法,結(jié)果也得到了比較大的提升。該模型已經(jīng)開源,大家有興趣的話可以在網(wǎng)上查詢到相關(guān)細(xì)節(jié)。 這些思路,其實(shí)還有一個(gè)問(wèn)題,我們可以看到前面幾個(gè)工作,主要是集中在BERT pre-train,就是對(duì) decoder,包括 GPT 的應(yīng)用其實(shí)是相對(duì)比較弱的。但從事機(jī)器翻譯的同學(xué)其實(shí)都明白,target of language model 是非常重要的,或者說(shuō) target 的數(shù)據(jù)其實(shí)甚至是比 source 都要重要。那怎么能夠把類似于 language model 或者 GPT model 等用到 NMT 模型里面是我們非常需要關(guān)注的一個(gè)點(diǎn)。這塊的一個(gè)挑戰(zhàn)在于,decoder 的分布是不一樣的。如果直接用 GPT 預(yù)訓(xùn)練一個(gè)機(jī)器翻譯模型的話,會(huì)發(fā)現(xiàn)中間的 cross attention 沒(méi)有辦法預(yù)訓(xùn)練,那么每一層的輸出就不一樣了。 這種初始化其實(shí)效果不是特別好,所以我們今年在 EMNLP 會(huì)議上發(fā)表了一個(gè)比較簡(jiǎn)單的工作,就是 encoder 用 BERT, decoder 用 GPT,用 grafting 作為嫁接模型。中間再用類似的 adaptor 把它連接起來(lái)。因?yàn)?encoder 是一個(gè)多語(yǔ)言 BERT,decoder 是一個(gè)多語(yǔ)言 GPT,我們可以不考慮初始化,直接把多語(yǔ)言 GPT 的 attention 去掉,然后在上面再結(jié)合 cause attention。這樣的好處是整個(gè)模型能夠完全地保留 encoder 和 decoder 的信息,然后用少量的數(shù)據(jù)就能得到一個(gè)非常好的結(jié)果。上面講述的主要是一種 fusion style,我們?cè)趺窗堰@種表示、生成,結(jié)合到機(jī)器翻譯里面? 如何設(shè)計(jì)一種端到端預(yù)訓(xùn)練模型應(yīng)用于機(jī)器翻譯 當(dāng)然,這塊還有另外一種類型的工作,類似 MASS (Masked Sequence to Sequence Pre-training for Language Generation) 或者 BERT。他們其實(shí)是采取了一個(gè)不一樣的思路:他們保證了模型結(jié)構(gòu)的一致性來(lái)預(yù)訓(xùn)練一個(gè)端到端模型。這樣的一個(gè)好處在于,我們接下來(lái)做模型 fine-tuning 的話結(jié)構(gòu)是一致的,整個(gè)模型、參數(shù)等會(huì)比較簡(jiǎn)單,不需要去考慮模型結(jié)構(gòu)不一致的問(wèn)題,結(jié)果也比較簡(jiǎn)單。 為了驗(yàn)證效果,我們?cè)跓o(wú)監(jiān)督的機(jī)器翻譯上做了驗(yàn)證,其實(shí)效果是非常好的,基本上提升是七到八個(gè)點(diǎn),但是在 rich resource 上的提升是比較有限的。此外,這個(gè)工作可能還有一個(gè) cross-lingual 的問(wèn)題。因?yàn)槲覀冎?,機(jī)器翻譯至少涉及兩個(gè)語(yǔ)言,比如說(shuō)中英翻譯。那么我們?nèi)绻糜⒄Z(yǔ)去預(yù)訓(xùn)練一個(gè)英語(yǔ)的 MASS,其實(shí)中文部分是沒(méi)有辦法很好地被預(yù)訓(xùn)練的。也就是其實(shí)整個(gè)模型雖然結(jié)構(gòu)上一致了,但本質(zhì)上也只有大概一半以上的參數(shù)被初始化,有一部分參數(shù)還是沒(méi)有做好的,此外它的上下游的目標(biāo)也不一致。端到端的預(yù)訓(xùn)練更多是一個(gè) autoencoder 對(duì)自編碼,而沒(méi)有考慮 language transfer,所以也不一定是最好的結(jié)構(gòu)。類似的一個(gè)工作還有 BART,它其實(shí)和 MASS 本質(zhì)上比較接近。最大的區(qū)別是 MASS 包含一些更復(fù)雜的過(guò)程。它不只是做 mask,還關(guān)注了包括輸入文本做 random shuffle 等細(xì)節(jié)。最后這個(gè)工作在 low resource 上,包括在 unsupervised results 上做了一些驗(yàn)證,效果也比較好。 簡(jiǎn)單地做一個(gè)總結(jié),第一部分講了兩塊,一塊是 fused style,就是把多個(gè)模塊結(jié)合起來(lái),比如把 BERT 把 GPT 放到 NMT 里面,怎么做能更好地結(jié)合;一種是做預(yù)訓(xùn)練的端到端模型。主要是這兩塊的工作,剛才也提到,這兩塊都有它的一些局限性。 Fused model 的這種局限性主要是指整個(gè)模型比較復(fù)雜,往往需要改變網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練也沒(méi)有那么穩(wěn)定。對(duì)于端到端模型,其實(shí)它使用起來(lái)非常方便,但缺點(diǎn)在于上下游任務(wù)不一致,所以就不一定把這個(gè)語(yǔ)言的信息用到了最大。此外,這是個(gè)單語(yǔ)模型,沒(méi)有辦法擴(kuò)展到雙語(yǔ)的場(chǎng)景。就好比用英語(yǔ)去訓(xùn)練一個(gè)預(yù)訓(xùn)練模型,放到中英機(jī)器翻譯里面,中文部分的信息是沒(méi)有被充分考慮到的。所以接下來(lái)我們就會(huì)討論這兩年的一些在多語(yǔ)言預(yù)訓(xùn)練的一些探索。 機(jī)器翻譯的多語(yǔ)言預(yù)訓(xùn)練(Multilingual Pre-training for NMT) 因?yàn)闄C(jī)器翻譯本身就是一個(gè)多語(yǔ)言的問(wèn)題,多語(yǔ)言機(jī)器翻譯預(yù)訓(xùn)練也是一件非常自然的事情。這塊的話,我們還是分兩個(gè)部分去講,一部分是關(guān)于 fused 的預(yù)訓(xùn)練,一部分是多語(yǔ)言的端到端預(yù)訓(xùn)練,這一塊也會(huì)有一些不同的思路。 比如多語(yǔ)言模型,雖然模型一樣,但大家研究的側(cè)重點(diǎn)更多的是集中在 knowledge transfer,就是指不同的語(yǔ)言其實(shí)分享了同樣的 knowledge。比如說(shuō)中文和英文,因?yàn)榇蠹叶忌钤诘厍蛏?,我們可能用不同的語(yǔ)言去描述同一個(gè)世界,所以這些知識(shí)理論上是可以轉(zhuǎn)換的。當(dāng)然,人其實(shí)也有一個(gè)直覺(jué),我們會(huì)發(fā)現(xiàn)很多語(yǔ)言學(xué)家在學(xué)過(guò)兩種語(yǔ)言之后,學(xué)第三種語(yǔ)言會(huì)越來(lái)越快,甚至一些非常有天賦的人可以學(xué)八種語(yǔ)言。他們學(xué)語(yǔ)言的時(shí)候其實(shí)是會(huì)不斷的去學(xué)習(xí)語(yǔ)言中的共性然后適應(yīng)。所以我們?cè)诳紤]語(yǔ)言之間是不是能夠也尋找到這種共性然后學(xué)習(xí)。 這個(gè)是NeuIPS比較早期的工作:Cross-lingual Language Model Pretraining。它的思路是:是否能夠把相同語(yǔ)義的句子表示到同一個(gè)空間里面。因?yàn)閱为?dú)的模型中不同語(yǔ)義的句子其實(shí)是表示在不同空間里面的。這是一個(gè)例子:通過(guò)不斷地去拉齊語(yǔ)義的表示達(dá)到目標(biāo)。然后剛才王瑞老師也提及了,我就不再多講,就是一個(gè)多語(yǔ)言預(yù)訓(xùn)練模型,這個(gè)模型其實(shí)比較簡(jiǎn)單。它沿用BERT的思路,把前半句翻譯成英文后半句翻譯成法語(yǔ), 一起去訓(xùn)練一個(gè) mask predict model。因?yàn)橥N語(yǔ)義的英語(yǔ)和法語(yǔ)被放在了一個(gè) context 里面,模型希望通過(guò) context 能夠比較隱式地去學(xué)習(xí)這種語(yǔ)言的貢獻(xiàn)信息,最后把相似的東西表示在一塊。 最后這項(xiàng)工作做了較多實(shí)驗(yàn),主要集中在 low resource 和無(wú)監(jiān)督,具體的實(shí)驗(yàn)結(jié)果這里就不再詳細(xì)介紹,但其中有兩個(gè) ablation study 的結(jié)論是非常有趣的。一個(gè)是增加更多的語(yǔ)言,對(duì) low resource 的提升非常顯著。在我們要翻譯一些很冷門的語(yǔ)言對(duì)時(shí),比如說(shuō)從英語(yǔ)到印地語(yǔ),增加更多的語(yǔ)言對(duì)其實(shí)是對(duì)low resource有較大的提升幫助的。但是增加更多的語(yǔ)言對(duì)有可能會(huì)降低 rich resource 的結(jié)果。為什么會(huì)降低 rich resource 的結(jié)果?我覺(jué)得本質(zhì)可能還是因?yàn)?model capacity 不夠,也就是說(shuō)這個(gè)模型空間是有限的,rich resource 本身資源已經(jīng)比較充分了。所以這一塊的話就需要引入更大的模型。 說(shuō)明多語(yǔ)言之間是能夠很好的去學(xué)習(xí) share knowledge 的。 接下來(lái)的這個(gè)工作是微軟的另外一個(gè)研究,這個(gè)工作比較上一個(gè),有一些不一樣的地方。不一樣的地方是上一個(gè)工作是在句子的維度做了mix,上半句放中文,下半句放法語(yǔ),然后把它放在一起。希望他們的context 能夠?qū)R,是潛在的。而微軟的這個(gè)工作是在做一個(gè) language model:我們希望模型對(duì)于英文的下半句的預(yù)測(cè)不一定是英文,因而我們會(huì)去做一些替換 ,像“calls for 新的勞工”。其實(shí)就是把中文和英文混在一起,讓英文去預(yù)測(cè)中文。該模型中,詞本身就是它的 contaxt,它的表示來(lái)自于contaxt,那么“新的勞工”和 "calls for action" 這種關(guān)系就會(huì)被建立起來(lái)。甚至于“新的勞工”可能和其對(duì)應(yīng)的英文表達(dá) "fresh industrial action" 也能夠?qū)R。它其實(shí)是一個(gè) Alternating language model,當(dāng)然這塊的話側(cè)重的是一個(gè) language model。最后對(duì)結(jié)果可視化,發(fā)現(xiàn)從詞的級(jí)別來(lái)看這種模型確實(shí)是能夠把距離拉近的。 還有一個(gè)類似的工作——mBART。mBART 的思路和前兩個(gè)不太一樣,如果用一個(gè)詞一句話來(lái)總結(jié),我覺(jué)得就是:“大力出奇跡。”也就是說(shuō)做的事情是非常簡(jiǎn)單的,它本質(zhì)上還是把所有的語(yǔ)言放在一起去做預(yù)訓(xùn)練,你可以理解為一個(gè)多語(yǔ)言MASS或者多語(yǔ)言 BERT。我們不需要雙語(yǔ)數(shù)據(jù),只需把英語(yǔ) 、法語(yǔ)、德語(yǔ)幾十種數(shù)據(jù)全部放在一起,然后做一個(gè) auto-encoder,然后再去下游任務(wù)做 fine-tuning ,那么他希望隱式的,比如 model 本身不同的語(yǔ)言都有相同的阿拉伯?dāng)?shù)字,或者有一些東西本身就是隱式的, 能夠?qū)W習(xí)不同語(yǔ)言之間的 share 的表示。最后它的規(guī)模非常大,引入了可能有二十幾倍的 BERT 的數(shù)據(jù)量,做了一個(gè)很大的多語(yǔ)言 BERT。最后在非常多的任務(wù)上,尤其在 low resource 上可能有三到十個(gè)點(diǎn)的提升。 同期類似的工作還有 Code-switching pretraining,當(dāng)然這個(gè)也是完整地沿用了 MASS 的結(jié)構(gòu)。它和 MASS 唯一的區(qū)別點(diǎn)在于 MASS 是 mask 來(lái) predict ,模型把 mask 的 token 替換成了其他語(yǔ)言。所以就也是一個(gè) Code-switching 的結(jié)構(gòu)。 同期我們完成了 mRASP 工作,也是同期工作,做的規(guī)模要大很多。我們把多種語(yǔ)言混在一起去做預(yù)訓(xùn)練。這些語(yǔ)言會(huì)有比較豐富的 code-switching,最后可以把所有的語(yǔ)言距離拉近。最后得到的一個(gè)結(jié)果,即 rich resource 和 low resource 都能被映射到一個(gè)空間,那么 low resource 就能更好地借助 rich resource。而且在下游 fine-tuning速度也是非常快的,即能夠一定程度上減少 pretraining knowledge loss 的一個(gè)問(wèn)題。以前用 BERT 之類的進(jìn)行預(yù)訓(xùn)練,最后做 fine-tuning 時(shí)往往需要花費(fèi)兩三天。那么用端到端預(yù)訓(xùn)練的模型可能只需兩三個(gè)小時(shí)就可以完成fine-tuning。那么它的災(zāi)難性遺忘問(wèn)題其實(shí)也會(huì)潛在地被緩解。 在這個(gè)基礎(chǔ)上,在今年的 ACL2021 會(huì)議,我們也做了一個(gè) unsupervised 的,或者說(shuō) contrast learning 來(lái)進(jìn)行預(yù)訓(xùn)練。我們的正例可能是 parallel 的,cross-lingual 的句子,反例可能讓模型去區(qū)分不同語(yǔ)言,不再做數(shù)據(jù)增強(qiáng),那么最后也能夠得到一個(gè)統(tǒng)一的表示。另外,我們的框架跟之前的一個(gè)區(qū)別點(diǎn)在于,不論是單語(yǔ)還是多語(yǔ)言數(shù)據(jù),都能放到一個(gè)框架里。這個(gè)模型的一個(gè)潛在優(yōu)點(diǎn)在于,即使不做 fine-tuning,效果也挺好的。當(dāng)然,做了 fine-tuning 則會(huì)有進(jìn)一步提升,細(xì)節(jié)就不展開描述了。 從整體來(lái)看,在 rich resource, low resource,甚至 zero-shot 的情況下表現(xiàn)都不錯(cuò)。關(guān)于 zero-shot 在這里稍微多提一句,我們發(fā)現(xiàn)一個(gè)很有趣的點(diǎn):把所有的語(yǔ)言進(jìn)行對(duì)齊之后,模型就潛在具備了這種 zero-shot 的能力。也就是說(shuō),我們訓(xùn)練數(shù)據(jù)里沒(méi)有法語(yǔ)到德語(yǔ)的平行數(shù)據(jù),但我們當(dāng)我們把德語(yǔ)和英語(yǔ)、法語(yǔ)和英語(yǔ)映射到一起后,這個(gè) model 直接得出的法語(yǔ)和德語(yǔ)的翻譯效果居然還不錯(cuò),基本上能夠接近于 pure。這種方式得到的 bleu 差距在一個(gè)點(diǎn)以內(nèi),我覺(jué)得幾乎已經(jīng)達(dá)到可用的狀態(tài)。 最后我們簡(jiǎn)單地做一個(gè)總結(jié), 其實(shí)今天圍繞文本翻譯主要講了兩塊,第一部分是如何在多語(yǔ)言的場(chǎng)景下,怎么盡可能用更多的單語(yǔ)數(shù)據(jù)來(lái)幫助機(jī)器翻譯。這里有兩種方式,一種是把已經(jīng)訓(xùn)練好的或者最強(qiáng)的,類似于 BERT, GPT 這類單獨(dú)訓(xùn)練的 model 嘗試用到機(jī)器翻譯里。另一種場(chǎng)景:嘗試針對(duì)機(jī)器翻譯,端到端設(shè)計(jì)一種預(yù)訓(xùn)練模型,然后和機(jī)器翻譯比較好地結(jié)合起來(lái)。 第二部分主要是介紹,多語(yǔ)言預(yù)訓(xùn)練最重要的一個(gè)點(diǎn)在于:它更多的不是依靠增加單語(yǔ)數(shù)據(jù),而是學(xué)習(xí)一種 universal的 knowledge,即實(shí)現(xiàn)不同語(yǔ)言的表示,只要語(yǔ)義是接近的,他們就能有相似的表示。其實(shí),不管對(duì) low resource 還是 rich resource 其實(shí)都會(huì)有非常大的幫助。 因?yàn)闀r(shí)間關(guān)系,今天的介紹就主要到這里,謝謝大家。 聲明:本站轉(zhuǎn)載此文目的在于傳遞更多信息,并不代表贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容,本網(wǎng)站對(duì)此聲明具有最終解釋權(quán)。/news/detail/4/3176229.html
|
|