AI干起了實(shí)時(shí)翻譯，我們離跨越語(yǔ)言的鴻溝還有多遠(yuǎn)？ | 人人都是產(chǎn)品經(jīng)理

天承辦公室 2020-08-28

展開(kāi)全文

AI已經(jīng)運(yùn)用到了實(shí)時(shí)翻譯的領(lǐng)域中，那么我們是否離無(wú)障礙的語(yǔ)言溝通越來(lái)越近了？

1954年，美國(guó)成功研制出了世界首個(gè)機(jī)器翻譯系統(tǒng)，實(shí)現(xiàn)了俄英兩種語(yǔ)言之間的簡(jiǎn)單轉(zhuǎn)化。但由于人類語(yǔ)言本身的復(fù)雜性和多樣性，半個(gè)多世紀(jì)以來(lái)，計(jì)算機(jī)系統(tǒng)對(duì)于人類語(yǔ)言的理解一直處于相對(duì)較低的階段，投入實(shí)際應(yīng)用的研究成果寥寥無(wú)幾。

直到近10年，以“深度學(xué)習(xí)”為代表的人工智能技術(shù)在語(yǔ)音識(shí)別、自然語(yǔ)言處理等基礎(chǔ)應(yīng)用領(lǐng)域與產(chǎn)業(yè)結(jié)合的業(yè)務(wù)中取得了較大突破，能夠識(shí)別語(yǔ)音的機(jī)器翻譯逐漸從實(shí)驗(yàn)室走向普羅大眾。

在AI機(jī)器翻譯這條賽道上，互聯(lián)網(wǎng)巨頭都在虎視眈眈

自去年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上，百度、搜狗相繼亮相人工智能同聲傳譯技術(shù)之后，又一次引發(fā)機(jī)器翻譯是否會(huì)取代同聲傳譯的激烈爭(zhēng)論。

盡管專業(yè)人工翻譯公司依然看衰AI對(duì)翻譯產(chǎn)業(yè)的顛覆性，但包括Google、Facebook、微軟、百度、騰訊、搜狗在內(nèi)的各大技術(shù)巨頭卻在不遺余力地推進(jìn)深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的研發(fā)和應(yīng)用。

2016年9月，Google發(fā)布谷歌神經(jīng)機(jī)器翻譯（GNMT: Google Neural Machine Translation）系統(tǒng)，聲稱該系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)技術(shù)，模仿人腦的神經(jīng)思考模式，產(chǎn)出媲美人工翻譯的高質(zhì)量譯文，并將誤差降低了55%-85%。谷歌公司己經(jīng)將該技術(shù)應(yīng)用于網(wǎng)頁(yè)翻譯與手機(jī)應(yīng)用，譯文質(zhì)量明顯提升。

騰訊、百度、阿里巴巴等國(guó)內(nèi)互聯(lián)網(wǎng)公司將深度學(xué)習(xí)理念應(yīng)用到機(jī)器翻譯，在智能翻譯領(lǐng)域持續(xù)發(fā)力，推出多款基于神經(jīng)網(wǎng)絡(luò)技術(shù)的在線翻譯和手機(jī)應(yīng)用。甚至在手機(jī)瀏覽器的升級(jí)戰(zhàn)爭(zhēng)中，智能翻譯也被當(dāng)作重要功能革新，搜狗手機(jī)瀏覽器推出“智能翻譯”，集合了語(yǔ)音對(duì)話翻譯、AR實(shí)時(shí)翻譯、拍照翻譯等常用功能。

智能翻譯架起了不同語(yǔ)種間人們便利溝通的橋梁，已經(jīng)成為日常交流、出國(guó)旅游、外文學(xué)習(xí)等方面不可或缺的助手。筆者就簡(jiǎn)要梳理一下AI實(shí)現(xiàn)文字和口語(yǔ)翻譯的基本原理、結(jié)合實(shí)例介紹智能口語(yǔ)翻譯難點(diǎn)以及智能翻譯有哪些需要解決的問(wèn)題。

各種花哨的技術(shù)概念，核心仍然是AI處理人類語(yǔ)言的三種方法

實(shí)現(xiàn)讓計(jì)算機(jī)處理人類自然語(yǔ)言是人工智能領(lǐng)域的一個(gè)重要課題，與句法分析、語(yǔ)義理解和自然語(yǔ)言生成等計(jì)算語(yǔ)言學(xué)核心理論密切相關(guān)。目前，AI主要有三種方法翻譯人類自然語(yǔ)言。

1、基于規(guī)則的機(jī)器翻譯方法。早期機(jī)器翻譯的主流方法?；谝?guī)則的機(jī)器翻譯系統(tǒng)依靠人工編纂的雙語(yǔ)詞典和專家總結(jié)的各種形式的翻譯轉(zhuǎn)化規(guī)則，但在通用領(lǐng)域中的應(yīng)用性不強(qiáng)，往往被限制在了專有應(yīng)用上，逐漸被新的方法取代。

2、基于實(shí)例的機(jī)器翻譯方法。從已有的翻譯經(jīng)驗(yàn)知識(shí)出發(fā)，將源語(yǔ)言句子切分為翻譯知識(shí)中見(jiàn)過(guò)的短語(yǔ)片段，通過(guò)對(duì)已有翻譯資源進(jìn)行自動(dòng)總結(jié)，得出雙語(yǔ)對(duì)照的實(shí)例庫(kù)，并設(shè)計(jì)規(guī)則處理雙語(yǔ)對(duì)照實(shí)例庫(kù)中的歧義性等問(wèn)題，實(shí)現(xiàn)對(duì)新的源語(yǔ)言句子進(jìn)行翻譯。

3、基于統(tǒng)計(jì)的翻譯方法。統(tǒng)計(jì)機(jī)器翻譯方法將任何目標(biāo)語(yǔ)言句子都看成源語(yǔ)言句子的可能翻譯候選，從語(yǔ)料自動(dòng)學(xué)習(xí)翻譯模型，然后基于此翻譯模型，對(duì)輸入源語(yǔ)言句子尋找一個(gè)評(píng)價(jià)分?jǐn)?shù)最高的目標(biāo)語(yǔ)言句子作為翻譯結(jié)果。目前谷歌、搜狗等基本采用的是這種。

深度學(xué)習(xí)能夠自動(dòng)學(xué)習(xí)抽象特征表示、建立源語(yǔ)言與目標(biāo)語(yǔ)言之間復(fù)雜的映射關(guān)系，給統(tǒng)計(jì)機(jī)器翻譯的實(shí)現(xiàn)提供新途徑，目前已經(jīng)在詞對(duì)齊、語(yǔ)言模型訓(xùn)練、解碼等模塊的優(yōu)化應(yīng)用方面取得較多成果。

例如，2006年谷歌發(fā)布基于短語(yǔ)的機(jī)器學(xué)習(xí)（PBMT）系統(tǒng)，該系統(tǒng)將句子分解成詞和短句，進(jìn)行逐個(gè)翻譯。它的弱點(diǎn)在于忽略了上下文，因此譯文質(zhì)量不佳。2016年谷歌發(fā)布的神經(jīng)機(jī)器翻譯GNMT，將句子視為基本單元，不再對(duì)詞和短句逐個(gè)翻譯，明顯改善了譯文質(zhì)量。

作為智能翻譯的“制高點(diǎn)”，AI口語(yǔ)翻譯難在哪？

與普通文字翻譯相比，AI口語(yǔ)翻譯難度更大，原因有二：

一、想要“譯的準(zhǔn)”，首先要能“聽(tīng)得清”。

AI要準(zhǔn)確判斷出指令發(fā)出者的語(yǔ)音、停頓，并在極短時(shí)間內(nèi)進(jìn)行“語(yǔ)音斷句”，在涉及一些模糊音時(shí)能夠根據(jù)“上下文”進(jìn)行及時(shí)調(diào)整，這需要有深度學(xué)習(xí)的模型自動(dòng)更換為一個(gè)語(yǔ)義通順、更符合作者指令的句子，然后才能進(jìn)行文字翻譯處理。

二、想要“譯的準(zhǔn)”，還要包容口語(yǔ)的“4個(gè)任性”

基于神經(jīng)網(wǎng)絡(luò)技術(shù)的智能翻譯系統(tǒng)越來(lái)越多，翻譯質(zhì)量確有較大提高，但是能不能很好地包容口語(yǔ)的各種任性，我們來(lái)做幾項(xiàng)測(cè)試，檢驗(yàn)一下人工智能翻譯的水平。為便于說(shuō)明，選取了具有代表性的谷歌翻譯和搜狗手機(jī)瀏覽器自帶的智能翻譯進(jìn)行比對(duì)。

1、日?？谡Z(yǔ)具有不連貫的特性。在口語(yǔ)交談中，經(jīng)常會(huì)出現(xiàn)一些不連貫的成分，如：重復(fù)、次序顛倒、冗余和語(yǔ)句殘缺。下文是一個(gè)典型的兼有語(yǔ)句殘缺和發(fā)音重復(fù)的句子。

原文：那六樓呢？咱們……咱們，下午談一談吧？
谷歌翻譯：The sixth floor?Let’s talk about us in the afternoon?
搜狗手機(jī)瀏覽器智能翻譯：What about the sixth floor? Let’s… Let’s talk this afternoon.

谷歌翻譯在重復(fù)的處理上未真實(shí)體現(xiàn)原文，搜狗手機(jī)瀏覽器智能翻譯如實(shí)還原。但是，兩個(gè)翻譯結(jié)果在表達(dá)上都不同程度地存在錯(cuò)誤。

2、語(yǔ)法約束相對(duì)較弱。口語(yǔ)中很少會(huì)有嚴(yán)格符合語(yǔ)法約束的結(jié)構(gòu)完整、正確的句子，而大量存在的是語(yǔ)法規(guī)則難以處理的現(xiàn)象。一方面是由于系統(tǒng)的語(yǔ)法知識(shí)對(duì)語(yǔ)言現(xiàn)象的覆蓋程度不足；而更主要的則是口語(yǔ)本身的特性所決定的，例如口語(yǔ)中存在大量的代詞，人類口語(yǔ)比較容易理解，但是AI不能結(jié)合上下文，缺乏背景知識(shí)，難以區(qū)分指代對(duì)象，導(dǎo)致翻譯結(jié)果偏離原意。

原文：Look, man, you don’t got to do anything. This one means a lot to me.
谷歌翻譯：看，男人，你什么都不做。這對(duì)我來(lái)說(shuō)意義重大。
搜狗手機(jī)瀏覽器智能翻譯：聽(tīng)著，伙計(jì)，你什么都不用做，這對(duì)我意義重大。

翻譯的關(guān)鍵在于兩個(gè)詞：look和man。谷歌的翻譯也對(duì)，而看起來(lái)，搜狗手機(jī)瀏覽器的翻譯結(jié)果更符合生活實(shí)際。

3、沒(méi)有明確的句子邊界。口語(yǔ)中沒(méi)有標(biāo)點(diǎn)符號(hào)來(lái)標(biāo)志句子，也基本沒(méi)有傳統(tǒng)意義上的句子，缺少了必要的聲調(diào)和停頓，很容易造成句子的歧義。

例如：“這蘋果不大好吃”。那么該句有兩種不同的理解結(jié)果：這蘋果不大/好吃（蘋果不大，但是味道好），這蘋果/不大好吃（蘋果味道不好）。兩家AI都未能分清句子結(jié)構(gòu)發(fā)音上的差別，都默認(rèn)翻譯為“蘋果味道不好”。

4、非正式語(yǔ)體材料多。中英口語(yǔ)中都存在較多隨意性的口語(yǔ)或網(wǎng)絡(luò)用語(yǔ)，生活化氣息濃厚，多為非正式的語(yǔ)體材料，智能翻譯需要龐大的基礎(chǔ)詞匯庫(kù)支撐。

原文：近期我們注意到國(guó)際上有一種看法，認(rèn)為中國(guó)已經(jīng)成為世界上最大的經(jīng)濟(jì)體，一方面挑戰(zhàn)了美國(guó)的領(lǐng)導(dǎo)地位，另一方面在很多國(guó)際事務(wù)上中國(guó)仍在搭便車。請(qǐng)問(wèn)您怎么看待這樣的看法？（總理記者會(huì)上中國(guó)日?qǐng)?bào)記者的現(xiàn)場(chǎng)提問(wèn)）
谷歌翻譯：We have recently noticed that there is a view that China has become the world’s largest economy， on the one hand challenges the leadership of the United States， on the other hand in many international affairs， China is still free. What do you think of this view?
搜狗手機(jī)瀏覽器智能翻譯：Recently we have noticed an international view that China has become the world’s largest economy. On the one hand, it challenges the leadership of the United States. On the other hand, the Chinese are hitchhiking in many international affairs. I would like to ask what you think of this view.
專家譯文：Recently we have noticed that there is a view in the international community that China has become the world’s largest economy， on the one hand challenges the leadership of the United States，on the other hand in many international affairs in China is still a free ride， how do you think of this view?

可以說(shuō)，兩家AI對(duì)這段話的翻譯，雖然都有些許瑕疵，但是總體都還是比較到位的，搜狗手機(jī)瀏覽器對(duì)于“搭便車”這個(gè)典型口語(yǔ)化詞匯翻譯相對(duì)更準(zhǔn)確。

中國(guó)古詩(shī)英譯一直是文化翻譯的一個(gè)難題，甚至被認(rèn)為是可譯性最小的文學(xué)形式。我們來(lái)試驗(yàn)一下兩家AI對(duì)王維《九月九日憶山東兄弟》的理解和翻譯能力。

獨(dú)在異鄉(xiāng)為異客，每逢佳節(jié)倍思親。遙知兄弟登高處，遍插茱萸少一人。
谷歌翻譯：Alone in a foreign land for the stranger，every festive times.
Distinguished brother ascended the throne，who was full of cornelia.
搜狗手機(jī)瀏覽器智能翻譯：Alone in a foreign land, I miss my relatives more than anything else during the holidays. I know my brother has climbed up to the top and planted dogwood everywhere, but one person is missing.
參考譯文：Alone，a lonely stranger in a foreign land，I doubly pine for my kinsfolk on holiday. I know my brothers would, with dogwood spray in hand, Climbing up the mountain and miss me so far away.

翻譯古詩(shī)詞，確實(shí)非常難為兩家AI。不過(guò)，翻譯的結(jié)果很有趣，搜狗手機(jī)瀏覽器對(duì)前兩句翻譯尚可，后兩句翻譯成了我的兄弟在高處到處種植茱萸，谷歌對(duì)最后兩句完全是進(jìn)行了想象性的拓展。

要跨越語(yǔ)言不通的鴻溝，智能翻譯還需往哪加油

智能翻譯確實(shí)取得了令人驚喜的進(jìn)展，拿著手機(jī)和老外進(jìn)行日常交流已經(jīng)基本沒(méi)有問(wèn)題。但是智能翻譯還存在“短板”，會(huì)有“詞不達(dá)意”的時(shí)候，AI要想更進(jìn)一步發(fā)展，和有著數(shù)十年積淀的高水平翻譯員進(jìn)行競(jìng)爭(zhēng)，可能還需要從以下幾個(gè)方面進(jìn)行努力。

1、大量補(bǔ)充口語(yǔ)化語(yǔ)料

智能翻譯對(duì)于口語(yǔ)化文本處理能力還不強(qiáng)，一是由于翻譯語(yǔ)料庫(kù)口語(yǔ)化語(yǔ)料不足，二是針對(duì)口語(yǔ)詞匯與口語(yǔ)表達(dá)多采取直譯方式，因此出現(xiàn)較多誤譯。該問(wèn)題的解決應(yīng)該從擴(kuò)大對(duì)應(yīng)部分語(yǔ)料庫(kù)入手，增加口語(yǔ)類文本語(yǔ)料庫(kù)，包括常見(jiàn)口語(yǔ)化詞匯、表達(dá)與生活用語(yǔ)。

2、提高語(yǔ)境理解能力

智能翻譯對(duì)于中文復(fù)雜含義句式中的時(shí)態(tài)辨別能力還不夠，往往需要充分理解整句話的意思才能準(zhǔn)確把握時(shí)態(tài)。智能翻譯并非基于理解，而是基于統(tǒng)計(jì)學(xué)與語(yǔ)料庫(kù)，只能做到將這句話意思大致翻譯準(zhǔn)確，在識(shí)別感情色彩方面，還有欠缺。
將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的抽象表示和傳統(tǒng)符號(hào)語(yǔ)義方法結(jié)合，建立新的基于語(yǔ)義的機(jī)器翻譯系統(tǒng)，或許可以大幅提高AI對(duì)組合語(yǔ)義、復(fù)雜的遞歸語(yǔ)言結(jié)構(gòu)的處理能力。

但，我們依然滿懷期待AI讓我們擺脫語(yǔ)言鴻溝的那一天。

作者：草原騎士/智能相對(duì)論：2個(gè)前人工智能行業(yè)管理咨詢老鳥(niǎo)+1個(gè)老媒體人組成的三人幫，深挖人工智能這口井，評(píng)出咸淡，講出黑白，道出深淺。

本文由 @智能相對(duì)論原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。

題圖由作者提供

給作者打賞，鼓勵(lì)TA抓緊創(chuàng)作！

6人打賞

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：天承辦公室 > 《006模式創(chuàng)新》

舉報(bào)/認(rèn)領(lǐng)