1954年,美國(guó)成功研制出了世界首個(gè)機(jī)器翻譯系統(tǒng),實(shí)現(xiàn)了俄英兩種語(yǔ)言之間的簡(jiǎn)單轉(zhuǎn)化。但由于人類語(yǔ)言本身的復(fù)雜性和多樣性,半個(gè)多世紀(jì)以來(lái),計(jì)算機(jī)系統(tǒng)對(duì)于人類語(yǔ)言的理解一直處于相對(duì)較低的階段,投入實(shí)際應(yīng)用的研究成果寥寥無(wú)幾。 直到近10年,以“深度學(xué)習(xí)”為代表的人工智能技術(shù)在語(yǔ)音識(shí)別、自然語(yǔ)言處理等基礎(chǔ)應(yīng)用領(lǐng)域與產(chǎn)業(yè)結(jié)合的業(yè)務(wù)中取得了較大突破,能夠識(shí)別語(yǔ)音的機(jī)器翻譯逐漸從實(shí)驗(yàn)室走向普羅大眾。 在AI機(jī)器翻譯這條賽道上,互聯(lián)網(wǎng)巨頭都在虎視眈眈自去年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,百度、搜狗相繼亮相人工智能同聲傳譯技術(shù)之后,又一次引發(fā)機(jī)器翻譯是否會(huì)取代同聲傳譯的激烈爭(zhēng)論。 盡管專業(yè)人工翻譯公司依然看衰AI對(duì)翻譯產(chǎn)業(yè)的顛覆性,但包括Google、Facebook、微軟、百度、騰訊、搜狗在內(nèi)的各大技術(shù)巨頭卻在不遺余力地推進(jìn)深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的研發(fā)和應(yīng)用。 2016年9月,Google發(fā)布谷歌神經(jīng)機(jī)器翻譯(GNMT: Google Neural Machine Translation)系統(tǒng),聲稱該系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)技術(shù),模仿人腦的神經(jīng)思考模式,產(chǎn)出媲美人工翻譯的高質(zhì)量譯文,并將誤差降低了55%-85%。谷歌公司己經(jīng)將該技術(shù)應(yīng)用于網(wǎng)頁(yè)翻譯與手機(jī)應(yīng)用,譯文質(zhì)量明顯提升。 騰訊、百度、阿里巴巴等國(guó)內(nèi)互聯(lián)網(wǎng)公司將深度學(xué)習(xí)理念應(yīng)用到機(jī)器翻譯,在智能翻譯領(lǐng)域持續(xù)發(fā)力,推出多款基于神經(jīng)網(wǎng)絡(luò)技術(shù)的在線翻譯和手機(jī)應(yīng)用。甚至在手機(jī)瀏覽器的升級(jí)戰(zhàn)爭(zhēng)中,智能翻譯也被當(dāng)作重要功能革新,搜狗手機(jī)瀏覽器推出“智能翻譯”,集合了語(yǔ)音對(duì)話翻譯、AR實(shí)時(shí)翻譯、拍照翻譯等常用功能。 智能翻譯架起了不同語(yǔ)種間人們便利溝通的橋梁,已經(jīng)成為日常交流、出國(guó)旅游、外文學(xué)習(xí)等方面不可或缺的助手。筆者就簡(jiǎn)要梳理一下AI實(shí)現(xiàn)文字和口語(yǔ)翻譯的基本原理、結(jié)合實(shí)例介紹智能口語(yǔ)翻譯難點(diǎn)以及智能翻譯有哪些需要解決的問(wèn)題。 各種花哨的技術(shù)概念,核心仍然是AI處理人類語(yǔ)言的三種方法實(shí)現(xiàn)讓計(jì)算機(jī)處理人類自然語(yǔ)言是人工智能領(lǐng)域的一個(gè)重要課題,與句法分析、語(yǔ)義理解和自然語(yǔ)言生成等計(jì)算語(yǔ)言學(xué)核心理論密切相關(guān)。目前,AI主要有三種方法翻譯人類自然語(yǔ)言。 1、基于規(guī)則的機(jī)器翻譯方法。早期機(jī)器翻譯的主流方法?;谝?guī)則的機(jī)器翻譯系統(tǒng)依靠人工編纂的雙語(yǔ)詞典和專家總結(jié)的各種形式的翻譯轉(zhuǎn)化規(guī)則,但在通用領(lǐng)域中的應(yīng)用性不強(qiáng),往往被限制在了專有應(yīng)用上,逐漸被新的方法取代。 2、基于實(shí)例的機(jī)器翻譯方法。從已有的翻譯經(jīng)驗(yàn)知識(shí)出發(fā),將源語(yǔ)言句子切分為翻譯知識(shí)中見(jiàn)過(guò)的短語(yǔ)片段,通過(guò)對(duì)已有翻譯資源進(jìn)行自動(dòng)總結(jié),得出雙語(yǔ)對(duì)照的實(shí)例庫(kù),并設(shè)計(jì)規(guī)則處理雙語(yǔ)對(duì)照實(shí)例庫(kù)中的歧義性等問(wèn)題,實(shí)現(xiàn)對(duì)新的源語(yǔ)言句子進(jìn)行翻譯。 3、基于統(tǒng)計(jì)的翻譯方法。統(tǒng)計(jì)機(jī)器翻譯方法將任何目標(biāo)語(yǔ)言句子都看成源語(yǔ)言句子的可能翻譯候選,從語(yǔ)料自動(dòng)學(xué)習(xí)翻譯模型,然后基于此翻譯模型,對(duì)輸入源語(yǔ)言句子尋找一個(gè)評(píng)價(jià)分?jǐn)?shù)最高的目標(biāo)語(yǔ)言句子作為翻譯結(jié)果。目前谷歌、搜狗等基本采用的是這種。 深度學(xué)習(xí)能夠自動(dòng)學(xué)習(xí)抽象特征表示、建立源語(yǔ)言與目標(biāo)語(yǔ)言之間復(fù)雜的映射關(guān)系,給統(tǒng)計(jì)機(jī)器翻譯的實(shí)現(xiàn)提供新途徑,目前已經(jīng)在詞對(duì)齊、語(yǔ)言模型訓(xùn)練、解碼等模塊的優(yōu)化應(yīng)用方面取得較多成果。 例如,2006年谷歌發(fā)布基于短語(yǔ)的機(jī)器學(xué)習(xí)(PBMT)系統(tǒng),該系統(tǒng)將句子分解成詞和短句,進(jìn)行逐個(gè)翻譯。它的弱點(diǎn)在于忽略了上下文,因此譯文質(zhì)量不佳。2016年谷歌發(fā)布的神經(jīng)機(jī)器翻譯GNMT,將句子視為基本單元,不再對(duì)詞和短句逐個(gè)翻譯,明顯改善了譯文質(zhì)量。 作為智能翻譯的“制高點(diǎn)”,AI口語(yǔ)翻譯難在哪?與普通文字翻譯相比,AI口語(yǔ)翻譯難度更大,原因有二: 一、想要“譯的準(zhǔn)”,首先要能“聽(tīng)得清”。 AI要準(zhǔn)確判斷出指令發(fā)出者的語(yǔ)音、停頓,并在極短時(shí)間內(nèi)進(jìn)行“語(yǔ)音斷句”,在涉及一些模糊音時(shí)能夠根據(jù)“上下文”進(jìn)行及時(shí)調(diào)整,這需要有深度學(xué)習(xí)的模型自動(dòng)更換為一個(gè)語(yǔ)義通順、更符合作者指令的句子,然后才能進(jìn)行文字翻譯處理。 二、想要“譯的準(zhǔn)”,還要包容口語(yǔ)的“4個(gè)任性” 基于神經(jīng)網(wǎng)絡(luò)技術(shù)的智能翻譯系統(tǒng)越來(lái)越多,翻譯質(zhì)量確有較大提高,但是能不能很好地包容口語(yǔ)的各種任性,我們來(lái)做幾項(xiàng)測(cè)試,檢驗(yàn)一下人工智能翻譯的水平。為便于說(shuō)明,選取了具有代表性的谷歌翻譯和搜狗手機(jī)瀏覽器自帶的智能翻譯進(jìn)行比對(duì)。 1、日??谡Z(yǔ)具有不連貫的特性。在口語(yǔ)交談中,經(jīng)常會(huì)出現(xiàn)一些不連貫的成分,如:重復(fù)、次序顛倒、冗余和語(yǔ)句殘缺。下文是一個(gè)典型的兼有語(yǔ)句殘缺和發(fā)音重復(fù)的句子。
谷歌翻譯在重復(fù)的處理上未真實(shí)體現(xiàn)原文,搜狗手機(jī)瀏覽器智能翻譯如實(shí)還原。但是,兩個(gè)翻譯結(jié)果在表達(dá)上都不同程度地存在錯(cuò)誤。 2、語(yǔ)法約束相對(duì)較弱。口語(yǔ)中很少會(huì)有嚴(yán)格符合語(yǔ)法約束的結(jié)構(gòu)完整、正確的句子,而大量存在的是語(yǔ)法規(guī)則難以處理的現(xiàn)象。一方面是由于系統(tǒng)的語(yǔ)法知識(shí)對(duì)語(yǔ)言現(xiàn)象的覆蓋程度不足;而更主要的則是口語(yǔ)本身的特性所決定的,例如口語(yǔ)中存在大量的代詞,人類口語(yǔ)比較容易理解,但是AI不能結(jié)合上下文,缺乏背景知識(shí),難以區(qū)分指代對(duì)象,導(dǎo)致翻譯結(jié)果偏離原意。
翻譯的關(guān)鍵在于兩個(gè)詞:look和man。谷歌的翻譯也對(duì),而看起來(lái),搜狗手機(jī)瀏覽器的翻譯結(jié)果更符合生活實(shí)際。 3、沒(méi)有明確的句子邊界。口語(yǔ)中沒(méi)有標(biāo)點(diǎn)符號(hào)來(lái)標(biāo)志句子,也基本沒(méi)有傳統(tǒng)意義上的句子,缺少了必要的聲調(diào)和停頓,很容易造成句子的歧義。 例如:“這蘋果不大好吃”。那么該句有兩種不同的理解結(jié)果:這蘋果不大/好吃(蘋果不大,但是味道好),這蘋果/不大好吃(蘋果味道不好)。兩家AI都未能分清句子結(jié)構(gòu)發(fā)音上的差別,都默認(rèn)翻譯為“蘋果味道不好”。 4、非正式語(yǔ)體材料多。中英口語(yǔ)中都存在較多隨意性的口語(yǔ)或網(wǎng)絡(luò)用語(yǔ),生活化氣息濃厚,多為非正式的語(yǔ)體材料,智能翻譯需要龐大的基礎(chǔ)詞匯庫(kù)支撐。
可以說(shuō),兩家AI對(duì)這段話的翻譯,雖然都有些許瑕疵,但是總體都還是比較到位的,搜狗手機(jī)瀏覽器對(duì)于“搭便車”這個(gè)典型口語(yǔ)化詞匯翻譯相對(duì)更準(zhǔn)確。 中國(guó)古詩(shī)英譯一直是文化翻譯的一個(gè)難題,甚至被認(rèn)為是可譯性最小的文學(xué)形式。我們來(lái)試驗(yàn)一下兩家AI對(duì)王維《九月九日憶山東兄弟》的理解和翻譯能力。
翻譯古詩(shī)詞,確實(shí)非常難為兩家AI。不過(guò),翻譯的結(jié)果很有趣,搜狗手機(jī)瀏覽器對(duì)前兩句翻譯尚可,后兩句翻譯成了我的兄弟在高處到處種植茱萸,谷歌對(duì)最后兩句完全是進(jìn)行了想象性的拓展。 要跨越語(yǔ)言不通的鴻溝,智能翻譯還需往哪加油智能翻譯確實(shí)取得了令人驚喜的進(jìn)展,拿著手機(jī)和老外進(jìn)行日常交流已經(jīng)基本沒(méi)有問(wèn)題。但是智能翻譯還存在“短板”,會(huì)有“詞不達(dá)意”的時(shí)候,AI要想更進(jìn)一步發(fā)展,和有著數(shù)十年積淀的高水平翻譯員進(jìn)行競(jìng)爭(zhēng),可能還需要從以下幾個(gè)方面進(jìn)行努力。 1、大量補(bǔ)充口語(yǔ)化語(yǔ)料 智能翻譯對(duì)于口語(yǔ)化文本處理能力還不強(qiáng),一是由于翻譯語(yǔ)料庫(kù)口語(yǔ)化語(yǔ)料不足,二是針對(duì)口語(yǔ)詞匯與口語(yǔ)表達(dá)多采取直譯方式,因此出現(xiàn)較多誤譯。該問(wèn)題的解決應(yīng)該從擴(kuò)大對(duì)應(yīng)部分語(yǔ)料庫(kù)入手,增加口語(yǔ)類文本語(yǔ)料庫(kù),包括常見(jiàn)口語(yǔ)化詞匯、表達(dá)與生活用語(yǔ)。 2、提高語(yǔ)境理解能力 智能翻譯對(duì)于中文復(fù)雜含義句式中的時(shí)態(tài)辨別能力還不夠,往往需要充分理解整句話的意思才能準(zhǔn)確把握時(shí)態(tài)。智能翻譯并非基于理解,而是基于統(tǒng)計(jì)學(xué)與語(yǔ)料庫(kù),只能做到將這句話意思大致翻譯準(zhǔn)確,在識(shí)別感情色彩方面,還有欠缺。 但,我們依然滿懷期待AI讓我們擺脫語(yǔ)言鴻溝的那一天。 作者:草原騎士/智能相對(duì)論:2個(gè)前人工智能行業(yè)管理咨詢老鳥(niǎo)+1個(gè)老媒體人組成的三人幫,深挖人工智能這口井,評(píng)出咸淡,講出黑白,道出深淺。 本文由 @智能相對(duì)論 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。 題圖由作者提供 給作者打賞,鼓勵(lì)TA抓緊創(chuàng)作! 6人打賞 |
|
來(lái)自: 天承辦公室 > 《006模式創(chuàng)新》