如果說人工智能已經(jīng)能在哪些領(lǐng)域中超越人類,相信一定要提到的就是機器翻譯。從技術(shù)理論層面上來看,機器翻譯已經(jīng)在逐步超越人類的能力——在今年3月,微軟就宣稱他們研發(fā)的機器翻譯系統(tǒng)在通用新聞漢譯英能力上已經(jīng)達到了人類專業(yè)水平。 理論上,機器翻譯在不斷接近專業(yè)翻譯能力。但仔細(xì)想想,我們今天應(yīng)用最多的還是簡單的對話翻譯、拍照翻譯等等。例如出門旅游用搜狗旅行翻譯寶一類的產(chǎn)品幫助對話交流,或者在輸入法搞不定非英語單詞時拍下照片進行翻譯。 實際上機器翻譯不斷追求的是接近人類的翻譯能力——能處理更長的文檔、文字通順流暢符合上下文。但不斷專業(yè)化的機器翻譯,究竟應(yīng)該如何進入專業(yè)領(lǐng)域?針對這個問題,我們對幾位在生活中常常與專業(yè)翻譯打交道的粉絲進行了采訪。 受訪者小A-“用得上的AI,才是真AI” 職業(yè):研究僧 翻譯需求:專業(yè)期刊論文的學(xué)術(shù)翻譯 一提到提到機器翻譯,小A表示這是AI技術(shù)里最“迷”的領(lǐng)域。小A的原話是:“技術(shù)明明達到了一定高度,應(yīng)用時最大的作用,還是幫老年旅游團出國時能拍張照片看懂菜譜?!毙認(rèn)為機器翻譯目前最大的問題還是不同機器翻譯軟件翻譯水平層次不齊,有些機器翻譯軟件的水平連四、六級都過不了,自然難以進入專業(yè)領(lǐng)域。 小A告訴我們,作為研究生常常需要翻譯期刊論文,面對學(xué)術(shù)文章里的復(fù)雜的長句子和專業(yè)單詞,很多機器翻譯軟件都表現(xiàn)不好。尤其是很多期刊論文都是PDF格式,很不方便通過復(fù)制粘貼進行翻譯。大部分時候最高效的方式還是一邊查單詞一邊“人肉翻譯”。 受訪者B君-“我一眼就看穿了你結(jié)構(gòu)混亂的產(chǎn)品原型圖” 職業(yè):正在向機器學(xué)習(xí)方向發(fā)展的碼農(nóng) 翻譯需求:開發(fā)者社區(qū)的文檔翻譯 正在朝機器學(xué)習(xí)方向努力進修的B君,是腦極體粉絲里的典型一員。B君告訴我們,他對機器翻譯的能力是認(rèn)可的,但日常使用中還是會遇到不少問題。尤其是當(dāng)他在翻譯一些開發(fā)者社區(qū)文檔時,一些專業(yè)詞匯常常會出現(xiàn)歧義,常常需要用中英文對照才能完全理解。 以碼農(nóng)的嚴(yán)謹(jǐn)眼光來看,目前很多機器翻譯產(chǎn)品的主要問題不是在翻譯技術(shù),而是在產(chǎn)品交互設(shè)計上。B君說“可能很多機器翻譯產(chǎn)品都是技術(shù)人員主導(dǎo)產(chǎn)品設(shè)計,能明顯看出不成熟的感覺,用戶體驗也很糟糕?!本湍弥杏⑽膶φ者@個簡單的需求來說,很多產(chǎn)品都不能滿足。 加上還有很多有分段錯誤、格式混亂等等問題,B君需要翻譯整篇文章時,大多數(shù)時候還是會按段落甚至句子翻譯。 受訪者C君-“如果有錢付給你,我干嘛還要工作???” 職業(yè):兼職法務(wù) 翻譯需求:長文檔的免費翻譯 作為兼職法務(wù),受訪者C君的職業(yè)看起來是和人工智能距離最遠(yuǎn)的了,但他同樣也會應(yīng)用到機器翻譯軟件。在兼職法務(wù)的工作中遇到涉及到外貿(mào)方面的工作,常常要對外文合同進行互譯。這時利用機器翻譯對文件進行大致翻譯,然后再人工優(yōu)化通常是效率最高的方式。 但C君所遇到的問題除了翻譯技術(shù)以外,還有費用。他發(fā)現(xiàn)很多平臺會把機器翻譯作為一種噱頭,翻譯較長的文檔時則會很“心機”的向用戶推薦人工收費翻譯服務(wù)。C君告訴我們,對于一些Freelancer法務(wù)和小公司的法務(wù)來說,這是一個很大的問題,通常小公司并沒有能力配備專業(yè)的翻譯人員,如果選擇和第三方合作,除了有商業(yè)機密泄露風(fēng)險,還要簽一大堆免責(zé)合同。本來機器翻譯應(yīng)該是解決這個問題的最好方法,結(jié)果現(xiàn)在卻成了人工翻譯的引流入口。 總的來說,機器翻譯水平、產(chǎn)品易用性和收費是阻礙機器翻譯進入專業(yè)應(yīng)用領(lǐng)域的主要原因。這樣看來,機器翻譯能否進入專業(yè)應(yīng)用領(lǐng)域,考驗的其實產(chǎn)品,或者說產(chǎn)品背后企業(yè)的綜合實力。不光要有技術(shù),還要有足夠產(chǎn)品設(shè)計能力,如果能讓用戶免費使用,那就更好了。 結(jié)合這些原因,從技術(shù)、產(chǎn)品、費用三個角度評估,我們判斷最有希望幫助機器翻譯進入專業(yè)領(lǐng)域的產(chǎn)品是搜狗文檔翻譯。 一直技術(shù)黨,怎么會讓你失望? 從機器翻譯水平來看,搜狗是一家較早進入NLP和機器翻譯行業(yè)的企業(yè)。 我們知道搜索引擎企業(yè)是最容易在AI技術(shù)上獲得成就的,因為搜索引擎入口本身就是一個巨大的語料累積庫。而搜狗不光擁有搜索引擎,還有輸入法產(chǎn)品,兩款產(chǎn)品為搜狗累積了海量語料,讓搜狗搭建了基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)框架。搜狗翻譯App、搜狗旅行翻譯寶、搜狗錄音翻譯筆等產(chǎn)品都應(yīng)用了這一框架。在去年的第二屆機器翻譯大會(WMT2017)上,搜狗機器翻譯團隊還獲得了中英機器翻譯冠軍。 深度學(xué)習(xí)中長短期記憶網(wǎng)絡(luò)技術(shù)的應(yīng)用,帶來的不僅僅是日常應(yīng)用短句的精準(zhǔn)翻譯,還可以實現(xiàn)結(jié)合上下文語義理解推理翻譯結(jié)果。在期刊文章、合同這類長文檔中表現(xiàn)更為突出。對于小A這種經(jīng)常要翻譯學(xué)術(shù)文章的用戶來說,這一點格外實用。 例如上圖中是對生物學(xué)家Robert A. Weinberg論文《The Hallmarks of Cancer》的翻譯節(jié)選??梢钥吹郊词乖卺t(yī)學(xué)這種充滿大量專業(yè)名詞的領(lǐng)域,搜狗長文檔翻譯依然沒有讓人失望。 十四年C端經(jīng)驗, 產(chǎn)品屆老司機了解一下? 在我們看來,相比技術(shù),其實產(chǎn)品體驗才是搜狗文檔翻譯的最大優(yōu)勢。在AI技術(shù)領(lǐng)域,不管是機器翻譯水平還是圖像水平,所有玩家都在窮追猛趕,追求著百分之零點幾的體驗提升。但其實從技術(shù)到產(chǎn)品的過程,對于很多技術(shù)出身的AI企業(yè)才是最難的,所以才會出現(xiàn)B君所反映的產(chǎn)品邏輯混亂問題。 搜狗的優(yōu)勢在于,搜索引擎、輸入法加上翻譯硬件,都是面向C端用戶的產(chǎn)品,而C端用戶往往又是對產(chǎn)品體驗要求最高、最苛刻的。所以我們在搜狗文檔翻譯上,也能看到搜狗的產(chǎn)品設(shè)計體系的成熟和游刃有余。 在產(chǎn)品設(shè)計上,我們可以看到搜狗文檔翻譯完美還原了原來合同中的段落,以雙屏對照顯示。同時每一個段落都可以隨著鼠標(biāo)移動在兩屏對照點亮,讓用戶清楚地看到每一句中文和對應(yīng)的英文,方便進行修改和核查。對于行文嚴(yán)謹(jǐn)、需要反復(fù)修正的科研期刊、合同文件來說,可以節(jié)省很多反復(fù)查看文檔的時間。 更重要的是,搜狗文檔翻譯可以實現(xiàn)Doc、Docx、PDF三種格式文檔的中英互譯,像PDF這種不能編輯的文檔,在過去是一大難題,很多學(xué)術(shù)資料都以PDF的形式出現(xiàn),卻又不方便通過復(fù)制粘貼將文字挪騰到翻譯軟件中,現(xiàn)在可以直接翻譯PDF格式,省去了手動轉(zhuǎn)換成可編輯文檔的過程。 免費不難,但就此一家 最后最重要的一點是,目前雖然做文檔翻譯的企業(yè)很多,但只有搜狗文檔翻譯當(dāng)前獨家支持免費預(yù)覽、下載翻譯結(jié)果。 或許對于很多企業(yè)而言,除了向使用者收費,他們找不到其他變現(xiàn)途徑。這時就能體現(xiàn)出搜狗這樣產(chǎn)品和技術(shù)布局完善的企業(yè)的優(yōu)勢了:免費使用能夠吸引更多用戶,語料庫累積的增加可以進一步提升搜狗機器翻譯的能力,讓每個人都能成為機器翻譯走向?qū)I(yè)領(lǐng)域的見證者。同時更多用戶了解到搜狗機器翻譯的實力,也能間接促進翻譯硬件這類收費產(chǎn)品的銷售。 盡管現(xiàn)在人工智能只是在替代一些簡單的體力和腦力勞動,但人工智能逐漸走向復(fù)雜、專業(yè)的領(lǐng)域已經(jīng)是必然的趨勢,搜狗的文檔翻譯就是很好的例子。作為普通人,不妨對這類工具多加嘗試,畢竟能夠駕馭專業(yè)領(lǐng)域的人工智能,是和未來共同協(xié)作的第一步。 |
|