微軟教你作英文 (2009-02-27 10:43:32)
在垂直搜索領(lǐng)域微軟亞洲研究院始終保持著奔跑的姿態(tài):借助英庫(Engkoo),傳統(tǒng)的在線詞典模式被突破。 選自《互聯(lián)網(wǎng)周刊》2009年第4期,作者:馬薈 “毫不夸張地說,我對(duì)英庫渴望已久。”微軟亞洲研究院自然語言計(jì)算組副研究員劉曉華在采訪快結(jié)束時(shí)才對(duì)記者說了一句很“私人”的感受。“我是一個(gè)中國人,在微軟亞洲研究院,我的日常語言變成了英語,日??陬^交流還好說,但是發(fā)郵件、演示PPT、寫研究論文就需要精益求精。這樣特定的角色就要求我像美國人一樣寫出純正、地道的英文來。” 坐在劉曉華身邊的Matthew Scott掛著夏威夷陽光般親切的笑容,這個(gè)來自紐約的小伙子是微軟亞洲研究院技術(shù)轉(zhuǎn)化組軟件開發(fā)工程師,同時(shí),也是英庫項(xiàng)目的負(fù)責(zé)人,Matthew Scott現(xiàn)在還聽不懂劉曉華和記者之間的中文對(duì)話。對(duì)于一個(gè)不懂漢語的外國人,卻在負(fù)責(zé)一個(gè)用來幫助中國人能夠?qū)懞糜⑽奈恼碌拇怪彼阉饕娴囊苫?,記者很快釋然了。因?yàn)閺腗atthew Scott的微笑中感受到的是他與這個(gè)全球性的跨國企業(yè)相似的表情:充滿“親和力”的本地化創(chuàng)新。 微軟在基礎(chǔ)研究階段就定下了產(chǎn)品的基調(diào):面向中國文化和中國用戶的需求。微軟作為一名后來新兵在紛繁的在線詞典市場,從幫助國人寫好英文文章的角度,選擇了與谷歌、網(wǎng)易有道詞典、愛詞霸完全不同的開始。 希格瑪?shù)牡氐烙⑶?/font> 英庫在線英語工具(www.)本質(zhì)上是一個(gè)幫助中國人學(xué)習(xí)英語的垂直搜索引擎。與微軟亞洲研究院的有些研究成果相似,英庫的誕生是微軟亞洲研究院研究員們的無數(shù)次冒險(xiǎn)和嘗試之一。“開始的想法也并不在于商業(yè)上的應(yīng)用,而是流傳在研究院內(nèi)部的一個(gè)有用的小工具。”Matthew Scott對(duì)記者說。 英庫凝結(jié)了包括創(chuàng)新工程組、語音組、用戶體驗(yàn)組、機(jī)器學(xué)習(xí)組等不同領(lǐng)域的研究團(tuán)隊(duì)的集體的智慧,而微軟亞洲研究院的研究員們就成了英庫第一批使用者。 融合了包括微軟Office詞典、電子百科全書等十余部經(jīng)過授權(quán)的專業(yè)詞典;英庫對(duì)整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁進(jìn)行分析、抽取、整理獲得數(shù)量巨大不斷更新的雙語例句和短語,再利用自然語言計(jì)算、統(tǒng)計(jì)機(jī)器學(xué)習(xí)等技術(shù)對(duì)雙語例句做了自動(dòng)分類、質(zhì)量分析、相關(guān)度排序、語法分析等處理,在此基礎(chǔ)之上構(gòu)建了基于語言學(xué)特征的高維索引,從而提供了超越關(guān)鍵詞的新的檢索體驗(yàn)。 經(jīng)過了無數(shù)次的改進(jìn),英庫經(jīng)受住了希格瑪大廈里這群“最聰明”人的挑剔和“找茬”。在去年11月微軟亞洲研究院“創(chuàng)新日”活動(dòng)上,英庫和其他展出的四十多項(xiàng)創(chuàng)新成果首次亮相就吸引了眾人目光。 “也許別的在線詞典的搜索功能已經(jīng)很完善,但是英庫著實(shí)為用戶著想,不僅詞庫完整,更注重用戶的體驗(yàn)以及操作的便捷。我相信英庫一定會(huì)在將來成為最受歡迎的在線詞典之一。”北京理工大學(xué)微軟技術(shù)俱樂部王維堃在看過技術(shù)演示后說。 世搜新語 界面友好度和細(xì)節(jié)上的斟酌往往決定了軟件的生命力,相較于大多數(shù)停留在翻譯功能的在線詞典來說,英庫的確是個(gè)突破。 “在寫作過程中,常需要找一個(gè)詞來搭配另外一個(gè)詞來潤色句子表達(dá),英庫的詞性百搭就提供了這樣的功能,輸入句子主干,對(duì)于無法確定的單詞,可以使用該詞的詞性縮寫代替,英庫就能自動(dòng)搜索出符合要求的例句,這對(duì)于我寫技術(shù)性的英文報(bào)告幫助太大了。”劉曉華這樣向記者介紹。 在英庫詞典搜索框中輸入一個(gè)單詞,所有相關(guān)的信息都匯集于一個(gè)頁面。在頁面上端,列出了常用解釋,同時(shí)包括音標(biāo)、詞性、中英文翻譯、詞形變化等。這種基于千萬數(shù)量級(jí)權(quán)威詞典和網(wǎng)上最新詞匯而搜索到的詞匯釋義被Matthew Scott形容為“與時(shí)俱進(jìn)”。 緊接著詞匯釋義的是關(guān)于所搜索詞的例句搜索結(jié)果,包括英文例句、中文例句和例句的來源。這些例句是從海量的互聯(lián)網(wǎng)數(shù)據(jù)中選擇出來的,通過復(fù)雜的機(jī)器語言分析和算法,把有拼寫錯(cuò)誤、語法錯(cuò)誤、句子特別長、或者包含怪符號(hào)、中文翻譯質(zhì)量差的排除掉,之后再對(duì)篩選后的數(shù)據(jù)進(jìn)一步算分?jǐn)?shù)。“現(xiàn)在可以呈現(xiàn)出10條例句,就會(huì)有一個(gè)質(zhì)量由高到低的排序,以后會(huì)呈現(xiàn)更多的例句,通過機(jī)器計(jì)算來讓用戶自己選擇。”Matthew Scott向記者介紹到。 值得一提的是英庫的例句檢索功能。通過對(duì)例句進(jìn)行進(jìn)一步的加工,無論是口語的、書面語的,還是技術(shù)性詞匯,用戶根據(jù)這些檢索條件,選擇對(duì)應(yīng)難度的例句。因此無論是小學(xué)生寫作文、還是專業(yè)研究者寫論文或者是員工給老板呈報(bào)告,都可以找到適合自己文章難度的例句。以“mouse”這個(gè)單詞為例,它既有老鼠的意思,同時(shí)也是鼠標(biāo)的意思。 對(duì)于相似的詞條,可以把兩個(gè)近義詞拖放到一起,在同一個(gè)頁面中進(jìn)行比較,不僅可以比較詞的原型,還可以比較詞的變形和不同的詞性。而點(diǎn)擊頁面中出現(xiàn)的單詞,可以局部刷新,并且能用機(jī)器合成的朗讀音來地道的朗讀例句。 起跑之后 從幫助中國人寫地道的英文文章出發(fā),微軟的定位很明確:做在線詞典的第二個(gè)層次——在線的翻譯結(jié)果往往難以達(dá)到文章寫作的要求,這個(gè)時(shí)候就可以通過英庫驗(yàn)證從而得到地道的英文表達(dá)。 說起英庫的未來,MattewScott雙眼放出激動(dòng)的光芒:“我們接下來馬上就會(huì)添加一些更有用的功能,比如說,把英文句子劃出,通過機(jī)器的翻譯立刻用中文表達(dá)出來。包括英文句子和英文段落的機(jī)器翻譯和表達(dá)方式,這些都是我們目前正在研究的課題。” 語言是人們溝通的手段,技術(shù)縮短了交流的距離,微軟在這兩個(gè)對(duì)人類發(fā)展最重要領(lǐng)域之間架起了一座橋梁。 微軟在基礎(chǔ)研究階段就定下了產(chǎn)品的基調(diào):面向中國文化和中國用戶的需求。從人立方、對(duì)聯(lián)搜索到如今的英庫在線英語工具,微軟亞洲研究院在垂直搜索領(lǐng)域保持著奔跑的姿態(tài)。 |
|