大數(shù)據(jù)云計算技術(shù)：自然語言處理到底哪家強？

昵稱16619343 2018-07-28

展開全文

自然語言處理是包括了計算機科學(xué)、語言學(xué)心理認知學(xué)等一系列學(xué)科的一門交叉學(xué)科，這些學(xué)科性質(zhì)不同但又彼此相互交叉。

1950年圖靈提出了著名的“圖靈測試”，這一般被認為是自然語言處理思想的開端。

20世紀50年代到70年代自然語言處理主要采用基于規(guī)則的方法。

70年代以后隨著互聯(lián)網(wǎng)的高速發(fā)展，自然語言處理思潮由理性主義向經(jīng)驗主義過渡，基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。

從2008年到現(xiàn)在，在圖像識別和語音識別領(lǐng)域的成果激勵下，人們也逐漸開始引入深度學(xué)習來做自然語言處理研究。

由最初的詞向量到2013年word2vec，將深度學(xué)習與自然語言處理的結(jié)合推向了高潮，并在機器翻譯、問答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。

接下來AMiner將為大家介紹自然語言處理的業(yè)界發(fā)展，涵蓋了以下企業(yè)。

微軟亞洲研究院微軟亞洲研究院1998年成立自然語言計算組，研究內(nèi)容包括多國語言文本分析、機器翻譯、跨語言信息檢索和自動問答系統(tǒng)等。

這些研究項目研發(fā)了一系列實用成果，如IME(Input Method Editors輸入法編輯器，它是一種專門的應(yīng)用程序，用來輸入代表東亞地區(qū)書面語言文字的不同字符。)、對聯(lián)游戲、Bing詞典、Bing翻譯器、語音翻譯、搜索引擎等，為微軟產(chǎn)品做出了重大的貢獻。

微軟IME

微軟對聯(lián)游戲

微軟必應(yīng)詞典

并且在自然語言處理頂級會議，例如ACL、COLING等會議上發(fā)表了許多論文。

語音翻譯

2017年微軟在語音翻譯上全面采用了神經(jīng)網(wǎng)絡(luò)機器翻譯，并新擴展了Microsoft Translator Live Feature。

可以在演講和開會時，實時同步在手機端和桌面端，同時把講話者的話翻譯成多種語言。

其中最重要的技術(shù)是對于源語言的編碼以及引進的語言知識，同時，微軟還表示，將來要將知識圖譜納入神經(jīng)網(wǎng)絡(luò)機器翻譯中規(guī)劃語言理解的過程中。

人機對話

小娜現(xiàn)在已經(jīng)擁有超過1.4億用戶，在數(shù)以十億計的設(shè)備上與人們進行交流，并且覆蓋了十幾種語言。

有聊天機器人小冰，正在試圖把各國語言的知識融合在一起，實現(xiàn)一個開放語言自由聊天的過程，目前小冰實現(xiàn)了中文、日文和英文的覆蓋，有上億用戶。

Google

Google是最早開始研究自然語言處理技術(shù)的團隊之一，作為一個以搜索為核心的公司，Google對自然語言處理更為重視。

Google擁有著海量數(shù)據(jù)，可以搭建豐富龐大的數(shù)據(jù)庫，可以為其研究提供強大的數(shù)據(jù)支撐。

Google對自然語言處理的研究側(cè)重于應(yīng)用規(guī)模、跨語言和跨領(lǐng)域的算法。

機器翻譯

知識圖譜

Google的知識圖譜更是遙遙領(lǐng)先，例如自動挖掘新知識的準確程度、文本中命名實體的識別、純文本搜索詞條到在知識圖譜上的結(jié)構(gòu)化搜索詞條的轉(zhuǎn)換等，效果都領(lǐng)先于其他公司，而且很多技術(shù)都實現(xiàn)了產(chǎn)品化。

語音識別

Google一直致力于投資語音搜索技術(shù)和蘋果公司的siri競爭，自2012年以來將神經(jīng)網(wǎng)絡(luò)應(yīng)用于這一領(lǐng)域，使語音識別錯誤率極大降低。

2011年收購語言信息平臺SayNow，把語音通信、點對點對話、以及群組通話和社交應(yīng)用融合在一起。

2014年收購了SR Tech Group的多項語音識別相關(guān)專利。

Facebook

Facebook涉獵自然語言處理較晚，2013年開始發(fā)展語音翻譯，2015年開始語音識別的研發(fā)之路。

語音翻譯

發(fā)展道路如下圖所示：

語音識別

2015年，F(xiàn)acebook相繼建立語音識別和對話理解工具，開始了語音識別的研發(fā)之路。

2016年Facebook開發(fā)了一個響應(yīng)“Hey Oculus”的語音識別系統(tǒng)。

并在2018年初開發(fā)了wav2letter，這是一個簡單高效的端到端自動語音識別(ASR)系統(tǒng)。

百度

百度自然語言處理部是百度最早成立的部門之一，研究涉及以下方面。

百度在深度問答方向經(jīng)過多年打磨，積累了問句理解、答案抽取、觀點分析與聚合等方面的一整套技術(shù)方案，目前已經(jīng)在搜索、度秘等多個產(chǎn)品中實現(xiàn)應(yīng)用。

百度翻譯目前支持全球28種語言，覆蓋756個翻譯方向，支持文本、語音、圖像等翻譯功能，并提供精準人工翻譯服務(wù)，滿足不同場景下的翻譯需求，發(fā)布了世界上首個線上神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)，并獲得2015年度國家科技進步獎。

阿里巴巴

阿里自然語言處理為其產(chǎn)品服務(wù)，在電商平臺中構(gòu)建知識圖譜實現(xiàn)智能導(dǎo)購，同時進行全網(wǎng)用戶興趣挖掘，在客服場景中也運用自然語言處理技術(shù)打造機器人客服。

例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等，同時進行語音識別以及后續(xù)分析。

阿里的機器翻譯主要與其國家化電商的規(guī)劃相聯(lián)系，2017年初阿里正式上線了自主開發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)，進一步提升了其翻譯質(zhì)量。

騰訊

AI Lab是騰訊的人工智能實驗室，研究領(lǐng)域包括計算機視覺、語音識別、自然語言處理、機器學(xué)習等。

其研發(fā)的騰訊文智自然語言處理基于并行計算、分布式爬蟲系統(tǒng)，結(jié)合獨特的語義分析技術(shù)，可滿足自然語言處理、轉(zhuǎn)碼、抽取、數(shù)據(jù)抓取等需求。

在機器翻譯方面，2017年騰訊宣布翻譯君上線“同聲傳譯”新功能，用戶邊說邊翻的需求得到滿足，語音識別+NMT等技術(shù)的應(yīng)用保證了邊說邊翻的速度與精準性。

京東

京東在人工智能的浪潮中也不甘落后。京東AI開放平臺基本上由模型定制化平臺和在線服務(wù)模塊構(gòu)成，其中在線服務(wù)模塊包括計算機視覺、語音交互、自然語言處理和機器學(xué)習等。

按照京東的規(guī)劃，NeuHub平臺將作為普惠性開放平臺，不同角色均可找到適合自己的場景，例如用簡單代碼即可實現(xiàn)對圖像質(zhì)量的分析評估。

從業(yè)務(wù)上說，平臺可以支撐科研人員、算法工程師不斷設(shè)計新的AI能力以滿足用戶需求。

并深耕電商、供應(yīng)鏈、物流、金融、廣告等多個領(lǐng)域應(yīng)用，探索試驗醫(yī)療、扶貧、政務(wù)、養(yǎng)老、教育、文化、體育等多領(lǐng)域應(yīng)用。聚焦于新技術(shù)和行業(yè)趨勢研究，孵化行業(yè)最新落地項目。

科大訊飛

科大訊飛股份有限公司成立于1999年，是一家專業(yè)從事智能語音及語言技術(shù)、人工智能技術(shù)研究、軟件及芯片產(chǎn)品開發(fā)、語音信息服務(wù)及電子政務(wù)系統(tǒng)集成的國家級骨干軟件企業(yè)。

科大訊飛作為中國智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者，在語音合成、語音識別、口語評測、自然語言處理等多項技術(shù)上擁有國際領(lǐng)先的成果。

科大訊飛成立之時就開始在語言和翻譯領(lǐng)域布局項目?；谏疃壬窠?jīng)網(wǎng)絡(luò)算法上的創(chuàng)新和突破，在翻譯方面的發(fā)展如下圖所示。

關(guān)于AMiner：

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：昵稱16619343 > 《數(shù)據(jù)分析與知識發(fā)現(xiàn)》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

昵稱16619343

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 醒世良言36篇
[轉(zhuǎn)] 學(xué)術(shù)期刊的級別、種類、等級，這篇文章全講清楚了
教育的本質(zhì)是什么？
數(shù)學(xué)強國系列｜意大利數(shù)學(xué)發(fā)展史
2020年12月文章目錄
數(shù)學(xué)到底是什么？布爾巴基學(xué)派啟示錄（上）

喜歡該文的人也喜歡更多

熱門閱讀換一換

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

大數(shù)據(jù)云計算技術(shù)：自然語言處理到底哪家強？

大數(shù)據(jù)云計算技術(shù)：自然語言處理到底哪家強？