自然語言處理是包括了計算機科學(xué)、語言學(xué)心理認知學(xué)等一系列學(xué)科的一門交叉學(xué)科,這些學(xué)科性質(zhì)不同但又彼此相互交叉。
1950年圖靈提出了著名的“圖靈測試”,這一般被認為是自然語言處理思想的開端。
20世紀50年代到70年代自然語言處理主要采用基于規(guī)則的方法。 70年代以后隨著互聯(lián)網(wǎng)的高速發(fā)展,自然語言處理思潮由理性主義向經(jīng)驗主義過渡,基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。 從2008年到現(xiàn)在,在圖像識別和語音識別領(lǐng)域的成果激勵下,人們也逐漸開始引入深度學(xué)習來做自然語言處理研究。
由最初的詞向量到2013年word2vec,將深度學(xué)習與自然語言處理的結(jié)合推向了高潮,并在機器翻譯、問答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。 接下來AMiner將為大家介紹自然語言處理的業(yè)界發(fā)展,涵蓋了以下企業(yè)。 微軟亞洲研究院微軟亞洲研究院1998年成立自然語言計算組,研究內(nèi)容包括多國語言文本分析、機器翻譯、跨語言信息檢索和自動問答系統(tǒng)等。
這些研究項目研發(fā)了一系列實用成果,如IME(Input Method Editors輸入法編輯器,它是一種專門的應(yīng)用程序, 用來輸入代表東亞地區(qū)書面語言文字的不同字符。)、對聯(lián)游戲、Bing詞典、Bing翻譯器、語音翻譯、搜索引擎等,為微軟產(chǎn)品做出了重大的貢獻。
微軟IME
微軟對聯(lián)游戲
微軟必應(yīng)詞典 并且在自然語言處理頂級會議,例如ACL、COLING等會議上發(fā)表了許多論文。 語音翻譯 2017年微軟在語音翻譯上全面采用了神經(jīng)網(wǎng)絡(luò)機器翻譯,并新擴展了Microsoft Translator Live Feature。 可以在演講和開會時,實時同步在手機端和桌面端,同時把講話者的話翻譯成多種語言。
其中最重要的技術(shù)是對于源語言的編碼以及引進的語言知識,同時,微軟還表示,將來要將知識圖譜納入神經(jīng)網(wǎng)絡(luò)機器翻譯中規(guī)劃語言理解的過程中。 人機對話 小娜現(xiàn)在已經(jīng)擁有超過1.4億用戶,在數(shù)以十億計的設(shè)備上與人們進行交流,并且覆蓋了十幾種語言。
有聊天機器人小冰,正在試圖把各國語言的知識融合在一起,實現(xiàn)一個開放語言自由聊天的過程,目前小冰實現(xiàn)了中文、日文和英文的覆蓋,有上億用戶。
Google是最早開始研究自然語言處理技術(shù)的團隊之一,作為一個以搜索為核心的公司,Google對自然語言處理更為重視。
Google擁有著海量數(shù)據(jù),可以搭建豐富龐大的數(shù)據(jù)庫,可以為其研究提供強大的數(shù)據(jù)支撐。 Google對自然語言處理的研究側(cè)重于應(yīng)用規(guī)模、跨語言和跨領(lǐng)域的算法。 機器翻譯
知識圖譜 Google的知識圖譜更是遙遙領(lǐng)先,例如自動挖掘新知識的準確程度、文本中命名實體的識別、純文本搜索詞條到在知識圖譜上的結(jié)構(gòu)化搜索詞條的轉(zhuǎn)換等,效果都領(lǐng)先于其他公司,而且很多技術(shù)都實現(xiàn)了產(chǎn)品化。
語音識別 Google一直致力于投資語音搜索技術(shù)和蘋果公司的siri競爭,自2012年以來將神經(jīng)網(wǎng)絡(luò)應(yīng)用于這一領(lǐng)域,使語音識別錯誤率極大降低。 2011年收購語言信息平臺SayNow,把語音通信、點對點對話、以及群組通話和社交應(yīng)用融合在一起。 2014年收購了SR Tech Group的多項語音識別相關(guān)專利。 Facebook涉獵自然語言處理較晚,2013年開始發(fā)展語音翻譯,2015年開始語音識別的研發(fā)之路。 語音翻譯 發(fā)展道路如下圖所示:
語音識別 2015年,F(xiàn)acebook相繼建立語音識別和對話理解工具,開始了語音識別的研發(fā)之路。 2016年Facebook開發(fā)了一個響應(yīng)“Hey Oculus”的語音識別系統(tǒng)。 并在2018年初開發(fā)了wav2letter,這是一個簡單高效的端到端自動語音識別(ASR)系統(tǒng)。 百度 百度自然語言處理部是百度最早成立的部門之一,研究涉及以下方面。
百度在深度問答方向經(jīng)過多年打磨,積累了問句理解、答案抽取、觀點分析與聚合等方面的一整套技術(shù)方案,目前已經(jīng)在搜索、度秘等多個產(chǎn)品中實現(xiàn)應(yīng)用。 百度翻譯目前支持全球28種語言,覆蓋756個翻譯方向,支持文本、語音、圖像等翻譯功能,并提供精準人工翻譯服務(wù),滿足不同場景下的翻譯需求,發(fā)布了世界上首個線上神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),并獲得2015年度國家科技進步獎。 阿里巴巴 阿里自然語言處理為其產(chǎn)品服務(wù),在電商平臺中構(gòu)建知識圖譜實現(xiàn)智能導(dǎo)購,同時進行全網(wǎng)用戶興趣挖掘,在客服場景中也運用自然語言處理技術(shù)打造機器人客服。 例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等,同時進行語音識別以及后續(xù)分析。
阿里的機器翻譯主要與其國家化電商的規(guī)劃相聯(lián)系,2017年初阿里正式上線了自主開發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),進一步提升了其翻譯質(zhì)量。 騰訊
AI Lab是騰訊的人工智能實驗室,研究領(lǐng)域包括計算機視覺、語音識別、自然語言處理、機器學(xué)習等。
其研發(fā)的騰訊文智自然語言處理基于并行計算、分布式爬蟲系統(tǒng),結(jié)合獨特的語義分析技術(shù),可滿足自然語言處理、轉(zhuǎn)碼、抽取、數(shù)據(jù)抓取等需求。 在機器翻譯方面,2017年騰訊宣布翻譯君上線“同聲傳譯”新功能,用戶邊說邊翻的需求得到滿足,語音識別+NMT等技術(shù)的應(yīng)用保證了邊說邊翻的速度與精準性。 京東 京東在人工智能的浪潮中也不甘落后。京東AI開放平臺基本上由模型定制化平臺和在線服務(wù)模塊構(gòu)成,其中在線服務(wù)模塊包括計算機視覺、語音交互、自然語言處理和機器學(xué)習等。 按照京東的規(guī)劃,NeuHub平臺將作為普惠性開放平臺,不同角色均可找到適合自己的場景,例如用簡單代碼即可實現(xiàn)對圖像質(zhì)量的分析評估。
從業(yè)務(wù)上說,平臺可以支撐科研人員、算法工程師不斷設(shè)計新的AI能力以滿足用戶需求。 并深耕電商、供應(yīng)鏈、物流、金融、廣告等多個領(lǐng)域應(yīng)用,探索試驗醫(yī)療、扶貧、政務(wù)、養(yǎng)老、教育、文化、體育等多領(lǐng)域應(yīng)用。聚焦于新技術(shù)和行業(yè)趨勢研究,孵化行業(yè)最新落地項目。 科大訊飛 科大訊飛股份有限公司成立于1999年,是一家專業(yè)從事智能語音及語言技術(shù)、人工智能技術(shù)研究、軟件及芯片產(chǎn)品開發(fā)、語音信息服務(wù)及電子政務(wù)系統(tǒng)集成的國家級骨干軟件企業(yè)。
科大訊飛作為中國智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者,在語音合成、語音識別、口語評測、自然語言處理等多項技術(shù)上擁有國際領(lǐng)先的成果。 科大訊飛成立之時就開始在語言和翻譯領(lǐng)域布局項目?;谏疃壬窠?jīng)網(wǎng)絡(luò)算法上的創(chuàng)新和突破,在翻譯方面的發(fā)展如下圖所示。
關(guān)于AMiner: |
|