一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

在語音識(shí)別這件事上,漢語比英語早一年超越人類水平

 昵稱535749 2016-10-24

吳倩男: 一項(xiàng)技術(shù)終究要變成產(chǎn)品和服務(wù)才能實(shí)現(xiàn)價(jià)值

該文章轉(zhuǎn)自  機(jī)器之心
在語音識(shí)別這件事上,漢語比英語早一年超越人類水平

作者:吳攀、李亞洲


幾天前,微軟語音識(shí)別實(shí)現(xiàn)了歷史性突破,英語的語音轉(zhuǎn)錄達(dá)到專業(yè)速錄員水平,機(jī)器之心也獨(dú)家專訪了專訪微軟首席語音科學(xué)家黃學(xué)東 ,了解到詞錯(cuò)率僅 5.9% 背后的「秘密武器」——CNTK。但微軟的成果是在英語水平上的,從部分讀者留言中我們了解到對(duì)漢語語音識(shí)別的前沿成果不太了解,這篇文章將向大家介紹國內(nèi)幾家公司在漢語識(shí)別上取得的成果。


10 月 19 日,微軟的這條消息發(fā)布之后在業(yè)內(nèi)引起了極大的關(guān)注。語音識(shí)別一直是國內(nèi)外許多科技公司發(fā)展的重要技術(shù)之一,微軟的此次突破是識(shí)別能力在英語水平上第一次超越人類。在消息公開之后,百度首席科學(xué)家吳恩達(dá)就發(fā)推恭賀微軟在英語語音識(shí)別上的突破,同時(shí)也讓我們回憶起一年前百度在漢語語音識(shí)別上的突破。



吳恩達(dá):在 2015 年我們就超越了人類水平的漢語識(shí)別;很高興看到微軟在不到一年之后讓英語也達(dá)到了這一步。


百度 Deep Speech2,漢語語音識(shí)別媲美人類


去年 12 月,百度研究院硅谷人工智能實(shí)驗(yàn)室(SVAIL)在 arXiv 上發(fā)表了一篇論文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin(Deep Speech 2:端到端的英語和漢語語音識(shí)別)》,介紹了百度在語音識(shí)別技術(shù)的研究成果。




論文摘要:


我們的研究表明一種端到端的深度學(xué)習(xí)(end-to-end deep learning)方法既可以被用于識(shí)別英語語音,也可以被用于識(shí)別漢語語音——這是兩種差異極大的語言。因?yàn)橛蒙窠?jīng)網(wǎng)絡(luò)完全替代了人工設(shè)計(jì)組件的流程,端到端學(xué)習(xí)讓我們可以處理包含噪雜環(huán)境、口音和不同語言的許多不同的語音。我們的方法的關(guān)鍵是 HPC(高性能計(jì)算)技術(shù)的應(yīng)用,這讓我們的系統(tǒng)的速度超過了我們之前系統(tǒng)的 7 倍。因?yàn)閷?shí)現(xiàn)了這樣的效率,之前需要耗時(shí)幾周的實(shí)驗(yàn)現(xiàn)在幾天就能完成。這讓我們可以更快速地迭代以確定更先進(jìn)的架構(gòu)和算法。這讓我們的系統(tǒng)在多種情況下可以在標(biāo)準(zhǔn)數(shù)據(jù)集基準(zhǔn)上達(dá)到能與人類轉(zhuǎn)錄員媲美的水平。最后,通過在數(shù)據(jù)中心的 GPU 上使用一種叫做的 Batch Dispatch 的技術(shù),我們表明我們的系統(tǒng)可以并不昂貴地部署在網(wǎng)絡(luò)上,并且能在為用戶提供大規(guī)模服務(wù)時(shí)實(shí)現(xiàn)較低的延遲。



論文中提到的 Deep Speech 系統(tǒng)是百度 2014 年宣布的、起初用來改進(jìn)噪聲環(huán)境中英語語音識(shí)別準(zhǔn)確率的系統(tǒng)。在當(dāng)時(shí)發(fā)布的博客文章中,百度表示在 2015 年 SVAIL 在改進(jìn) Deep Speech 在英語上的表現(xiàn)的同時(shí),也正訓(xùn)練它來轉(zhuǎn)錄漢語。


當(dāng)時(shí),百度首席科學(xué)家吳恩達(dá)說:「SVAIL 已經(jīng)證明我們的端到端深度學(xué)習(xí)方法可被用來識(shí)別相當(dāng)不同的語言。我們方法的關(guān)鍵是對(duì)高性能計(jì)算技術(shù)的使用,相比于去年速度提升了 7 倍。因?yàn)檫@種效率,先前花費(fèi)兩周的實(shí)驗(yàn)如今幾天內(nèi)就能完成。這使得我們能夠更快地迭代?!?/p>


語音識(shí)別技術(shù)已經(jīng)發(fā)展了十多年的時(shí)間,這一領(lǐng)域的傳統(tǒng)強(qiáng)者一直是谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭——據(jù) TechCrunch 統(tǒng)計(jì),美國至少有 26 家公司在開發(fā)語音識(shí)別技術(shù)。


但是盡管谷歌這些巨頭在語音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓后來者似乎難望其項(xiàng)背,但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因,這些巨頭的語音識(shí)別主要偏向于英語,這給百度在漢語領(lǐng)域?qū)崿F(xiàn)突出表現(xiàn)提供了機(jī)會(huì)。


作為中國最大的搜索引擎公司,百度收集了大量漢語(尤其是普通話)的音頻數(shù)據(jù),這給其 Deep Speech 2 技術(shù)成果提供了基本的數(shù)據(jù)優(yōu)勢(shì)。


不過有意思的是,百度的 Deep Speech 2 技術(shù)主要是在硅谷的人工智能實(shí)驗(yàn)室開發(fā)的,其研究科學(xué)家(名字可見于論文)大多對(duì)漢語并不了解或說得并不好。


但這顯然并不是問題。


盡管 Deep Speech 2 在漢語上表現(xiàn)非常不錯(cuò),但其最初實(shí)際上并不是為理解漢語訓(xùn)練的。百度美國的人工智能實(shí)驗(yàn)室負(fù)責(zé)人 Adam Coates 說:「我們?cè)谟⒄Z中開發(fā)的這個(gè)系統(tǒng),但因?yàn)樗峭耆疃葘W(xué)習(xí)的,基本上是基于數(shù)據(jù)的,所以我們可以很快地用普通話替代這些數(shù)據(jù),從而訓(xùn)練出一個(gè)非常強(qiáng)大的普通話引擎?!?/p>




用于英語和普通話的 Deep Speech 2 系統(tǒng)架構(gòu),它們之間唯一的不同是:普通話版本的輸出層更大(有 6000 多個(gè)漢語字符),而英語版本的只有 29 個(gè)字符。


該系統(tǒng)能夠識(shí)別「混合語音(hybrid speech)」——很多普通話說話人會(huì)組合性地使用英語和普通話。


在 Deep Speech 2 于 2015 年 12 月首次發(fā)布時(shí),首席科學(xué)家吳恩達(dá)表示其識(shí)別的精度已經(jīng)超越了 Google Speech API、wit.ai、微軟的 Bing Speech 和蘋果的 Dictation 至少 10 個(gè)百分點(diǎn)。


據(jù)百度表示,到今年 2 月份時(shí),Deep Speech 2 的短語識(shí)別的詞錯(cuò)率已經(jīng)降到了 3.7%!Coates 說 Deep Speech 2 轉(zhuǎn)錄某些語音的能力「基本上是超人級(jí)的」,能夠比普通話母語者更精確地轉(zhuǎn)錄較短的查詢。


百度在其技術(shù)發(fā)展上大步邁進(jìn),Deep Speech 2 目前已經(jīng)發(fā)展成了什么樣還很難說。但一項(xiàng)技術(shù)終究要變成產(chǎn)品和服務(wù)才能實(shí)現(xiàn)價(jià)值。


科大訊飛的語音識(shí)別


百度的 Deep Speech 識(shí)別技術(shù)是很驚人,但就像前文所說一項(xiàng)技術(shù)終究要變成產(chǎn)品和服務(wù)才能實(shí)現(xiàn)價(jià)值,科大訊飛無疑在這方面是做得最好的公司之一。


科大訊飛在自然語言處理上的成就是有目共睹的,在語音識(shí)別上的能力從最初到現(xiàn)在也在不斷迭代中。2015 年 9 月底,機(jī)器之心對(duì)胡郁的一次專訪中,他就對(duì)科大訊飛語音識(shí)別技術(shù)的發(fā)展路線做過清晰的介紹:


科大訊飛很好地跟隨了語音識(shí)別的發(fā)展歷史,深度神經(jīng)網(wǎng)絡(luò)由 Geoffrey Hinton 與微軟的鄧力研究員最先開始做,科大訊飛迅速跟進(jìn),成為國內(nèi)第一個(gè)在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡(luò)的公司。谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)的公司,谷歌的 Voice Search 也在最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識(shí)別。在這方面,科大訊飛受到了谷歌的啟發(fā),在國內(nèi)最早把漣漪效應(yīng)用在了語音識(shí)別上面,因此超越了其他平臺(tái)。


科大訊飛最初使用隱馬爾可夫模型,后面開始在互聯(lián)網(wǎng)上做,2009 年準(zhǔn)備發(fā)布一個(gè)網(wǎng)頁 demo,同年 9 月份安卓發(fā)布之后開始轉(zhuǎn)型移動(dòng)互聯(lián)網(wǎng),并于 2010 年 5 月發(fā)布了一個(gè)可以使用的手機(jī)上的 demo;2010 年 10 月份發(fā)布了語音輸入法和語音云。


整個(gè)過程中最難的地方在于,當(dāng)你不知道這件事情是否可行時(shí),你能夠證明它可行。美國那些公司就是在做這樣的事情。而科大訊飛最先領(lǐng)悟到,并最先在國內(nèi)做的。


到今年 10 月份剛好過去一年,科大訊飛的語音識(shí)別技術(shù)在此期間依然推陳出新,不斷進(jìn)步。去年 12 月 21 日,在北京國家會(huì)議中心召開的以「AI 復(fù)始,萬物更新」為主題的年度發(fā)布會(huì)上,科大訊飛提出了以前饋型序列記憶網(wǎng)絡(luò)(FSMN, Feed-forward Sequential Memory Network)為代表的新一代語音識(shí)別系統(tǒng)。




論文摘要:


在此論文中,我們提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),也就是前饋型序列記憶網(wǎng)絡(luò)(FSMN),在不使用循環(huán)前饋的情況下建模時(shí)間序列中的 long-term dependency。此次提出的 FSMN 是一個(gè)標(biāo)準(zhǔn)的全連接前饋神經(jīng)網(wǎng)絡(luò),在其隱層中配備了一些可學(xué)習(xí)的記憶塊。該記憶塊使用一個(gè)抽頭延時(shí)線結(jié)構(gòu)將長(zhǎng)語境信息編碼進(jìn)固定大小的表征作為短期記憶機(jī)制。我們?cè)跀?shù)個(gè)標(biāo)準(zhǔn)的基準(zhǔn)任務(wù)上評(píng)估了 FSMN,包括語音識(shí)別和語言建模。實(shí)驗(yàn)結(jié)果表明,F(xiàn)SMN 在建模語音或語言這樣的序列信號(hào)上,極大的超越了卷積循環(huán)神經(jīng)網(wǎng)絡(luò),包括 LSTM。此外,由于內(nèi)在無循環(huán)模型架構(gòu),F(xiàn)SMN 能更可靠、更快速地學(xué)習(xí)。


后來通過進(jìn)一步的研究,在 FSMN 的基礎(chǔ)之上,科大訊飛再次推出全新的語音識(shí)別框架,將語音識(shí)別問題重新定義為「看語譜圖」的問題,并通過引入圖像識(shí)別中主流的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN, Convolutional Neural Network)實(shí)現(xiàn)了對(duì)語譜圖的全新解析,同時(shí)打破了傳統(tǒng)深度語音識(shí)別系統(tǒng)對(duì) DNN 和 RNN 等網(wǎng)絡(luò)結(jié)構(gòu)的依賴,最終將識(shí)別準(zhǔn)確度提高到了新的高度。


后來,科大訊飛又推出了全新的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network, DFCNN)語音識(shí)別框架,使用大量的卷積層直接對(duì)整句語音信號(hào)進(jìn)行建模,更好的表達(dá)了語音的長(zhǎng)時(shí)相關(guān)性,比學(xué)術(shù)界和工業(yè)界最好的雙向 RNN 語音識(shí)別系統(tǒng)識(shí)別率提升了 15% 以上。



DFCNN 的結(jié)構(gòu)圖


DFCNN 的結(jié)構(gòu)如圖所 示,DFCNN 直接將一句語音轉(zhuǎn)化成一張圖像作為輸入,即先對(duì)每幀語音進(jìn)行傅里葉變換,再將時(shí)間和頻率作為圖像的兩個(gè)維度,然后通過非常多的卷積層和池化(pooling)層的組合,對(duì)整句語音進(jìn)行建模,輸出單元直接與最終的識(shí)別結(jié)果(比如音節(jié)或者漢字)相對(duì)應(yīng)。


搜狗語音識(shí)別


縱觀整個(gè)互聯(lián)網(wǎng)行業(yè),可以說搜狗作為一家技術(shù)型公司,在人工智能領(lǐng)域一直依靠實(shí)踐來獲取更多的經(jīng)驗(yàn),從而提升產(chǎn)品使用體驗(yàn)。


在前幾天的錘子手機(jī)新品發(fā)布會(huì)上羅永浩現(xiàn)場(chǎng)演示了科大訊飛的語音輸入之后,一些媒體也對(duì)科大訊飛和搜狗的輸入法的語音輸入功能進(jìn)行了對(duì)比,發(fā)現(xiàn)兩者在語音識(shí)別上都有很不錯(cuò)的表現(xiàn)。比如《齊魯晚報(bào)》的對(duì)比結(jié)果:


值得一提的是,得益于創(chuàng)新技術(shù),搜狗還擁有強(qiáng)大的離線語音識(shí)別引擎,在沒有網(wǎng)絡(luò)支持的情況下依舊可以做到中文語音識(shí)別,以日常語速說話,語音識(shí)別仍然能夠保持較高的準(zhǔn)確率。這一點(diǎn)科大訊飛表現(xiàn)也較為優(yōu)秀,兩者可謂旗鼓相當(dāng)。



整體體驗(yàn)下來,搜狗在普通話和英文的語音輸入方面表現(xiàn),與訊飛相比可以說毫不遜色,精準(zhǔn)地識(shí)別能力基本可以保證使用者無需進(jìn)行太多修改。此前在搜狗的知音引擎發(fā)布會(huì)上,搜狗語音交互技術(shù)項(xiàng)目負(fù)責(zé)人王硯峰稱「搜狗知音引擎具備包括端到端的語音識(shí)別、強(qiáng)大的智能糾錯(cuò)能力、知識(shí)整合使用能力以及多輪對(duì)話和復(fù)雜語義理解能力」,這些都有效保證了搜狗語音輸入在識(shí)別速度、精準(zhǔn)度、自動(dòng)糾錯(cuò)、結(jié)合上下文語意理解糾錯(cuò)方面收獲不錯(cuò)的表現(xiàn)。


八月份,搜狗發(fā)布了語音交互引擎——知音,其不僅帶來了語音識(shí)別準(zhǔn)確率和速度的大幅提升,還可以與用戶更加自然的交互,支持多輪對(duì)話,處理更復(fù)雜的用戶交互邏輯,等等。知音平臺(tái)體現(xiàn)出搜狗在人工智能技術(shù)領(lǐng)域的長(zhǎng)期積累,同時(shí)也能從中看出他們的技術(shù)基因和產(chǎn)品思維的良好結(jié)合。


搜狗知音引擎


搜狗把語音識(shí)別、語義理解、和知識(shí)圖譜等技術(shù)梳理成「知音交互引擎」,這主要是強(qiáng)調(diào)兩件事情,一是從語音的角度上讓機(jī)器聽的更加準(zhǔn)確,這主要是識(shí)別率的提升;另一方面是讓機(jī)器更自然的聽懂,這包括在語義和知識(shí)圖譜方面的發(fā)展,其中包括自然語言理解、多輪對(duì)話等技術(shù)。


語音識(shí)別系統(tǒng)流程:語音信號(hào)經(jīng)過前端信號(hào)處理、端點(diǎn)檢測(cè)等處理后,逐幀提取語音特征,傳統(tǒng)的特征類型包括 MFCC、PLP、FBANK 等特征,提取好的特征送至解碼器,在聲學(xué)模型、語言模型以及發(fā)音詞典的共同指導(dǎo)下,找到最為匹配的詞序列作為識(shí)別結(jié)果輸出。



CNN 語音識(shí)別系統(tǒng)建模流程


據(jù)搜狗上個(gè)月的一篇微信公眾號(hào)文章寫道:


在語音及圖像識(shí)別、自然語言理解等方面,基于多年在深度學(xué)習(xí)方面的研究,以及搜狗輸入法積累的海量數(shù)據(jù)優(yōu)勢(shì),搜狗語音識(shí)別準(zhǔn)確率已超 97%,位居第一。


不過遺憾的是,搜狗還尚未公布實(shí)現(xiàn)這一結(jié)果的相關(guān)參數(shù)的技術(shù)信息,所以我們還不清楚這樣的結(jié)果是否是在一定的限定條件下實(shí)現(xiàn)的。


就像TechCrunch 統(tǒng)計(jì)的美國有 26 家公司開發(fā)語音識(shí)別技術(shù)一樣,中國同樣有一批專注自然語言處理技術(shù)的公司,其中云知聲、思必馳等創(chuàng)業(yè)公司都在業(yè)內(nèi)受到了極大的關(guān)注。




上圖展示了云知聲端到端的語音識(shí)別技術(shù)。材料顯示,云知聲語音識(shí)別純中文的 WER 相對(duì)下降了 20%,中英混合的 WER 相對(duì)下降了 30%。

在今年 6 月機(jī)器之心對(duì)云知聲 CEO 黃偉(參見:專訪云知聲CEO黃偉:如何打造人工智能「云端芯」生態(tài)閉環(huán))的專訪中,黃偉就說過 2012 年年底,他們的深度學(xué)習(xí)系統(tǒng)將當(dāng)時(shí)的識(shí)別準(zhǔn)確率從 85% 提升到了 91% 。后來隨著云知聲不斷增加訓(xùn)練數(shù)據(jù),如今識(shí)別準(zhǔn)確率已經(jīng)能達(dá)到 97% ,屬于業(yè)內(nèi)一流水平,在噪音和口音等情況下性能也比以前更好。

思必馳的聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱是劍橋大學(xué)語音博士,上海交大教授。他在劍橋大學(xué)待了 10 年,做了 5 年的語音識(shí)別方面的研究,后來做對(duì)話系統(tǒng)的研究。整體上,思必馳做的是語音對(duì)話交互技術(shù)的整體解決方案,而不是單純的語音識(shí)別解決方案。因此在場(chǎng)景應(yīng)用中,思必馳的系統(tǒng)和科大訊飛的系統(tǒng)多有比較,可相互媲美。

當(dāng)然,此領(lǐng)域內(nèi)還有其他公司的存在。這些公司都在努力加速語音識(shí)別技術(shù)的提升。語音識(shí)別領(lǐng)域依然有一系列的難題需要攻克,就像微軟首席語音科學(xué)家黃學(xué)東接受機(jī)器之心專訪時(shí)所說的那樣,「理解語義是人工智能下一個(gè)需要攻克的難題,要做好語音識(shí)別需要更好的語義理解,這是相輔相成的?!?br>
本文由機(jī)器之心原創(chuàng),轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    久久精品伊人一区二区| 日本人妻的诱惑在线观看| 欧美午夜色视频国产精品| 日本乱论一区二区三区| 色丁香一区二区黑人巨大| 成人精品视频在线观看不卡| 四十女人口红哪个色好看| 妻子的新妈妈中文字幕| 男生和女生哪个更好色| 欧美偷拍一区二区三区四区| 日本欧美视频在线观看免费| 日本高清视频在线播放| 天堂网中文字幕在线观看| 国产二级一级内射视频播放| 国产一区二区三区成人精品| 东京不热免费观看日本| 欧美成人一区二区三区在线| 国内外激情免费在线视频| 人妻巨大乳一二三区麻豆| 黄片免费播放一区二区| 在线观看免费无遮挡大尺度视频| 日本三区不卡高清更新二区| 国产成人av在线免播放观看av| 久久精品少妇内射毛片| 亚洲精品日韩欧美精品| 国产午夜福利片在线观看| 久久精品国产亚洲av麻豆尤物 | 蜜桃传媒视频麻豆第一区| 亚洲天堂精品一区二区| 久热香蕉精品视频在线播放| 亚洲做性视频在线播放| 一区二区日韩欧美精品| 99国产成人免费一区二区| 久久国内午夜福利直播| 在线播放欧美精品一区| 白丝美女被插入视频在线观看| 香蕉久久夜色精品国产尤物| 久热99中文字幕视频在线| 欧美黄色黑人一区二区| 亚洲妇女黄色三级视频| 91福利免费一区二区三区|