東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

天道酬勤YXJ1 2016-12-29

展開(kāi)全文

傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)，是由聲學(xué)模型、詞典、語(yǔ)言模型構(gòu)成的，而其中的語(yǔ)音模型和語(yǔ)言模型是分別訓(xùn)練的，而不同的語(yǔ)言也有不同的語(yǔ)言模型，比如英語(yǔ)和中文。

最近崛起的端到端的語(yǔ)音識(shí)別系統(tǒng)，從語(yǔ)音特征（輸入端）到文字串（輸出端）中間就只有一個(gè)神經(jīng)網(wǎng)絡(luò)模型，成為語(yǔ)音識(shí)別領(lǐng)域新的研究熱點(diǎn)。

硅谷密探獨(dú)家專(zhuān)訪了Baidu Silicon Valley AI Lab總監(jiān)Adam Coates，探討了語(yǔ)音和語(yǔ)音識(shí)別的新動(dòng)向。

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

（來(lái)源：wiki）

傳統(tǒng)的語(yǔ)音識(shí)別需要把語(yǔ)音轉(zhuǎn)換成語(yǔ)音特征向量，然后把這組向量通過(guò)機(jī)器學(xué)習(xí)，分類(lèi)到各種音節(jié)上（根據(jù)語(yǔ)言模型），然后通過(guò)音節(jié)，還原出最大概率的語(yǔ)音原本要表達(dá)的單詞，一般包括以下模塊：

特征提取模塊 (Feature Extraction)：該模塊的主要任務(wù)是從輸入信號(hào)中提取特征，供聲學(xué)模型處理。一般也包括了一些信號(hào)處理技術(shù)，盡可能降低環(huán)境噪聲、說(shuō)話人等因素對(duì)特征造成的影響，把語(yǔ)音變成向量。

聲學(xué)模型 (Acoustic Model): 用于識(shí)別語(yǔ)音向量

發(fā)音詞典 (Pronnuciation Dictionary)：發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典提供了聲學(xué)模型與語(yǔ)言模型間的聯(lián)系。

語(yǔ)言模型 (Language Model)：語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。

解碼器 (Decoder)：任務(wù)是對(duì)輸入的信號(hào)，根據(jù)聲學(xué)、語(yǔ)言模型及詞典，尋找能夠以最大概率輸出該信號(hào)的詞串。

傳統(tǒng)的語(yǔ)音識(shí)別中的語(yǔ)音模型和語(yǔ)言模型是分別訓(xùn)練的，缺點(diǎn)是不一定能夠總體上提高識(shí)別率。

端到端的語(yǔ)音識(shí)別系統(tǒng)

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

（來(lái)源：吳恩達(dá)NIPS 2016演講）

端到端學(xué)習(xí)的思路則非常簡(jiǎn)單：音頻→學(xué)習(xí)算法→轉(zhuǎn)錄結(jié)果；

而現(xiàn)在，我們可以直接通過(guò)深度學(xué)習(xí)將語(yǔ)音直接對(duì)標(biāo)到我們最終顯示出來(lái)的文本。通過(guò)深度學(xué)習(xí)自己的特征學(xué)習(xí)功能來(lái)完成從特征提取到音節(jié)表達(dá)的整個(gè)過(guò)程。

在給定了足夠的有標(biāo)注的訓(xùn)練數(shù)據(jù)時(shí)（語(yǔ)音數(shù)據(jù)以及對(duì)應(yīng)的文本數(shù)據(jù)），端到端的語(yǔ)音識(shí)別方法的效果會(huì)很好。

Deep Speech 2

Baidu Silicon Valley AI Lab研發(fā)了端到端的能夠識(shí)別英文的語(yǔ)音識(shí)別系統(tǒng)Deep Speech，之后在此基礎(chǔ)上研發(fā)了能識(shí)別中英文的Deep Speech 2，Deep Speech 2通過(guò)使用一個(gè)單一的學(xué)習(xí)算法就能準(zhǔn)確識(shí)別英語(yǔ)和漢語(yǔ)。

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

Deep Speech 2這個(gè)大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練英語(yǔ)模式，這個(gè)系統(tǒng)使用了11940小時(shí)含800萬(wàn)標(biāo)注的語(yǔ)音片段，而普通話系統(tǒng)采用了9400小時(shí)含1100萬(wàn)話語(yǔ)標(biāo)記的講話語(yǔ)音。

Deep Speech 2這種端到終的深度學(xué)習(xí)，可以利用數(shù)據(jù)和計(jì)算的增加不斷改善語(yǔ)音識(shí)別系統(tǒng)。由于該方法是高度通用的，它可以迅速地應(yīng)用于新的語(yǔ)言。

Deep Speech 2能夠識(shí)別方言

Deep Speech 2最早是用英語(yǔ)訓(xùn)練的，最早只能夠識(shí)別英語(yǔ)，但由于Deep Speech 2是端到端的訓(xùn)練模式，Adam在硅谷密探的采訪中表示，在這個(gè)系統(tǒng)建立之后，只需要用中文訓(xùn)練數(shù)據(jù)替代英文訓(xùn)練數(shù)據(jù)，在經(jīng)過(guò)訓(xùn)練之后就有了強(qiáng)大的中文識(shí)別引擎，就能夠很好的識(shí)別中文。

同樣的道理，只要給Deep Speech 2足夠多的方言訓(xùn)練數(shù)據(jù)，比如粵語(yǔ)，那么Deep Speech 2理論上也能夠很好的識(shí)別粵語(yǔ)。

能解決中英混合問(wèn)題

中英混合一度是一個(gè)很頭疼的問(wèn)題，在我們使用Siri的時(shí)候，必須要選好一個(gè)語(yǔ)言，如果設(shè)置成了中文就識(shí)別不了英文。

但在我們?nèi)粘Ｉ钪?，由于?zhuān)業(yè)術(shù)語(yǔ)或者品牌名等原因，有時(shí)不得不中英混合?；谕瑯拥脑颍珼eep Speech 2也能很好的解決中英混合這個(gè)問(wèn)題，只要我們訓(xùn)練的數(shù)據(jù)里同樣是中英夾雜。

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

Adam Coates在采訪中表示有一個(gè)特別有意思的現(xiàn)象，我們發(fā)現(xiàn)很多中文語(yǔ)音識(shí)別里經(jīng)常出現(xiàn)一個(gè)明星Angelababy，然后Deep Speech 2就立馬變成英文。

看來(lái)Angelababy已經(jīng)是國(guó)際影星！曉明哥的英語(yǔ)要加強(qiáng)啊...

Deep Speech 2的開(kāi)發(fā)難度

Adam Coates表示Deep Speech 2開(kāi)發(fā)過(guò)程中，第一大難點(diǎn)就是獲得標(biāo)記的數(shù)據(jù)。大家想象中百度應(yīng)該有大量的數(shù)據(jù)，然而大部分我們?nèi)粘PP使用中產(chǎn)生的數(shù)據(jù)都是沒(méi)有標(biāo)記的，比如我們發(fā)了一個(gè)語(yǔ)音，對(duì)應(yīng)的中文文本我們往往沒(méi)有提供，這些都是沒(méi)有標(biāo)記的數(shù)據(jù)，無(wú)法用于語(yǔ)音識(shí)別的訓(xùn)練。即使有一些標(biāo)記的數(shù)據(jù)，我們也不能保證其準(zhǔn)確性，而數(shù)據(jù)清理往往耗費(fèi)更多的時(shí)間。

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

Deep Speech 2的開(kāi)發(fā)過(guò)程，除了通過(guò)把會(huì)話片段標(biāo)記出文字(transcript)作為訓(xùn)練數(shù)據(jù)，還使用了大量的朗讀數(shù)據(jù)（就是提供文本，然后花錢(qián)請(qǐng)人朗讀成音頻）。雖然后者的質(zhì)量不如前者，但是非常便宜，而且能夠獲得大量的數(shù)據(jù)。

Deep Speech 2這個(gè)大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)，這個(gè)系統(tǒng)使用了11940小時(shí)含800萬(wàn)標(biāo)注的英文語(yǔ)音片段，以及普通話系統(tǒng)采用9400小時(shí)含1100萬(wàn)話語(yǔ)標(biāo)記的講話語(yǔ)音。

除了訓(xùn)練數(shù)據(jù)的獲取，建立這樣一個(gè)高性能計(jì)算系統(tǒng)(HPC)也是一個(gè)很大的調(diào)整。Adam表示他們擁有一個(gè)團(tuán)隊(duì)致力于構(gòu)建深度學(xué)習(xí)系統(tǒng)。當(dāng)然也少不了喜聞樂(lè)見(jiàn)的調(diào)參過(guò)程。

Deep Speech 2未來(lái)的發(fā)展方向

Deep Speech 2已經(jīng)從Deep Speech的8%的錯(cuò)誤率提升到了5%，Deep Speech的下一個(gè)目標(biāo)就是繼續(xù)降低識(shí)別錯(cuò)誤率，并且處理語(yǔ)音識(shí)別的各種極端情況，比如重噪以及交叉談話等場(chǎng)景。

東北話，機(jī)器都能聽(tīng)懂，吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

目前Deep Speech 2只是純軟件和算法層面，沒(méi)有涉及到硬件相關(guān)的優(yōu)化，在問(wèn)到是否可以結(jié)合硬件來(lái)提升Deep Speech 2的性能時(shí)，Adam表示結(jié)合硬件有提升識(shí)別率的可能性，但目前AI Lab沒(méi)有嘗試。

Adam把語(yǔ)音識(shí)別的噪音環(huán)境分成兩大類(lèi)，一大類(lèi)是有噪音但是人類(lèi)能無(wú)干擾的聽(tīng)到目標(biāo)聲音，第二大類(lèi)則是有噪音干擾下人耳都聽(tīng)不清目標(biāo)聲音，在第一類(lèi)環(huán)境下通過(guò)軟件和算法優(yōu)化就有很大的提升空間，而第二類(lèi)則可能需要硬件參與進(jìn)來(lái)獲得超越人類(lèi)聽(tīng)力的能力。

語(yǔ)音是未來(lái)

在問(wèn)道最看好未來(lái)的下一件大事時(shí)(next big thing)，Adam表示非?？春谜Z(yǔ)音的前景。

目前語(yǔ)音識(shí)別能力還有提升空間，雖然語(yǔ)義理解、自然語(yǔ)言處理等的進(jìn)步還需要更多時(shí)間，但是語(yǔ)音識(shí)別加上非常簡(jiǎn)單的自然語(yǔ)言處理就能顯著的改善我們的生活。

Adam舉了一個(gè)例子，斯坦福和華盛頓大學(xué)等高校的研究表明，用語(yǔ)音輸入代替鍵盤(pán)輸入，能提升約3倍的效率。

Adam希望語(yǔ)音識(shí)別的持續(xù)進(jìn)步，能夠使得語(yǔ)音成為一個(gè)大家真正放心使用的交互方式。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：天道酬勤YXJ1 > 《電腦》

舉報(bào)/認(rèn)領(lǐng)