傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng),是由聲學(xué)模型、詞典、語(yǔ)言模型構(gòu)成的,而其中的語(yǔ)音模型和語(yǔ)言模型是分別訓(xùn)練的,而不同的語(yǔ)言也有不同的語(yǔ)言模型,比如英語(yǔ)和中文。 最近崛起的端到端的語(yǔ)音識(shí)別系統(tǒng),從語(yǔ)音特征(輸入端)到文字串(輸出端)中間就只有一個(gè)神經(jīng)網(wǎng)絡(luò)模型,成為語(yǔ)音識(shí)別領(lǐng)域新的研究熱點(diǎn)。 硅谷密探獨(dú)家專(zhuān)訪了Baidu Silicon Valley AI Lab總監(jiān)Adam Coates,探討了語(yǔ)音和語(yǔ)音識(shí)別的新動(dòng)向。 傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng) (來(lái)源:wiki) 傳統(tǒng)的語(yǔ)音識(shí)別需要把語(yǔ)音轉(zhuǎn)換成語(yǔ)音特征向量,然后把這組向量通過(guò)機(jī)器學(xué)習(xí),分類(lèi)到各種音節(jié)上(根據(jù)語(yǔ)言模型),然后通過(guò)音節(jié),還原出最大概率的語(yǔ)音原本要表達(dá)的單詞,一般包括以下模塊: 特征提取模塊 (Feature Extraction):該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。一般也包括了一些信號(hào)處理技術(shù),盡可能降低環(huán)境噪聲、說(shuō)話人等因素對(duì)特征造成的影響,把語(yǔ)音變成向量。 聲學(xué)模型 (Acoustic Model): 用于識(shí)別語(yǔ)音向量 發(fā)音詞典 (Pronnuciation Dictionary):發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典提供了聲學(xué)模型與語(yǔ)言模型間的聯(lián)系。 語(yǔ)言模型 (Language Model):語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。 解碼器 (Decoder):任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。 傳統(tǒng)的語(yǔ)音識(shí)別中的語(yǔ)音模型和語(yǔ)言模型是分別訓(xùn)練的,缺點(diǎn)是不一定能夠總體上提高識(shí)別率。 端到端的語(yǔ)音識(shí)別系統(tǒng) (來(lái)源:吳恩達(dá)NIPS 2016演講) 端到端學(xué)習(xí)的思路則非常簡(jiǎn)單:音頻→學(xué)習(xí)算法→轉(zhuǎn)錄結(jié)果; 而現(xiàn)在,我們可以直接通過(guò)深度學(xué)習(xí)將語(yǔ)音直接對(duì)標(biāo)到我們最終顯示出來(lái)的文本。通過(guò)深度學(xué)習(xí)自己的特征學(xué)習(xí)功能來(lái)完成從特征提取到音節(jié)表達(dá)的整個(gè)過(guò)程。 在給定了足夠的有標(biāo)注的訓(xùn)練數(shù)據(jù)時(shí)(語(yǔ)音數(shù)據(jù)以及對(duì)應(yīng)的文本數(shù)據(jù)),端到端的語(yǔ)音識(shí)別方法的效果會(huì)很好。 Deep Speech 2 Baidu Silicon Valley AI Lab研發(fā)了端到端的能夠識(shí)別英文的語(yǔ)音識(shí)別系統(tǒng)Deep Speech,之后在此基礎(chǔ)上研發(fā)了能識(shí)別中英文的Deep Speech 2,Deep Speech 2通過(guò)使用一個(gè)單一的學(xué)習(xí)算法就能準(zhǔn)確識(shí)別英語(yǔ)和漢語(yǔ)。 Deep Speech 2這個(gè)大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練英語(yǔ)模式,這個(gè)系統(tǒng)使用了11940小時(shí)含800萬(wàn)標(biāo)注的語(yǔ)音片段,而普通話系統(tǒng)采用了9400小時(shí)含1100萬(wàn)話語(yǔ)標(biāo)記的講話語(yǔ)音。 Deep Speech 2這種端到終的深度學(xué)習(xí),可以利用數(shù)據(jù)和計(jì)算的增加不斷改善語(yǔ)音識(shí)別系統(tǒng)。由于該方法是高度通用的,它可以迅速地應(yīng)用于新的語(yǔ)言。 Deep Speech 2能夠識(shí)別方言 Deep Speech 2最早是用英語(yǔ)訓(xùn)練的,最早只能夠識(shí)別英語(yǔ),但由于Deep Speech 2是端到端的訓(xùn)練模式,Adam在硅谷密探的采訪中表示,在這個(gè)系統(tǒng)建立之后,只需要用中文訓(xùn)練數(shù)據(jù)替代英文訓(xùn)練數(shù)據(jù),在經(jīng)過(guò)訓(xùn)練之后就有了強(qiáng)大的中文識(shí)別引擎,就能夠很好的識(shí)別中文。 同樣的道理,只要給Deep Speech 2足夠多的方言訓(xùn)練數(shù)據(jù),比如粵語(yǔ),那么Deep Speech 2理論上也能夠很好的識(shí)別粵語(yǔ)。 能解決中英混合問(wèn)題 中英混合一度是一個(gè)很頭疼的問(wèn)題,在我們使用Siri的時(shí)候,必須要選好一個(gè)語(yǔ)言,如果設(shè)置成了中文就識(shí)別不了英文。 但在我們?nèi)粘I钪?,由于?zhuān)業(yè)術(shù)語(yǔ)或者品牌名等原因,有時(shí)不得不中英混合?;谕瑯拥脑颍珼eep Speech 2也能很好的解決中英混合這個(gè)問(wèn)題,只要我們訓(xùn)練的數(shù)據(jù)里同樣是中英夾雜。 Adam Coates在采訪中表示有一個(gè)特別有意思的現(xiàn)象,我們發(fā)現(xiàn)很多中文語(yǔ)音識(shí)別里經(jīng)常出現(xiàn)一個(gè)明星Angelababy,然后Deep Speech 2就立馬變成英文。 看來(lái)Angelababy已經(jīng)是國(guó)際影星!曉明哥的英語(yǔ)要加強(qiáng)啊... Deep Speech 2的開(kāi)發(fā)難度 Adam Coates表示Deep Speech 2開(kāi)發(fā)過(guò)程中,第一大難點(diǎn)就是獲得標(biāo)記的數(shù)據(jù)。大家想象中百度應(yīng)該有大量的數(shù)據(jù),然而大部分我們?nèi)粘PP使用中產(chǎn)生的數(shù)據(jù)都是沒(méi)有標(biāo)記的,比如我們發(fā)了一個(gè)語(yǔ)音,對(duì)應(yīng)的中文文本我們往往沒(méi)有提供,這些都是沒(méi)有標(biāo)記的數(shù)據(jù),無(wú)法用于語(yǔ)音識(shí)別的訓(xùn)練。即使有一些標(biāo)記的數(shù)據(jù),我們也不能保證其準(zhǔn)確性,而數(shù)據(jù)清理往往耗費(fèi)更多的時(shí)間。 Deep Speech 2的開(kāi)發(fā)過(guò)程,除了通過(guò)把會(huì)話片段標(biāo)記出文字(transcript)作為訓(xùn)練數(shù)據(jù),還使用了大量的朗讀數(shù)據(jù)(就是提供文本,然后花錢(qián)請(qǐng)人朗讀成音頻)。雖然后者的質(zhì)量不如前者,但是非常便宜,而且能夠獲得大量的數(shù)據(jù)。 Deep Speech 2這個(gè)大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù),這個(gè)系統(tǒng)使用了11940小時(shí)含800萬(wàn)標(biāo)注的英文語(yǔ)音片段,以及普通話系統(tǒng)采用9400小時(shí)含1100萬(wàn)話語(yǔ)標(biāo)記的講話語(yǔ)音。 除了訓(xùn)練數(shù)據(jù)的獲取,建立這樣一個(gè)高性能計(jì)算系統(tǒng)(HPC)也是一個(gè)很大的調(diào)整。Adam表示他們擁有一個(gè)團(tuán)隊(duì)致力于構(gòu)建深度學(xué)習(xí)系統(tǒng)。當(dāng)然也少不了喜聞樂(lè)見(jiàn)的調(diào)參過(guò)程。 Deep Speech 2未來(lái)的發(fā)展方向 Deep Speech 2已經(jīng)從Deep Speech的8%的錯(cuò)誤率提升到了5%,Deep Speech的下一個(gè)目標(biāo)就是繼續(xù)降低識(shí)別錯(cuò)誤率,并且處理語(yǔ)音識(shí)別的各種極端情況,比如重噪以及交叉談話等場(chǎng)景。 目前Deep Speech 2只是純軟件和算法層面,沒(méi)有涉及到硬件相關(guān)的優(yōu)化,在問(wèn)到是否可以結(jié)合硬件來(lái)提升Deep Speech 2的性能時(shí),Adam表示結(jié)合硬件有提升識(shí)別率的可能性,但目前AI Lab沒(méi)有嘗試。 Adam把語(yǔ)音識(shí)別的噪音環(huán)境分成兩大類(lèi),一大類(lèi)是有噪音但是人類(lèi)能無(wú)干擾的聽(tīng)到目標(biāo)聲音,第二大類(lèi)則是有噪音干擾下人耳都聽(tīng)不清目標(biāo)聲音,在第一類(lèi)環(huán)境下通過(guò)軟件和算法優(yōu)化就有很大的提升空間,而第二類(lèi)則可能需要硬件參與進(jìn)來(lái)獲得超越人類(lèi)聽(tīng)力的能力。 語(yǔ)音是未來(lái) 在問(wèn)道最看好未來(lái)的下一件大事時(shí)(next big thing),Adam表示非??春谜Z(yǔ)音的前景。 目前語(yǔ)音識(shí)別能力還有提升空間,雖然語(yǔ)義理解、自然語(yǔ)言處理等的進(jìn)步還需要更多時(shí)間,但是語(yǔ)音識(shí)別加上非常簡(jiǎn)單的自然語(yǔ)言處理就能顯著的改善我們的生活。 Adam舉了一個(gè)例子,斯坦福和華盛頓大學(xué)等高校的研究表明,用語(yǔ)音輸入代替鍵盤(pán)輸入,能提升約3倍的效率。 Adam希望語(yǔ)音識(shí)別的持續(xù)進(jìn)步,能夠使得語(yǔ)音成為一個(gè)大家真正放心使用的交互方式。 |
|