一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

 天道酬勤YXJ1 2016-12-29

傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng),是由聲學(xué)模型、詞典、語(yǔ)言模型構(gòu)成的,而其中的語(yǔ)音模型和語(yǔ)言模型是分別訓(xùn)練的,而不同的語(yǔ)言也有不同的語(yǔ)言模型,比如英語(yǔ)和中文。

最近崛起的端到端的語(yǔ)音識(shí)別系統(tǒng),從語(yǔ)音特征(輸入端)到文字串(輸出端)中間就只有一個(gè)神經(jīng)網(wǎng)絡(luò)模型,成為語(yǔ)音識(shí)別領(lǐng)域新的研究熱點(diǎn)。

硅谷密探獨(dú)家專(zhuān)訪了Baidu Silicon Valley AI Lab總監(jiān)Adam Coates,探討了語(yǔ)音和語(yǔ)音識(shí)別的新動(dòng)向。

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

(來(lái)源:wiki)

傳統(tǒng)的語(yǔ)音識(shí)別需要把語(yǔ)音轉(zhuǎn)換成語(yǔ)音特征向量,然后把這組向量通過(guò)機(jī)器學(xué)習(xí),分類(lèi)到各種音節(jié)上(根據(jù)語(yǔ)言模型),然后通過(guò)音節(jié),還原出最大概率的語(yǔ)音原本要表達(dá)的單詞,一般包括以下模塊:

特征提取模塊 (Feature Extraction):該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。一般也包括了一些信號(hào)處理技術(shù),盡可能降低環(huán)境噪聲、說(shuō)話人等因素對(duì)特征造成的影響,把語(yǔ)音變成向量。

聲學(xué)模型 (Acoustic Model): 用于識(shí)別語(yǔ)音向量

發(fā)音詞典 (Pronnuciation Dictionary):發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典提供了聲學(xué)模型與語(yǔ)言模型間的聯(lián)系。

語(yǔ)言模型 (Language Model):語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。

解碼器 (Decoder):任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。

傳統(tǒng)的語(yǔ)音識(shí)別中的語(yǔ)音模型和語(yǔ)言模型是分別訓(xùn)練的,缺點(diǎn)是不一定能夠總體上提高識(shí)別率。

端到端的語(yǔ)音識(shí)別系統(tǒng)

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

(來(lái)源:吳恩達(dá)NIPS 2016演講)

端到端學(xué)習(xí)的思路則非常簡(jiǎn)單:音頻→學(xué)習(xí)算法→轉(zhuǎn)錄結(jié)果;

而現(xiàn)在,我們可以直接通過(guò)深度學(xué)習(xí)將語(yǔ)音直接對(duì)標(biāo)到我們最終顯示出來(lái)的文本。通過(guò)深度學(xué)習(xí)自己的特征學(xué)習(xí)功能來(lái)完成從特征提取到音節(jié)表達(dá)的整個(gè)過(guò)程。

在給定了足夠的有標(biāo)注的訓(xùn)練數(shù)據(jù)時(shí)(語(yǔ)音數(shù)據(jù)以及對(duì)應(yīng)的文本數(shù)據(jù)),端到端的語(yǔ)音識(shí)別方法的效果會(huì)很好。

Deep Speech 2

Baidu Silicon Valley AI Lab研發(fā)了端到端的能夠識(shí)別英文的語(yǔ)音識(shí)別系統(tǒng)Deep Speech,之后在此基礎(chǔ)上研發(fā)了能識(shí)別中英文的Deep Speech 2,Deep Speech 2通過(guò)使用一個(gè)單一的學(xué)習(xí)算法就能準(zhǔn)確識(shí)別英語(yǔ)和漢語(yǔ)。

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

Deep Speech 2這個(gè)大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù)。為訓(xùn)練英語(yǔ)模式,這個(gè)系統(tǒng)使用了11940小時(shí)含800萬(wàn)標(biāo)注的語(yǔ)音片段,而普通話系統(tǒng)采用了9400小時(shí)含1100萬(wàn)話語(yǔ)標(biāo)記的講話語(yǔ)音。

Deep Speech 2這種端到終的深度學(xué)習(xí),可以利用數(shù)據(jù)和計(jì)算的增加不斷改善語(yǔ)音識(shí)別系統(tǒng)。由于該方法是高度通用的,它可以迅速地應(yīng)用于新的語(yǔ)言。

Deep Speech 2能夠識(shí)別方言

Deep Speech 2最早是用英語(yǔ)訓(xùn)練的,最早只能夠識(shí)別英語(yǔ),但由于Deep Speech 2是端到端的訓(xùn)練模式,Adam在硅谷密探的采訪中表示,在這個(gè)系統(tǒng)建立之后,只需要用中文訓(xùn)練數(shù)據(jù)替代英文訓(xùn)練數(shù)據(jù),在經(jīng)過(guò)訓(xùn)練之后就有了強(qiáng)大的中文識(shí)別引擎,就能夠很好的識(shí)別中文。

同樣的道理,只要給Deep Speech 2足夠多的方言訓(xùn)練數(shù)據(jù),比如粵語(yǔ),那么Deep Speech 2理論上也能夠很好的識(shí)別粵語(yǔ)。

能解決中英混合問(wèn)題

中英混合一度是一個(gè)很頭疼的問(wèn)題,在我們使用Siri的時(shí)候,必須要選好一個(gè)語(yǔ)言,如果設(shè)置成了中文就識(shí)別不了英文。

但在我們?nèi)粘I钪?,由于?zhuān)業(yè)術(shù)語(yǔ)或者品牌名等原因,有時(shí)不得不中英混合?;谕瑯拥脑颍珼eep Speech 2也能很好的解決中英混合這個(gè)問(wèn)題,只要我們訓(xùn)練的數(shù)據(jù)里同樣是中英夾雜。

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

Adam Coates在采訪中表示有一個(gè)特別有意思的現(xiàn)象,我們發(fā)現(xiàn)很多中文語(yǔ)音識(shí)別里經(jīng)常出現(xiàn)一個(gè)明星Angelababy,然后Deep Speech 2就立馬變成英文。

看來(lái)Angelababy已經(jīng)是國(guó)際影星!曉明哥的英語(yǔ)要加強(qiáng)啊...

Deep Speech 2的開(kāi)發(fā)難度

Adam Coates表示Deep Speech 2開(kāi)發(fā)過(guò)程中,第一大難點(diǎn)就是獲得標(biāo)記的數(shù)據(jù)。大家想象中百度應(yīng)該有大量的數(shù)據(jù),然而大部分我們?nèi)粘PP使用中產(chǎn)生的數(shù)據(jù)都是沒(méi)有標(biāo)記的,比如我們發(fā)了一個(gè)語(yǔ)音,對(duì)應(yīng)的中文文本我們往往沒(méi)有提供,這些都是沒(méi)有標(biāo)記的數(shù)據(jù),無(wú)法用于語(yǔ)音識(shí)別的訓(xùn)練。即使有一些標(biāo)記的數(shù)據(jù),我們也不能保證其準(zhǔn)確性,而數(shù)據(jù)清理往往耗費(fèi)更多的時(shí)間。

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

Deep Speech 2的開(kāi)發(fā)過(guò)程,除了通過(guò)把會(huì)話片段標(biāo)記出文字(transcript)作為訓(xùn)練數(shù)據(jù),還使用了大量的朗讀數(shù)據(jù)(就是提供文本,然后花錢(qián)請(qǐng)人朗讀成音頻)。雖然后者的質(zhì)量不如前者,但是非常便宜,而且能夠獲得大量的數(shù)據(jù)。

Deep Speech 2這個(gè)大規(guī)模的深度學(xué)習(xí)系統(tǒng)需要豐富的標(biāo)記訓(xùn)練數(shù)據(jù),這個(gè)系統(tǒng)使用了11940小時(shí)含800萬(wàn)標(biāo)注的英文語(yǔ)音片段,以及普通話系統(tǒng)采用9400小時(shí)含1100萬(wàn)話語(yǔ)標(biāo)記的講話語(yǔ)音。

除了訓(xùn)練數(shù)據(jù)的獲取,建立這樣一個(gè)高性能計(jì)算系統(tǒng)(HPC)也是一個(gè)很大的調(diào)整。Adam表示他們擁有一個(gè)團(tuán)隊(duì)致力于構(gòu)建深度學(xué)習(xí)系統(tǒng)。當(dāng)然也少不了喜聞樂(lè)見(jiàn)的調(diào)參過(guò)程。

Deep Speech 2未來(lái)的發(fā)展方向

Deep Speech 2已經(jīng)從Deep Speech的8%的錯(cuò)誤率提升到了5%,Deep Speech的下一個(gè)目標(biāo)就是繼續(xù)降低識(shí)別錯(cuò)誤率,并且處理語(yǔ)音識(shí)別的各種極端情況,比如重噪以及交叉談話等場(chǎng)景。

東北話,機(jī)器都能聽(tīng)懂,吳恩達(dá)說(shuō)的端到端學(xué)習(xí)究竟是什么

目前Deep Speech 2只是純軟件和算法層面,沒(méi)有涉及到硬件相關(guān)的優(yōu)化,在問(wèn)到是否可以結(jié)合硬件來(lái)提升Deep Speech 2的性能時(shí),Adam表示結(jié)合硬件有提升識(shí)別率的可能性,但目前AI Lab沒(méi)有嘗試。

Adam把語(yǔ)音識(shí)別的噪音環(huán)境分成兩大類(lèi),一大類(lèi)是有噪音但是人類(lèi)能無(wú)干擾的聽(tīng)到目標(biāo)聲音,第二大類(lèi)則是有噪音干擾下人耳都聽(tīng)不清目標(biāo)聲音,在第一類(lèi)環(huán)境下通過(guò)軟件和算法優(yōu)化就有很大的提升空間,而第二類(lèi)則可能需要硬件參與進(jìn)來(lái)獲得超越人類(lèi)聽(tīng)力的能力。

語(yǔ)音是未來(lái)

在問(wèn)道最看好未來(lái)的下一件大事時(shí)(next big thing),Adam表示非??春谜Z(yǔ)音的前景。

目前語(yǔ)音識(shí)別能力還有提升空間,雖然語(yǔ)義理解、自然語(yǔ)言處理等的進(jìn)步還需要更多時(shí)間,但是語(yǔ)音識(shí)別加上非常簡(jiǎn)單的自然語(yǔ)言處理就能顯著的改善我們的生活。

Adam舉了一個(gè)例子,斯坦福和華盛頓大學(xué)等高校的研究表明,用語(yǔ)音輸入代替鍵盤(pán)輸入,能提升約3倍的效率。

Adam希望語(yǔ)音識(shí)別的持續(xù)進(jìn)步,能夠使得語(yǔ)音成為一個(gè)大家真正放心使用的交互方式。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多

    中文字幕欧美视频二区| 国产毛片对白精品看片| av一区二区三区天堂| 国产日韩欧美国产欧美日韩 | 亚洲国产黄色精品在线观看| 日韩欧美精品一区二区三区| 国产av一区二区三区麻豆| 久久精品少妇内射毛片| 国产精品视频一区二区秋霞| 欧美成人高清在线播放| 激情综合五月开心久久| 中文字幕日韩欧美理伦片| 日韩一级欧美一级久久| 高清免费在线不卡视频| 视频一区二区 国产精品| 久久成人国产欧美精品一区二区| 午夜直播免费福利平台| 国产麻豆一区二区三区在| 91欧美日韩精品在线| 日本高清视频在线播放| 午夜福利直播在线视频| 国产精品色热综合在线| 国产在线一区二区三区不卡| 日韩欧美三级中文字幕| 国产福利一区二区三区四区| 亚洲综合激情另类专区老铁性| 国产一区二区三区免费福利| 亚洲一区二区三在线播放| 日本视频在线观看不卡| 黄色日韩欧美在线观看| 91偷拍视频久久精品| 99久久免费看国产精品| 好吊日在线视频免费观看| 亚洲天堂国产精品久久精品| 亚洲乱码av中文一区二区三区| 国产在线观看不卡一区二区| 精品亚洲av一区二区三区| 亚洲精品一区二区三区免| 亚洲品质一区二区三区| 99久久精品国产日本| 加勒比人妻精品一区二区|