新智元編譯報(bào)道 來(lái)源:research.baidu.com 翻譯:弗格森 【新智元導(dǎo)讀】 百度最新發(fā)布文本到語(yǔ)音轉(zhuǎn)化系統(tǒng)Deep Voice。百度稱,這是一個(gè)全部由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的系統(tǒng),在文本到語(yǔ)音的轉(zhuǎn)化速度上比 WaveNet 快400倍。 百度研究院今天發(fā)布 Deep Voice,這是一個(gè)文本到語(yǔ)音轉(zhuǎn)化系統(tǒng),完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建。 百度研究院在官方博客上寫道: 目前,要搭建這樣一個(gè)系統(tǒng),最大的阻礙在于聲頻合成的速度,此前的方法一般都需要數(shù)分鐘或數(shù)小時(shí)來(lái)生成幾秒的語(yǔ)音。 我們解決了這一難題,并且證明我們能夠進(jìn)行實(shí)時(shí)的音頻合成。在速度上,這一系統(tǒng)比WaveNet 參數(shù)部署要快400倍。 從文本中生成人造的語(yǔ)音,通常被稱為文本轉(zhuǎn)語(yǔ)音(TTS),它是許多應(yīng)用,比如,語(yǔ)音驅(qū)動(dòng)的設(shè)備、導(dǎo)航系統(tǒng)和視力障礙者設(shè)備中不可或缺的工具。從根本上說(shuō),它能讓人在不需要視覺(jué)交互的情況下與技術(shù)進(jìn)行互動(dòng)。
現(xiàn)代的 TTS 系統(tǒng)都是基于復(fù)雜的、多步驟的處理管道,其中,每一個(gè)管道都可能會(huì)依賴于人為設(shè)計(jì)的特征和啟發(fā)。由于這種復(fù)雜性,建造新的TTS 系統(tǒng)是非常消耗人力,而且也會(huì)非常困難的。 DeepVoice 受到傳統(tǒng)的本文到語(yǔ)音的管道啟發(fā),并且采納了相同的架構(gòu),但是,DeepVoice 使用神經(jīng)網(wǎng)絡(luò)來(lái)代替全部組件,并使用了更簡(jiǎn)單的特征。這是的我們的系統(tǒng)能更好地適用于新的數(shù)據(jù)庫(kù)、聲音和領(lǐng)域,而不需要任何人為的數(shù)據(jù)標(biāo)注或者額外的特征設(shè)計(jì)。 DeepVoice 為真正的端到端的,且不需要復(fù)雜處理管道、不依賴于手動(dòng)設(shè)計(jì)特征進(jìn)行輸入和預(yù)訓(xùn)練的語(yǔ)音合成奠定了基礎(chǔ)。 我們目前的管道依然不是端到端的,它由一個(gè)音素模型和一個(gè)音頻合成組件構(gòu)成。 聲音中的機(jī)器人聲音特性產(chǎn)生于管道結(jié)構(gòu)和音素模型,然后,聲頻生成組件單獨(dú)可以生成更加自然的音頻片段。 音頻片段試聽地址: http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/ 深度學(xué)習(xí)以及變革了許多領(lǐng)域,包括計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別,并且,我們相信,文本到語(yǔ)音的轉(zhuǎn)換現(xiàn)在也處在了類似的轉(zhuǎn)折點(diǎn)上,我們非常期待深度學(xué)習(xí)社區(qū)能一起努力,并且希望能以一種可再生的細(xì)節(jié)程度,來(lái)分享我們的整個(gè)文本到語(yǔ)音的轉(zhuǎn)化系統(tǒng),進(jìn)而加速這一進(jìn)程。 論文:DeepVoice:Real-Time Neural Text-to-Speech 論文作者:Sercan O. Arik ,Mike Chrzanowski,Adam Coates,Gregory Diamos,Andrew Gibiansky,Yongguo Kang,Xian Li ,John Miller ,Jonathan Raiman ,Shubho Sengupta ,Mohammad Shoeybi |
|
來(lái)自: 昵稱40741177 > 《機(jī)器學(xué)習(xí)》