在自然語言處理領(lǐng)域，文本轉(zhuǎn)語音（TTS）技術(shù)有什么最新進展？

昵稱11935121 2018-03-29

展開全文

神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音（TTS）是自然語言處理領(lǐng)域的重要方向，很多谷歌的產(chǎn)品（如 Google Assistant、搜索、地圖）都內(nèi)置了這樣的功能。目前的系統(tǒng)已經(jīng)可以產(chǎn)生接近人聲的語音，但仍然顯得不夠自然。在最近發(fā)表的兩篇論文中，谷歌為自己的 Tacotron 系統(tǒng)加入了對韻律學(xué)的建模，以幫助人們利用自己的聲音進行個性化語音合成。

最近，谷歌在基于神經(jīng)網(wǎng)絡(luò)的文本轉(zhuǎn)語音（TTS）的研究上取得重大突破，尤其是端到端架構(gòu)，比如去年推出的 Tacotron 系統(tǒng)，可以同時簡化語音構(gòu)建通道并產(chǎn)生自然的語音。這有助于更好地實現(xiàn)人機交互，比如會話式語音助手、有聲讀物朗誦、新聞閱讀器和語音設(shè)計軟件。但是為了實現(xiàn)真正像人一樣的發(fā)音，TTS 系統(tǒng)必須學(xué)習(xí)建模韻律學(xué)（prosody），它包含語音的所有表達因素，比如語調(diào)、重音、節(jié)奏等。最新的端到端系統(tǒng)，包括 Tacotron 在內(nèi)，并沒有清晰地建模韻律學(xué)，這意味著它們無法精確控制語音的發(fā)聲。這致使語音聽起來很單調(diào)，盡管模型是在字詞發(fā)音有明顯變化的極具表現(xiàn)力的數(shù)據(jù)集上訓(xùn)練的。今天，谷歌共享了兩篇新論文，有助于解決上述問題。

谷歌 Tacotron 的第一篇論文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介紹了「韻律學(xué)嵌入」（prosody embedding）的概念。我們加強了附有韻律學(xué)編碼器的 Tacotron 架構(gòu)，可以計算人類語音片段（參考音頻）中的低維度嵌入。

我們?yōu)?Tacotron 增加了一個韻律學(xué)編碼器。上圖的下半部分是原始的 Tacotron 序列到序列模型。技術(shù)細(xì)節(jié)請詳見我們的第一篇論文。

該嵌入捕捉獨立于語音信息和特殊的說話者特質(zhì)的音頻特征，比如重音、語調(diào)、語速。在推理階段，我們可以使用這一嵌入執(zhí)行韻律學(xué)遷移，根據(jù)一個完全不同的說話者的聲音生產(chǎn)語音，但是體現(xiàn)了參考音頻的韻律。

嵌入也可以將時間對齊的精確韻律從一個短語遷移到稍微不同的短語，盡管當(dāng)參考短語和目標(biāo)短語的長度和結(jié)構(gòu)相似時，該技術(shù)效果最好。

令人激動的是，甚至當(dāng) Tacotron 訓(xùn)練數(shù)據(jù)不包含說話者的參考音頻時，我們也可以觀察到韻律遷移。

這是一個很有希望的結(jié)果，它為語音交互設(shè)計者利用自己的聲音自定義語音合成鋪平了道路。你可以從網(wǎng)頁上試聽所有的音頻。

Demo 鏈接：https://google./tacotron/publications/end_to_end_prosody_transfer/。

盡管有能力遷移帶有高保真度的韻律，上述論文中的嵌入并沒有將參考音頻片段中的韻律與內(nèi)容分開。（這解釋了為什么遷移韻律對相似結(jié)構(gòu)和長度的短語效果最佳）此外，它們在推斷時需要一個參考音頻片段。這引起了一個自然的問題：我們可以開發(fā)一個富有表現(xiàn)力的語音模型來緩解這些問題嗎？

這正是我們在第二篇論文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》中所要做的。在第一篇論文的架構(gòu)之上，我們提出了一種建模潛在語音「因素」的無監(jiān)督新方法。這一模型的關(guān)鍵是其學(xué)習(xí)的是較高層的說話風(fēng)格模式而不是時間對齊的精確的韻律學(xué)元素，前者可在任意不同的短語之中遷移。

通過向 Tacotron 多增加一個注意機制，使得它將任何語音片段的韻律嵌入表達為基礎(chǔ)嵌入固定集合的線性組合。我們把這種嵌入稱之為 Global Style Tokens (GST)，且發(fā)現(xiàn)它們能學(xué)習(xí)一個聲紋風(fēng)格中的文本無關(guān)變化（柔軟、高音調(diào)、激烈等）——不需要詳細(xì)的風(fēng)格標(biāo)簽。

Global Style Tokens 的模型架構(gòu)。韻律嵌入被分解成了「style tokens」，從而做到無監(jiān)督的風(fēng)格控制和遷移。更多技術(shù)細(xì)節(jié)，請查看文后論文。

在推理時間，我們可以選擇或者調(diào)整 tokens 的結(jié)合權(quán)重，讓我們能夠迫使 Tacotron 使用特定的說話風(fēng)格，不需要參考語音片段。例如，使用 GST，我們能創(chuàng)造出語音長度多樣化的不同語句，更為「活潑」、「氣憤」、「悲傷」等：

GST 文本無關(guān)的特性使得它們能更理想的做風(fēng)格遷移，采用特定風(fēng)格的語音片段，將其風(fēng)格轉(zhuǎn)換為我們選擇的任意目標(biāo)語句。為了做到這一點，我們首先推理預(yù)測我們想要模仿風(fēng)格的 GST 組合權(quán)重。然后，把這些組合權(quán)重饋送到模型，從而合成完整的不同語句，即使長度、結(jié)構(gòu)不同，但風(fēng)格一樣。

最后，我們的論文表明，Global Style Tokens 不只能建模說話風(fēng)格。當(dāng)從 YouTube 未標(biāo)記聲紋的噪聲語音上訓(xùn)練時，帶有 GST 的 Tacotron 系統(tǒng)能學(xué)習(xí)表示噪聲源，把不同聲紋區(qū)分成獨立 tokens。這意味著通過選擇在推理中使用的 GST，我們能合成沒有背景噪聲的語音，或者合成數(shù)據(jù)集中特定未標(biāo)記聲紋的語音。這一激動人心的成果為我們打開了一條通向高延展且穩(wěn)健的語音合成之路。詳情可參見論文：Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis。

對以上介紹的兩種研究的潛在應(yīng)用和機遇，我們非常興奮。同時，也有很多重要的研究問題亟待解決。我們期望把第一篇論文中的技術(shù)擴展到在目標(biāo)聲紋的天然音域范圍中支持韻律遷移。我們也希望開發(fā)一種技術(shù)能夠自動從語境中選擇合適的韻律或者說話風(fēng)格，例如結(jié)合 NLP 和 TTS。最后，雖然第一篇論文提出了一種做韻律遷移的客觀與主觀標(biāo)準(zhǔn)，但我們想要進一步的開發(fā)，從而幫助簡歷韻律評估的普遍可接受方法。

論文 1：Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

論文鏈接：https://google./tacotron/publications/end_to_end_prosody_transfer/Towards%20End%20to%20End%20Prosody%20Transfer%20for%20Expressive%20Speech%20Synthesis%20with%20Tacotron.pdf

在此論文中，我們提出了對 Tacotron 語音合成架構(gòu)的擴展，讓它能夠從包含想要韻律的聲學(xué)表征中學(xué)習(xí)韻律的隱藏嵌入空間。我們表明，即使參照聲紋與合成聲紋不同，這種條件的 Tracotron 學(xué)習(xí)嵌入空間合成的語音在時間細(xì)節(jié)上極其匹配參照信號。此外，我們在文中展示了可使用參照韻律嵌入來合成不同于參照語句的文本。我們定義了多種定量以及主觀性的度量標(biāo)準(zhǔn)，來評估韻律遷移，且隨韻律遷移任務(wù)中的 Tacotron 模型采樣自單個說話人和 44 個說話人的語音樣本一起報告了結(jié)果。

論文 2：Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

論文鏈接：https://google./tacotron/publications/global_style_tokens/Style%20Tokens%20Unsupervised%20Style%20Modeling%20Control%20and%20Transfer.pdf

在此研究中，我們提出了 global style tokens」(GST)，一個由 Tacotron 共同訓(xùn)練的嵌入庫——后者是目前業(yè)內(nèi)最佳的端到端語音合成系統(tǒng)。該嵌入的訓(xùn)練沒有明確的標(biāo)簽，但仍然為相當(dāng)廣泛的語音表達能力進行了建模。GST 引出了一系列重要結(jié)果，其生成的軟可解釋「標(biāo)簽」可以用于以全新的方式控制合成，如獨立于文本長度地合成不同速度與講話語調(diào)的聲音。它們也可以用于進行風(fēng)格遷移，從單一語音剪輯中復(fù)制出說話風(fēng)格，并用于整段長文本語料中。在經(jīng)過充滿噪音、無標(biāo)簽的數(shù)據(jù)訓(xùn)練之后，GST 可以學(xué)會區(qū)分噪音和說話人的聲音，該研究為高度可擴展且具有魯棒性的語音合成打開了道路。

同時，谷歌也于昨天將自己的語音合成技術(shù)在 Google Cloud 平臺上開放，我們現(xiàn)在可以在多種應(yīng)用中植入 Cloud Text-to-Speech，如讓物聯(lián)網(wǎng)設(shè)備對人類的指令做出應(yīng)答，或制作自己的有聲讀物。

鏈接：https://cloud.google.com/text-to-speech/

目前，該服務(wù)包含 32 種音色，支持 12 種語言。谷歌宣稱其服務(wù)對 1 秒鐘時長的語音反應(yīng)速度僅為 50 毫秒，而價格為每處理 100 萬字 16 美元。