“AI孫燕姿”爆火后，Meta發(fā)布通用語(yǔ)音生成AI：可合成6種語(yǔ)言，支持多種語(yǔ)音功能

板橋胡同37號(hào) 2023-06-20 發(fā)布于天津

展開全文

Meta 放大招，語(yǔ)音生成 AI 領(lǐng)域又有新研究成果了！

Meta 發(fā)布語(yǔ)音

生成 AI 模型 Voicebox

近日，Meta AI 宣布在生成式 AI 語(yǔ)音模型領(lǐng)域取得了突破：開發(fā)出了首個(gè)可泛化至多種語(yǔ)音生成任務(wù)的模型 Voicebox，無(wú)需專門訓(xùn)練即可達(dá)成頂尖性能表現(xiàn)。Meta AI 研究人員分享了多段音頻樣本和一篇研究論文，其中詳細(xì)介紹了他們采用的方法和取得的成果。

與圖像及文本類生成系統(tǒng)一樣，Voicebox 能夠創(chuàng)建多種樣式的輸出，包括從零開始創(chuàng)建輸出、修改給定樣本等。但與以往不同的是，Voicebox 并非簡(jiǎn)單創(chuàng)建圖片或一段文字，而是直接生成高質(zhì)量的音頻片段。該模型能夠?yàn)槔ㄓ⒄Z(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、波蘭語(yǔ)和葡萄牙語(yǔ)在內(nèi)的六種語(yǔ)言合成語(yǔ)音，同時(shí)執(zhí)行噪聲去除、內(nèi)容編輯、風(fēng)格轉(zhuǎn)換和多樣化樣本生成等任務(wù)。

在 Voicebox 出現(xiàn)之前，生成式 AI 語(yǔ)音模型需要配合精心準(zhǔn)備的訓(xùn)練數(shù)據(jù)，就各項(xiàng)任務(wù)接受特定訓(xùn)練。Voicebox 使用一種新的方法，可直接從原始音頻和隨附的轉(zhuǎn)錄結(jié)果中學(xué)習(xí)。與只能根據(jù)給定音頻片段續(xù)寫結(jié)尾的自回歸模型不同，Voicebox 能夠修改給定樣本中的任意部分。

據(jù)了解，Voicebox 能夠出色執(zhí)行各種任務(wù)，具體包括：

結(jié)合上下文的文本到語(yǔ)音合成：使用長(zhǎng)度僅為兩秒的輸入音頻樣本，Voicebox 即可匹配樣本的音頻風(fēng)格并據(jù)此進(jìn)行文本到語(yǔ)音生成。后續(xù)項(xiàng)目有望為無(wú)法說(shuō)話的人士提供語(yǔ)音支持，或者為游戲 NPC 及虛擬助手快速生成對(duì)話語(yǔ)音。
跨語(yǔ)言風(fēng)格轉(zhuǎn)換：給定一段語(yǔ)音樣本，外加一段英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、波蘭語(yǔ)或葡萄牙語(yǔ)的文本，Voicebox 即可生成對(duì)應(yīng)的朗讀音頻。這種能力訟人興奮，未來(lái)可以幫助使用不同母語(yǔ)的人們通過(guò)自然且真實(shí)的方式開展交流。
語(yǔ)音降噪與編輯：Voicebox 的上下文學(xué)習(xí)為其賦予了強(qiáng)大的語(yǔ)音生成能力，可無(wú)縫編輯音頻中的片段。它能重新合成被暫時(shí)噪聲干擾的語(yǔ)音部分，或者替換掉說(shuō)錯(cuò)的詞，而無(wú)需重新錄制整段語(yǔ)音。用戶可以找到語(yǔ)音中被噪聲（如狗叫聲）干擾的原始片段，剪切出來(lái)并指示模型重新生成。有朝一日，這種能力還可用于清洗和編輯音頻，且使用過(guò)程與目前流行的圖像編輯工具一樣輕松便捷。
多樣化語(yǔ)音采樣：利用多樣化的真實(shí)數(shù)據(jù)完成學(xué)習(xí)后，Voicebox 將可生成與人們的現(xiàn)實(shí)對(duì)話高度吻合的以上六種語(yǔ)言對(duì)話音頻。未來(lái)，此功能可用于生成合成數(shù)據(jù)，協(xié)助提升語(yǔ)音助手模型的訓(xùn)練效果。研究結(jié)果表明，基于 Voicebox 生成的合成語(yǔ)音訓(xùn)練出的語(yǔ)音識(shí)別模型，在性能上幾乎與使用真實(shí)語(yǔ)音的模型相當(dāng)，錯(cuò)誤率降低了 1%；與以往同類文本到語(yǔ)音模型相比，合成語(yǔ)音數(shù)據(jù)訓(xùn)練結(jié)果的錯(cuò)誤率更是大幅降低 45% 至 70%。

Voicebox 的誕生，標(biāo)志著生成式 AI 研究又向前邁出了重要一步。在文本、圖像和視頻生成等方面，具備任務(wù)泛化能力的可擴(kuò)展生成式 AI 模型已經(jīng)激發(fā)了人們對(duì)于跨任務(wù)潛在應(yīng)用的濃厚興趣。Meta AI 希望音頻領(lǐng)域未來(lái)也能掀起同樣的潮流，同時(shí)繼續(xù)保持深耕和探索，關(guān)注其他研究人員如何在 Voicebox 的基礎(chǔ)之上尋求新的突破。

Voicebox 背后的

Flow Matching 技術(shù)

現(xiàn)有語(yǔ)音合成工具的主要局限之一，在于只能就專門的任務(wù)配合準(zhǔn)備好的數(shù)據(jù)接受訓(xùn)練。這些單調(diào)而干凈的輸入數(shù)據(jù)相對(duì)有限且難以收集，因此也導(dǎo)致輸出結(jié)果變得同樣單調(diào)。

Meta AI 的研究人員基于“流匹配”（Flow Matching）技術(shù)構(gòu)建了 Voicebox，這項(xiàng)技術(shù)是 Meta 在非自回歸生成模型領(lǐng)域的最新進(jìn)展，能夠掌握文本到語(yǔ)音之間高度不確定的映射。非確定性映射非常重要，它使得 Voicebox 能夠從不同的語(yǔ)音數(shù)據(jù)中學(xué)習(xí)，且無(wú)需對(duì)各種變化要素做詳盡標(biāo)注。也就是說(shuō)，Voicebox 能夠在多樣性更強(qiáng)、規(guī)模更大的數(shù)據(jù)之上進(jìn)行訓(xùn)練。

與當(dāng)前最先進(jìn)的英語(yǔ)模型 VALL-E 相比，Voicebox 在可懂度（即單詞錯(cuò)誤率，前者為 5.9%，Voicebox 為 1.9%）和音頻相似度（0.580 對(duì) 0.681）方面均更加強(qiáng)大，且速度要快 20 倍。在跨語(yǔ)言風(fēng)格遷移方面，Voicebox 也優(yōu)于領(lǐng)先模型 YourTTS，能夠?qū)⑵骄鶈卧~錯(cuò)誤率從 10.9% 降低至 5.2%，并將音頻相似度從 0.335 提高至 0.481。

Voicebox 取得新的先進(jìn)結(jié)果，在單詞錯(cuò)誤率方面優(yōu)于 Vall-E 和 YourTTS。

Voicebox 還分別在英語(yǔ)和多語(yǔ)言基準(zhǔn)測(cè)試中的音頻風(fēng)格相似性方面，達(dá)成了新的頂尖成績(jī)。

研究人員使用超過(guò) 5 萬(wàn)小時(shí)的語(yǔ)音錄音，和來(lái)自英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、波蘭語(yǔ)和葡萄牙語(yǔ)的公共有聲讀物轉(zhuǎn)錄對(duì) Voicebox 進(jìn)行訓(xùn)練。經(jīng)過(guò)訓(xùn)練后，Voicebox 能夠在給定前后語(yǔ)音和片段轉(zhuǎn)錄數(shù)據(jù)時(shí)預(yù)測(cè)出語(yǔ)音片段。它還能學(xué)會(huì)根據(jù)上下文補(bǔ)全語(yǔ)音，從而被應(yīng)用于其他語(yǔ)音生成任務(wù)，包括在無(wú)需重建整個(gè)輸入的前提下生成音頻的中間部分。

“AI 孫燕姿”爆火后，

再看語(yǔ)音生成濫用風(fēng)險(xiǎn)

Voicebox 擁有眾多令人興奮的用例，但 Meta 也承認(rèn)其存在潛在的濫用風(fēng)險(xiǎn)，所以 Meta AI 的研究人員決定暫不公開 Voicebox 模型或代碼。Meta 在社交平臺(tái)上公開表示：“與其他強(qiáng)大的人工智能創(chuàng)新技術(shù)一樣，我們認(rèn)為這項(xiàng)技術(shù)也可能會(huì)被濫用，造成意外傷害?！?/p>

事實(shí)上，語(yǔ)音生成引發(fā)的濫用風(fēng)險(xiǎn)并不少見。以華語(yǔ)樂(lè)壇最近爆火的“AI 孫燕姿”為例，AI 讓孫燕姿翻紅的同時(shí)，也讓背后的風(fēng)險(xiǎn)顯露出來(lái)。一方面，AI 合成聲音可能涉及侵權(quán)問(wèn)題，另一方面，也可能帶來(lái)一系列倫理和法律的風(fēng)險(xiǎn)。

我國(guó)《民法典》第 1023 條第二款規(guī)定，對(duì)自然人聲音的保護(hù)，參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定。第 1019 條第一款規(guī)定，任何組織或者個(gè)人不得以丑化、污損，或者利用信息技術(shù)手段偽造等方式侵害他人的肖像權(quán)。未經(jīng)肖像權(quán)人同意，不得制作、使用、公開肖像權(quán)人的肖像。由此可見，比照對(duì)肖像的人格權(quán)保護(hù)，未經(jīng)權(quán)利人的同意，也不得制作、使用、公開利用權(quán)利人的聲音。

此外，語(yǔ)音生成也會(huì)成為電信詐騙的利器。前段時(shí)間，美國(guó)和加拿大各地使用 AI 合成語(yǔ)音進(jìn)行電信詐騙的案例多發(fā)，不少老年上當(dāng)受騙。加拿大警方稱，最近加拿大各地都有不少類似案件發(fā)生，涉案金額已達(dá)數(shù)百萬(wàn)加元。有受害者表示，犯罪分子使用的聲音和她兒子的聲音簡(jiǎn)直一模一樣。在美國(guó)，類似的詐騙案件近期也呈上升趨勢(shì)。

作為首個(gè)能夠成功執(zhí)行任務(wù)的多功能、高效泛化模型，Meta AI 堅(jiān)信 Voicebox 即將開創(chuàng)生成式 AI 語(yǔ)音模型的新時(shí)代，但與其他強(qiáng)大的 AI 創(chuàng)新成果一樣，這項(xiàng)技術(shù)同樣可能因誤用引發(fā)意外危害。對(duì)于語(yǔ)音生成帶來(lái)的濫用風(fēng)險(xiǎn)，Meta 也想好了對(duì)策——構(gòu)建一款高效分類器，用以區(qū)分由 Voicebox 生成的音頻和真實(shí)語(yǔ)音，借此緩解未來(lái)可能出現(xiàn)的種種風(fēng)險(xiǎn)。

在論文（https://research./publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/）中，Meta AI 研究人員還具體講解了如何構(gòu)建一款高效分類器，用以區(qū)分真實(shí)語(yǔ)音和 Voicebox 生成的音頻。

參考鏈接：

https://ai./blog/voicebox-generative-ai-model-speech/

http://www.xinhuanet.com/ent/20230620/85f213fc8b914b7a9ea17addc3cec01e/c.html

活動(dòng)推薦

通過(guò)與大量企業(yè)同行交流，我們發(fā)現(xiàn)很多企業(yè)都對(duì)于利用開源模型構(gòu)建私有模型，并利用大型語(yǔ)言模型構(gòu)建私有知識(shí)應(yīng)用，將企業(yè)的私有知識(shí)進(jìn)行有效萃取及使用感興趣。

7 月 -8 月，我們策劃了 3 場(chǎng)線下深度培訓(xùn)，邀請(qǐng)業(yè)界資深專家陳旸博士，和范煜分享如何動(dòng)手構(gòu)建大模型并使用大模型開發(fā)應(yīng)用。還邀請(qǐng)了去哪兒網(wǎng)王植萌、京東金融康陽(yáng)分別從領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)和系統(tǒng)高可用性方面，深度解讀這些技術(shù)從設(shè)計(jì)到落地的細(xì)節(jié)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：板橋胡同37號(hào) > 《芯科》

舉報(bào)/認(rèn)領(lǐng)