在今年三月,Suno V3 的橫空出世,如 AI 圈的一聲春雷。那時(shí),復(fù)蘇的不只有世間萬(wàn)物,還有在“人人都是音樂(lè)家”的口號(hào)下,大眾對(duì)生成式 AI 的熱情。 一石激起千層浪。在這場(chǎng)生產(chǎn)端,既有搶占先機(jī)快速套殼 Suno 的,又有加緊開(kāi)發(fā)自研模型的,一時(shí)間誕生了上百款 AI 音樂(lè)生成產(chǎn)品;而在消費(fèi)端更是狂熱,數(shù)十萬(wàn)人涌進(jìn)網(wǎng)易云音樂(lè)、QQ 音樂(lè)等平臺(tái)注冊(cè)成為“音樂(lè)人”,樂(lè)此不疲地創(chuàng)作與發(fā)布。 在社交媒體上可以輕松看到這些帖子:“這套工作流,批量生產(chǎn)優(yōu)質(zhì) AI 歌曲”,“秒過(guò)音樂(lè)人申請(qǐng)教程”,“分享我用 AI 音樂(lè)薅來(lái)的創(chuàng)作中收益”... 誠(chéng)然,AI 生成的音樂(lè)質(zhì)量還遠(yuǎn)達(dá)不到“如聽(tīng)仙樂(lè)耳暫明”的程度。甚至還有些內(nèi)容過(guò)剩,供過(guò)于求之下,聽(tīng)多了反而覺(jué)得厭煩。 但不得不承認(rèn)的是,AI 生成的音樂(lè)質(zhì)量是高于大眾普遍水平的,不可忽視其在部分場(chǎng)景下的應(yīng)用價(jià)值和創(chuàng)造性?xún)r(jià)值。 面對(duì)來(lái)勢(shì)洶洶的 AI 音樂(lè),網(wǎng)易云,QQ音樂(lè)等平臺(tái)選擇積極應(yīng)對(duì),對(duì)此專(zhuān)門(mén)開(kāi)放了 AI 音樂(lè)專(zhuān)區(qū)。 這一年多來(lái),AI 的熊熊烈火從文字,圖片蔓延到視頻,音樂(lè)... 而現(xiàn)在,輪到了播客。 用 AI 來(lái)做播客的探索近年來(lái)一直都有,但最近大家的熱情,被谷歌一款產(chǎn)品的新功能再次點(diǎn)燃。 NotebookLM,一款上線于 2023 年 9 月的 AI 筆記產(chǎn)品,因其最新的的文本生成播客功能而走紅。 這不是簡(jiǎn)單的 TTS(文本生成音頻),而是能將你上傳的任何資料,都轉(zhuǎn)換成輕松愉快的雙人對(duì)話播客,并且效果非常逼真。 Andrej Karpathy 大佬認(rèn)為 NotebookLM 是非常引人注目的產(chǎn)品形態(tài),甚至有當(dāng)年 ChatGPT 的幾分英姿。墨問(wèn)西東的創(chuàng)始人老池也表示 NoteBookLM 是新一代的筆記產(chǎn)品,AI 生成的內(nèi)容質(zhì)量非常不錯(cuò)。 其實(shí),谷歌之前還做了一個(gè) Illuminate,能用 AI 將學(xué)術(shù)論文/書(shū)籍轉(zhuǎn)換成通俗易懂的播客形式,并在計(jì)算機(jī)科學(xué)領(lǐng)域做了一定優(yōu)化。 該產(chǎn)品最早亮相于今年五月的 Google I/O 大會(huì),現(xiàn)在已支持公開(kāi)訪問(wèn)。 https://illuminate.google.com/home 自定義生成功能還需要申請(qǐng),不過(guò)通過(guò)還挺快的。 猶記得當(dāng)年沒(méi)畢業(yè),讀那些難啃的人工智能領(lǐng)域論文還是跟著李沐老師,現(xiàn)在的學(xué)生,依靠?jī)晌慌浜夏醯?AI 老師,就能把要點(diǎn)娓娓道來(lái)了。 AI 播客在國(guó)內(nèi)沒(méi)有大范圍爆發(fā)的一個(gè)原因,就是沒(méi)有類(lèi)似的中文版產(chǎn)品,但這只是時(shí)間問(wèn)題。 特工宇宙在幾個(gè)月前也嘗試開(kāi)發(fā) Agent 實(shí)現(xiàn)類(lèi)似的效果,整體流程并不復(fù)雜,但想要達(dá)到穩(wěn)定逼真的效果需要一些工程上的優(yōu)化手段。 大致實(shí)現(xiàn)思路:將文件中的純文本提取后輸入到大模型,大模型進(jìn)行分段處理并結(jié)構(gòu)化輸出,然后分別用 TTS 最后再合成。 其中關(guān)鍵的三部分包括: 1. 提示詞技巧,需要將輸入的文本轉(zhuǎn)化成既具可讀性和專(zhuān)業(yè)性的雙人對(duì)話內(nèi)容,這關(guān)系著內(nèi)容整體價(jià)值,控制不好會(huì)容易導(dǎo)致內(nèi)容泛泛而談或過(guò)于生硬。 2. 底層模型的能力,包括指令遵循和結(jié)構(gòu)化輸出的能力,如果沒(méi)有嚴(yán)格按照 JSON 格式輸出,會(huì)直接導(dǎo)致無(wú)法合成語(yǔ)音。 3. 語(yǔ)音合成技術(shù),TTS 的效果會(huì)直接影響最終的用戶(hù)體驗(yàn),只有選用效果逼真的中文模型才會(huì)讓人有聽(tīng)下去的欲望。 也有部分開(kāi)發(fā)者進(jìn)行了復(fù)刻,以下是一些供參考的開(kāi)源項(xiàng)目,可以去學(xué)習(xí)一下其中的提示詞技巧和實(shí)現(xiàn)思路。 以下是我們將特工宇宙之前的一篇訪談,利用聽(tīng)悟智能的開(kāi)源項(xiàng)目(下3)測(cè)試得到的結(jié)果,效果已經(jīng)超乎預(yù)期。 |
|