播客，下一個(gè) AI 涌入的賽道

創(chuàng)業(yè)情報(bào)局 2024-10-20

展開(kāi)全文

在今年三月，Suno V3 的橫空出世，如 AI 圈的一聲春雷。那時(shí)，復(fù)蘇的不只有世間萬(wàn)物，還有在“人人都是音樂(lè)家”的口號(hào)下，大眾對(duì)生成式 AI 的熱情。

一石激起千層浪。在這場(chǎng)生產(chǎn)端，既有搶占先機(jī)快速套殼 Suno 的，又有加緊開(kāi)發(fā)自研模型的，一時(shí)間誕生了上百款 AI 音樂(lè)生成產(chǎn)品；而在消費(fèi)端更是狂熱，數(shù)十萬(wàn)人涌進(jìn)網(wǎng)易云音樂(lè)、QQ 音樂(lè)等平臺(tái)注冊(cè)成為“音樂(lè)人”，樂(lè)此不疲地創(chuàng)作與發(fā)布。

在社交媒體上可以輕松看到這些帖子：“這套工作流，批量生產(chǎn)優(yōu)質(zhì) AI 歌曲”，“秒過(guò)音樂(lè)人申請(qǐng)教程”，“分享我用 AI 音樂(lè)薅來(lái)的創(chuàng)作中收益”...

誠(chéng)然，AI 生成的音樂(lè)質(zhì)量還遠(yuǎn)達(dá)不到“如聽(tīng)仙樂(lè)耳暫明”的程度。甚至還有些內(nèi)容過(guò)剩，供過(guò)于求之下，聽(tīng)多了反而覺(jué)得厭煩。

但不得不承認(rèn)的是，AI 生成的音樂(lè)質(zhì)量是高于大眾普遍水平的，不可忽視其在部分場(chǎng)景下的應(yīng)用價(jià)值和創(chuàng)造性?xún)r(jià)值。

面對(duì)來(lái)勢(shì)洶洶的 AI 音樂(lè)，網(wǎng)易云，QQ音樂(lè)等平臺(tái)選擇積極應(yīng)對(duì)，對(duì)此專(zhuān)門(mén)開(kāi)放了 AI 音樂(lè)專(zhuān)區(qū)。

這一年多來(lái)，AI 的熊熊烈火從文字，圖片蔓延到視頻，音樂(lè)...

而現(xiàn)在，輪到了播客。

用 AI 來(lái)做播客的探索近年來(lái)一直都有，但最近大家的熱情，被谷歌一款產(chǎn)品的新功能再次點(diǎn)燃。

NotebookLM，一款上線于 2023 年 9 月的 AI 筆記產(chǎn)品，因其最新的的文本生成播客功能而走紅。

這不是簡(jiǎn)單的 TTS（文本生成音頻），而是能將你上傳的任何資料，都轉(zhuǎn)換成輕松愉快的雙人對(duì)話播客，并且效果非常逼真。

Andrej Karpathy 大佬認(rèn)為 NotebookLM 是非常引人注目的產(chǎn)品形態(tài)，甚至有當(dāng)年 ChatGPT 的幾分英姿。墨問(wèn)西東的創(chuàng)始人老池也表示 NoteBookLM 是新一代的筆記產(chǎn)品，AI 生成的內(nèi)容質(zhì)量非常不錯(cuò)。

其實(shí)，谷歌之前還做了一個(gè) Illuminate，能用 AI 將學(xué)術(shù)論文/書(shū)籍轉(zhuǎn)換成通俗易懂的播客形式，并在計(jì)算機(jī)科學(xué)領(lǐng)域做了一定優(yōu)化。

該產(chǎn)品最早亮相于今年五月的 Google I/O 大會(huì)，現(xiàn)在已支持公開(kāi)訪問(wèn)。

https://illuminate.google.com/home

自定義生成功能還需要申請(qǐng)，不過(guò)通過(guò)還挺快的。

猶記得當(dāng)年沒(méi)畢業(yè)，讀那些難啃的人工智能領(lǐng)域論文還是跟著李沐老師，現(xiàn)在的學(xué)生，依靠?jī)晌慌浜夏醯?AI 老師，就能把要點(diǎn)娓娓道來(lái)了。

AI 播客在國(guó)內(nèi)沒(méi)有大范圍爆發(fā)的一個(gè)原因，就是沒(méi)有類(lèi)似的中文版產(chǎn)品，但這只是時(shí)間問(wèn)題。

特工宇宙在幾個(gè)月前也嘗試開(kāi)發(fā) Agent 實(shí)現(xiàn)類(lèi)似的效果，整體流程并不復(fù)雜，但想要達(dá)到穩(wěn)定逼真的效果需要一些工程上的優(yōu)化手段。

大致實(shí)現(xiàn)思路：將文件中的純文本提取后輸入到大模型，大模型進(jìn)行分段處理并結(jié)構(gòu)化輸出，然后分別用 TTS 最后再合成。

其中關(guān)鍵的三部分包括：

1. 提示詞技巧，需要將輸入的文本轉(zhuǎn)化成既具可讀性和專(zhuān)業(yè)性的雙人對(duì)話內(nèi)容，這關(guān)系著內(nèi)容整體價(jià)值，控制不好會(huì)容易導(dǎo)致內(nèi)容泛泛而談或過(guò)于生硬。

2. 底層模型的能力，包括指令遵循和結(jié)構(gòu)化輸出的能力，如果沒(méi)有嚴(yán)格按照 JSON 格式輸出，會(huì)直接導(dǎo)致無(wú)法合成語(yǔ)音。

3. 語(yǔ)音合成技術(shù)，TTS 的效果會(huì)直接影響最終的用戶(hù)體驗(yàn)，只有選用效果逼真的中文模型才會(huì)讓人有聽(tīng)下去的欲望。

也有部分開(kāi)發(fā)者進(jìn)行了復(fù)刻，以下是一些供參考的開(kāi)源項(xiàng)目，可以去學(xué)習(xí)一下其中的提示詞技巧和實(shí)現(xiàn)思路。

以下是我們將特工宇宙之前的一篇訪談，利用聽(tīng)悟智能的開(kāi)源項(xiàng)目（下3）測(cè)試得到的結(jié)果，效果已經(jīng)超乎預(yù)期。

1. https://github.com/gabrielchua/open-notebooklm

2. https://github.com/knowsuchagency/pdf-to-podcast

3. https://github.com/lihuithe/podlm-public

4. https://github.com/lamm-mit/PDF2Audio

大眾對(duì)文本轉(zhuǎn)播客的青睞，蘊(yùn)含著未來(lái)內(nèi)容的創(chuàng)作與分發(fā)的新范式。

在不遠(yuǎn)的未來(lái)，內(nèi)容模態(tài)的任督二脈將被 AI 打通。對(duì)于內(nèi)容創(chuàng)作者來(lái)說(shuō)，同樣的選題和內(nèi)容，可以輕松地轉(zhuǎn)換成圖文、短視頻、播客等形式，分發(fā)至不同的平臺(tái)，同時(shí)滿(mǎn)足不同渠道粉絲的不同需求。

對(duì)于內(nèi)容消費(fèi)者來(lái)說(shuō)，可以將固定的知識(shí)，讓 AI 處理成更符合自己閱讀習(xí)慣的方式。比如變成漫畫(huà)風(fēng)格呈現(xiàn)，或是變成音樂(lè)唱出來(lái)，甚至可以是講八卦風(fēng)格的相聲。用戶(hù)還可以定制化音色，換成自己心怡的聲音，實(shí)現(xiàn)更個(gè)性化的千人千面。

這種多元化和個(gè)性化的內(nèi)容體驗(yàn)，不僅能夠提高用戶(hù)的滿(mǎn)意度和參與度，也將推動(dòng)內(nèi)容產(chǎn)業(yè)的創(chuàng)新和發(fā)展。

隨著技術(shù)的不斷進(jìn)步，可以預(yù)見(jiàn)的是一個(gè)更加豐富、便捷和智能的內(nèi)容生態(tài)，即將到來(lái)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：創(chuàng)業(yè)情報(bào)局 > 《貿(mào)易電商》

舉報(bào)/認(rèn)領(lǐng)