現(xiàn)在的AI作曲，寫出來的歌可以當(dāng)短視頻的BGM了

草容生 2023-10-14 發(fā)布于湖南

展開全文

毫無疑問， AI 的出現(xiàn)，讓不少行業(yè)面臨著技術(shù)革新，音樂圈子也不例外。

不僅人聲模擬，在音樂創(chuàng)作這塊兒， AI 也是卯足了勁，各種文本生成音樂模型是一個接著一個：

像是 OpenAI 的 MuseNet 、谷歌的 MusicLM 、 Meta 的 MusicGen ，還有前不久 Stability AI 家剛出來的 Stable Audio 等等等等。

這還只是一些比較出圈的 AI 音樂模型，其他的不知名的更是海了去了。

這么多生成音樂的 AI 模型，它們主打的，都是一個讓音樂門外漢也能作曲，只要動動手會打字、會描述就 OK 了。

這么一說，讓沒什么樂理知識的世超著實(shí)很心動，作曲咱不會，但文字描述可是咱擅長的領(lǐng)域。

于是，我們決定親自試試目前市面上比較出圈的幾款 AI 作曲模型，看看它們到底能不能實(shí)現(xiàn)從零作曲，以及寫出來的曲子到底好不好聽、符不符合要求。

首先出場的是 Stability AI 的新作曲 AI ：Stable Audio 。

官方說是用了超過 80 萬個音頻文件去訓(xùn)練模型，里面像音樂、音效、單一樂器演奏等都有包含，整個數(shù)據(jù)集的時長加起來有 19500 多個小時。

并且光靠語言描述， AI 就能生成最長 90 秒的音樂。

風(fēng)格跨度也是賊大，世超去它們官網(wǎng)聽了下示例，有鋼琴、架子鼓這種單純器樂的。

還有不同流派不同風(fēng)格的，比如民族打擊樂、嘻哈、重金屬之類的。

甚至還能生成白噪音，像是一個餐館里嘈雜的吵鬧聲， u1s1 聽起來還蠻逼真的。

people-talk-in-a-busy-restaurant,差評,45秒

當(dāng)然，官方公布的肯定都是挑比較好的演示展示出來，到底用起來怎么樣還是得親自上手試試。

于是我們也注冊了號，看看我這個音樂門外漢通過這個模型能創(chuàng)作出什么樣的音樂來。

由于是剛發(fā)布，世超還花了好一會兒時間才進(jìn)到 Stable Audio 的使用網(wǎng)頁。

進(jìn)去之后，我們先讓它生成一段 30 秒的貝斯 solo ， 112 個節(jié)拍，要 funk ，有律動一點(diǎn)。

生成過程大概用了一兩分鐘，世超聽了下結(jié)果，倒是有點(diǎn)出乎意料，是在彈貝斯沒錯，音樂風(fēng)格也挺準(zhǔn)確，但唯一的瑕疵就是這貝斯的音色不太清晰，像是指彈和 slap 的中間態(tài)。

接下來上點(diǎn)難度，樂器復(fù)雜點(diǎn)，讓它生成一段朗朗上口的流行舞曲，中間帶著熱帶打擊樂，要有歡快的節(jié)奏，適合在沙灘上聽。

這次 Stable Audio 有點(diǎn)小失誤，雖然節(jié)奏挺歡快的，也挺適合在沙灘蹦跶的，但提示詞里的熱帶打擊樂，我愣是沒在這 30s 聽出來。

再讓它生成一段搖滾曲風(fēng)的音樂，也是不出幾分鐘就搞定了，雖然聽起來依舊不怎么清晰，但搖滾曲風(fēng)以及電吉他、架子鼓的聲音還是能聽出來的。

整體體驗(yàn)下來，在音樂生成這塊， Stable Audio 的表現(xiàn)確實(shí)沒有什么大錯，偶爾還會有一些出乎意料的表現(xiàn)。

起碼對于一些想給短視頻插背景音樂的創(chuàng)作者來說，這個完全夠用了。

并且這次， Stable Audio 還專門在時長上下了一點(diǎn)功夫，普通版可以生成 45 秒以內(nèi)的音頻，想要更長的話，就升級個 PRO 版，可以連續(xù)生成 90 秒。

接下來上第二位選手：Meta AI 的MusicGen ，它基于 Transformer 架構(gòu)，靠上一段音頻預(yù)測生成之后的音頻片段。

現(xiàn)在 MusicGen 只公布了 Demo ，能在 huggingface 上淺淺體驗(yàn)一波。

比如說生成一段嘻哈曲風(fēng)的音樂，聽起來很抓耳，節(jié)奏倒是蠻干凈利落的。

和 Stable Audio 不太一樣的是， MusiacGen 在生成音樂時，提示詞會更自由一點(diǎn)，不僅有文字的選項(xiàng)，還可以補(bǔ)充一些聲音文件。

操作起來很簡單，輸入提示詞，再把想?yún)⒖嫉囊魳菲沃苯油系轿募騼?nèi)，或者現(xiàn)場錄音，當(dāng)然音頻提示也可以不填。

雖然 MusiacGen 一次最長只能生成 30s 的音頻，但有音頻提示的加成，生成一段長音頻也不是不可能，就是會有點(diǎn)麻煩。

只要每次生成 30s 的音頻后，前后截取 10s 作為之后的提示，最后拼接起來就是一段長音頻了。

不過在整個體驗(yàn)過程中，有一點(diǎn)著實(shí)會勸退一大波人，那就是它生成的速度實(shí)在是太慢了，三四分鐘還算好的，離譜的是有時等了好幾分鐘，結(jié)果突然彈出個崩潰了的彈窗。。。

今年年初，谷歌也發(fā)布了音樂大模型 MusicLM ，在現(xiàn)有的作曲 AI 中，谷歌的這個功能最多。

除了最基礎(chǔ)的文字生成音樂之外， MusicLM 還搞了一些其他花樣。

比如說故事模式，可以讓它生成一段 1 分鐘長的音樂： 0~15s 冥想、 16~30s 醒來、 31~45s 跑步、 46~60s 結(jié)束。

生成的音頻聽起來確實(shí)還挺符合要求的，但就還是老毛病，樂器的聲音不夠清晰，各個段落之間的轉(zhuǎn)換也有點(diǎn)生硬。

還有看圖配樂的功能，給出一個經(jīng)典的拿破侖騎馬穿越阿爾卑斯山的圖，再對圖片進(jìn)行一些描述， MusicLM 就能給生成 30s 的配樂。

這次聽起還真有點(diǎn)戲劇的感覺。

MusicLM 同樣沒有對外公布，想要體驗(yàn)只能在 AI Test Kitchen 上排隊(duì)獲取內(nèi)測資格。

OpenAI 的 MuseNet ，在三年前就已經(jīng)在官網(wǎng)公布了。

不過最近這幾年倒是沒怎么更新，還是基于和 GPT-2 一樣的技術(shù)。并且 3 年過去了，這個 AI 還沒有對外開放使用。

但看看它官網(wǎng)對 MuseNet 的介紹以及給出的示例，估摸著出來就是吊打上面模型的存在。

先不說生成音樂的質(zhì)量，就光是時長就已經(jīng)很頂了，最多可以生成 4 分鐘的音樂。

對比上面提到的幾個模型，生成音樂的質(zhì)感也是分分鐘秒殺，世超從官網(wǎng)下載了個示例，大家可以一起聽聽。

不說是 AI 創(chuàng)作的，我還真會以為是那個音樂大師編的新曲子，有引入、有高潮，樂器的聲音也很清晰，再簡單調(diào)整下就是個完整的音樂作品了。

當(dāng)然，有這樣的效果除了有神經(jīng)網(wǎng)絡(luò)的功勞外，訓(xùn)練用的數(shù)據(jù)集也是起到關(guān)鍵作用的。

OpenAI 統(tǒng)共用了數(shù)十萬個 MIDI 文件訓(xùn)練 MuseNet ，下面這張圖就是用到的部分?jǐn)?shù)據(jù)集，從肖邦、巴赫、莫扎特到邁克 · 杰克遜、披頭士、麥當(dāng)娜，從古典到搖滾到流行，幾乎各種風(fēng)格的音樂都能在里面找到。

不止國外，國內(nèi)這幾年 AI 音樂也是發(fā)展得火熱，去年華為開發(fā)者大會上，就公布了一款音樂 AI ：Singer 模型，網(wǎng)易云面向音樂人推出了網(wǎng)易天音，作詞、作曲、編曲直接都能靠 AI 解決。

在前不久的 2023 世界人工智能大會上，騰訊多媒體實(shí)驗(yàn)室也展示了自研的 AI 通用作曲框架 XMusic 。

總的來說，這幾個 AI 作曲模型也算是各有千秋，想要的音樂風(fēng)格基本都能生成，甚至有時生成的音樂不仔細(xì)琢磨還真聽不出來是 AI 生成的，用在一些短視頻中也是能妥妥地 “ 蒙混 ” 過去。

但若要以一個專業(yè)人士來看的話，上面這些 AI 恐怕都或多或少有些缺點(diǎn)，最明顯的就是上面提到的那幾個 AI ，它們生成的音樂在樂器演奏上幾乎都不太清晰。

并且，和 AI 作畫一樣， AI 音樂也是版權(quán)問題的一大重災(zāi)區(qū)，由于相關(guān)法律還跟不上 AI 發(fā)展的速度，時不時就有 AI 侵權(quán)的官司。

比如今年 1 月份，美國唱片業(yè)協(xié)會向政府提交了一份侵權(quán)報告，提醒他們要重視 AI 音樂侵權(quán)的問題。

就連 MusicLM 的研究人員也親口承認(rèn)了侵權(quán)問題，在論文中寫到會有盜用創(chuàng)意內(nèi)容的潛在風(fēng)險。

原因是在試驗(yàn)這個模型的過程中，發(fā)現(xiàn)它在生成的音樂里，大概有 1% 是直接從訓(xùn)練的數(shù)據(jù)集中照搬過來的。

也難怪現(xiàn)在大多音樂 AI 模型要么干脆不對外試用，要么只有 demo 或者排隊(duì)內(nèi)測，就連對外開放的 Stable Audio 也是反復(fù)強(qiáng)調(diào)自己的數(shù)據(jù)集是經(jīng)過 AudioSparx 授權(quán)的。

拋開版權(quán)問題不說，目前 AI 在音樂這塊的發(fā)展確實(shí)是令人咋舌，擁抱 AI 音樂也已經(jīng)是行業(yè)內(nèi)的大勢所趨。

像專門提供輕音樂的 AI 音樂公司 Endel ，已經(jīng)先后得到了華納、索尼等音樂巨頭的投資， AI 音樂創(chuàng)作平臺 Soundful 也拿到了環(huán)球音樂、迪士尼、微軟的投資。

當(dāng)然，入局 AI 音樂是出于商業(yè)以及科技趨勢的考量，在音樂性與藝術(shù)性上，目前的 AI 還是遠(yuǎn)不及人類創(chuàng)作者的，而這也是未來 AI 最應(yīng)該優(yōu)先考慮的。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：草容生 > 《科學(xué)科技》

舉報/認(rèn)領(lǐng)