我們需要尋找“藍(lán)海”,近期出現(xiàn)了其他內(nèi)容的突破嗎? Mixlab 小杜 社區(qū)五月份介紹了 Pollinations.ai ,平臺(tái)集成了文本、圖像、音頻、視頻等多種模態(tài)的模型,近期平臺(tái)功能也進(jìn)行了迭代升級(jí),但在模型內(nèi)容質(zhì)量上還是參差不齊。 最近熱度最高的開(kāi)源模型是 Stable Diffusion,其極為優(yōu)秀的開(kāi)源生態(tài)也催生了許多模型的整合創(chuàng)新。Stable Diffusion + Mubert 就實(shí)現(xiàn)了高質(zhì)量的圖像到音樂(lè)的生成。尤其是圖片轉(zhuǎn)音樂(lè),不是那種抽象電子風(fēng),而是真正具備了應(yīng)用級(jí)配樂(lè)的水準(zhǔn)!(請(qǐng)看下文)
img-to-music 小杜 speech-to-image demo 使用預(yù)先訓(xùn)練的 OpenAI whisper-small 與 Stable Diffusion 從音頻樣本生成圖像。img-to-music 則是發(fā)送圖像到剪輯詢問(wèn)器 CLIP Interrogator 生成文本提示,然后通過(guò) Mubert 識(shí)別文本輸出音樂(lè),實(shí)現(xiàn)輸入圖像到生成音樂(lè)的過(guò)程。帶我們看看測(cè)試效果? Mixlab 小杜 speech-to-image ,我測(cè)試了三類聲音到圖像的生成# 人聲哼唱(小編的瞎哼) # 流行音樂(lè) (Golden Hour 前奏+一丟丟人聲) # 環(huán)境自然音(小編嘈雜的居住環(huán)境) ...... 小杜 出乎意料的驚喜!對(duì)于我們?nèi)祟?,與為文字配插畫(huà)相比,為音樂(lè)配圖似乎是件更為困難的事。音樂(lè)的抽象特征與AI生成的特質(zhì)意外的契合。 AI給第一個(gè)哼唱生成了一幅略顯俏皮的圣誕老人形象,似乎有點(diǎn)在嘲諷我哼唱得五音不全hh。第二個(gè)流行歌曲,AI應(yīng)該是識(shí)別出了歌曲的關(guān)鍵詞 “Love” ,雖說(shuō)沒(méi)太拼對(duì),但有種為愛(ài)情沖昏了頭腦的感覺(jué)。第三個(gè)環(huán)境音嘈雜而沒(méi)有感情色彩,AI也生成了一幅比較契合的黑白色調(diào)的拼貼畫(huà)。 反過(guò)來(lái),圖像生成音樂(lè)是啥效果? Mixlab 小杜 那可更驚喜了!我找的音頻素材可沒(méi)AI生成的驚艷~同樣也測(cè)試了三類圖片生成的音樂(lè)-# Stable Diffusion 文本生成的圖像 # 藝術(shù)畫(huà)作 #01 音頻生成的圖像 #02 文本生成的圖像 #03 名畫(huà)千里江山圖局部 小杜 真是一個(gè)比一個(gè)驚喜!第一張圖是測(cè)試 Golden Hour 音頻轉(zhuǎn)圖像生成的圖,反過(guò)來(lái)生成了有點(diǎn)迷幻電子風(fēng)的音樂(lè)。第二張是用SD生成的概念汽車場(chǎng)景,AI較為精準(zhǔn)地 “理解了” 畫(huà)面內(nèi)容,生成了科幻槍?xiě)?zhàn)的配樂(lè)。第三個(gè)則是震驚到我了,AI盡然為我挑選的千里江山圖生成了有樂(lè)章結(jié)構(gòu)的中國(guó)風(fēng)音樂(lè)!Stable Diffusion 的開(kāi)源生態(tài)已經(jīng)不局限于圖像了。在文本-音樂(lè)生成模型 Mubert 實(shí)現(xiàn)圖像-音樂(lè)的工作流中,文本是在哪一步生成的呢? Mixlab 小杜 img-to-music 使用了 CLIP Interrogator 來(lái)生成圖像的文字,再通過(guò) Mubert 實(shí)現(xiàn)文本轉(zhuǎn)音樂(lè)。小杜 img-to-music 作者 @fffiloni 也展示了他產(chǎn)出的一些輸出探索,非常奇妙~小杜 以 img-to-music 為線索,我找出了 Stable Diffusion 較完善的擴(kuò)展應(yīng)用模型集成,大家感興趣也可以自主嘗試基于SD模型的應(yīng)用擴(kuò)展創(chuàng)新哦~speech-to-image demo: |
|
來(lái)自: Mixlab交叉學(xué)科 > 《待分類》