一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

實(shí)測(cè)AIGC工作流,Stable Diffusion + Mubert 實(shí)現(xiàn)圖片與音樂(lè)的轉(zhuǎn)換生成

 Mixlab交叉學(xué)科 2022-10-30 發(fā)布于上海

我們需要尋找“藍(lán)海”,近期出現(xiàn)了其他內(nèi)容的突破嗎?

Mixlab

小杜

社區(qū)五月份介紹了 Pollinations.ai ,平臺(tái)集成了文本、圖像、音頻、視頻等多種模態(tài)的模型,近期平臺(tái)功能也進(jìn)行了迭代升級(jí),但在模型內(nèi)容質(zhì)量上還是參差不齊。

最近熱度最高的開(kāi)源模型是  Stable Diffusion,其極為優(yōu)秀的開(kāi)源生態(tài)也催生了許多模型的整合創(chuàng)新。Stable Diffusion + Mubert 就實(shí)現(xiàn)了高質(zhì)量的圖像到音樂(lè)的生成。尤其是圖片轉(zhuǎn)音樂(lè),不是那種抽象電子風(fēng),而是真正具備了應(yīng)用級(jí)配樂(lè)的水準(zhǔn)!(請(qǐng)看下文)



speech-to-image



img-to-music 

小杜

speech-to-image demo 使用預(yù)先訓(xùn)練的 OpenAI whisper-small 與 Stable Diffusion 從音頻樣本生成圖像。img-to-music 則是發(fā)送圖像到剪輯詢問(wèn)器 CLIP Interrogator 生成文本提示,然后通過(guò) Mubert 識(shí)別文本輸出音樂(lè),實(shí)現(xiàn)輸入圖像到生成音樂(lè)的過(guò)程。

帶我們看看測(cè)試效果?

Mixlab

小杜

speech-to-image ,我測(cè)試了三類聲音到圖像的生成

# 人聲哼唱(小編的瞎哼)

# 流行音樂(lè) (Golden Hour 前奏+一丟丟人聲)

# 環(huán)境自然音(小編嘈雜的居住環(huán)境)


#01 人聲哼唱


#02 流行音樂(lè)



#03 環(huán)境音


......

小杜

出乎意料的驚喜!對(duì)于我們?nèi)祟?,與為文字配插畫(huà)相比,為音樂(lè)配

圖似乎是件更為困難的事。音樂(lè)的抽象特征與AI生成的特質(zhì)意外的契合。

AI給第一個(gè)哼唱生成了一幅略顯俏皮的圣誕老人形象,似乎有點(diǎn)在嘲諷我哼唱得五音不全hh。第二個(gè)流行歌曲,AI應(yīng)該是識(shí)別出了歌曲的關(guān)鍵詞 “Love” ,雖說(shuō)沒(méi)太拼對(duì),但有種為愛(ài)情沖昏了頭腦的感覺(jué)。第三個(gè)環(huán)境音嘈雜而沒(méi)有感情色彩,AI也生成了一幅比較契合的黑白色調(diào)的拼貼畫(huà)。

反過(guò)來(lái),圖像生成音樂(lè)是啥效果?

Mixlab

小杜

那可更驚喜了!我找的音頻素材可沒(méi)AI生成的驚艷~同樣也測(cè)試了三類圖片生成的音樂(lè)-

# 音頻生成的圖像

# Stable Diffusion 文本生成的圖像

# 藝術(shù)畫(huà)作


#01
 音頻生成的圖像


#02 文本生成的圖像

#03
 名畫(huà)千里江山圖局部


......

小杜

真是一個(gè)比一個(gè)驚喜!第一張圖是測(cè)試 Golden Hour 音頻轉(zhuǎn)圖像生成的圖,反過(guò)來(lái)生成了有點(diǎn)迷幻電子風(fēng)的音樂(lè)。第二張是用SD生成的概念汽車場(chǎng)景,AI較為精準(zhǔn)地 “理解了” 畫(huà)面內(nèi)容,生成了科幻槍?xiě)?zhàn)的配樂(lè)。第三個(gè)則是震驚到我了,AI盡然為我挑選的千里江山圖生成了有樂(lè)章結(jié)構(gòu)的中國(guó)風(fēng)音樂(lè)!

Stable Diffusion 的開(kāi)源生態(tài)已經(jīng)不局限于圖像了。在文本-音樂(lè)生成模型 Mubert 實(shí)現(xiàn)圖像-音樂(lè)的工作流中,文本是在哪一步生成的呢?

Mixlab

小杜

img-to-music 使用了 CLIP Interrogator 來(lái)生成圖像的文字,再通過(guò) Mubert 實(shí)現(xiàn)文本轉(zhuǎn)音樂(lè)。



圖像轉(zhuǎn)文本模型demo

文本轉(zhuǎn)音頻demo

小杜

img-to-music 作者 @fffiloni 也展示了他產(chǎn)出的一些輸出探索,非常奇妙~


圖像轉(zhuǎn)音頻 demo

小杜

以 img-to-music 為線索,我找出了 Stable Diffusion 較完善的擴(kuò)展應(yīng)用模型集成,大家感興趣也可以自主嘗試基于SD模型的應(yīng)用擴(kuò)展創(chuàng)新哦~


speech-to-image demo:
huggingface.co/spaces/fffiloni/speech-to-image

Image to Music demo:
huggingface.co/spaces/fffiloni/img-to-music


CLIP Interrogator:
huggingface.co/spaces/pharma/CLIP-Interrogator

Mubert demo:

huggingface.co/spaces/Mubert/Text-to-Music

Mubert 項(xiàng)目地址:
github.com/MubertAI/Mubert-Text-to-Music


SD 擴(kuò)展模型應(yīng)用集成:
github.com/huggingface/diffusers/tree/main/examples/community#speech-to-image


    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    久久99夜色精品噜噜亚洲av | 日韩精品一区二区不卡| 91偷拍裸体一区二区三区| 国产91麻豆精品成人区| 富婆又大又白又丰满又紧又硬| 九九热精彩视频在线播放| 九九九热视频最新在线| 亚洲欧美一二区日韩高清在线 | 99日韩在线视频精品免费| 国产成人精品午夜福利| 国产又色又爽又黄又大| 2019年国产最新视频| 亚洲精品中文字幕欧美| 日本av一区二区不卡| 日韩精品一区二区三区av在线| 91精品日本在线视频| 久久精品国产99精品最新| 在线日本不卡一区二区| 久久香蕉综合网精品视频| av国产熟妇露脸在线观看| 亚洲精品中文字幕无限乱码| 日本人妻中出在线观看| 亚洲国产av在线观看一区| 国产亚洲精品一二三区| 亚洲国产成人久久一区二区三区| 激情五月激情婷婷丁香| 久久99热成人网不卡| 少妇福利视频一区二区| 欧美日韩综合综合久久久| 精品人妻一区二区三区在线看| 国产精品刮毛视频不卡| 久久免费精品拍拍一区二区| 精品欧美国产一二三区| 午夜精品一区免费视频| 尹人大香蕉一级片免费看| 69精品一区二区蜜桃视频| 欧美韩国日本精品在线| 成人精品一区二区三区在线| 欧美日韩久久精品一区二区| 亚洲一区二区三区av高清| 午夜午夜精品一区二区|