一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

<wbr id="muqqs"></wbr>

<wbr id="muqqs"><fieldset id="muqqs"></fieldset></wbr>

<kbd id="muqqs"><delect id="muqqs"></delect></kbd>

<button id="muqqs"></button>

<button id="muqqs"><sup id="muqqs"></sup></button>

搜索

分享

QQ空間 QQ好友新浪微博微信

【原】實(shí)測(cè)AIGC工作流，Stable Diffusion + Mubert 實(shí)現(xiàn)圖片與音樂(lè)的轉(zhuǎn)換生成

Mixlab交叉學(xué)科 2022-10-30 發(fā)布于上海

展開(kāi)全文

我們需要尋找“藍(lán)海”，近期出現(xiàn)了其他內(nèi)容的突破嗎？

Mixlab

小杜

社區(qū)五月份介紹了 Pollinations.ai ，平臺(tái)集成了文本、圖像、音頻、視頻等多種模態(tài)的模型，近期平臺(tái)功能也進(jìn)行了迭代升級(jí)，但在模型內(nèi)容質(zhì)量上還是參差不齊。

最近熱度最高的開(kāi)源模型是 Stable Diffusion，其極為優(yōu)秀的開(kāi)源生態(tài)也催生了許多模型的整合創(chuàng)新。Stable Diffusion + Mubert 就實(shí)現(xiàn)了高質(zhì)量的圖像到音樂(lè)的生成。尤其是圖片轉(zhuǎn)音樂(lè)，不是那種抽象電子風(fēng)，而是真正具備了應(yīng)用級(jí)配樂(lè)的水準(zhǔn)！（請(qǐng)看下文）

speech-to-image

img-to-music

小杜

speech-to-image demo 使用預(yù)先訓(xùn)練的 OpenAI whisper-small 與 Stable Diffusion 從音頻樣本生成圖像。img-to-music 則是發(fā)送圖像到剪輯詢問(wèn)器 CLIP Interrogator 生成文本提示，然后通過(guò) Mubert 識(shí)別文本輸出音樂(lè)，實(shí)現(xiàn)輸入圖像到生成音樂(lè)的過(guò)程。

帶我們看看測(cè)試效果？

Mixlab

小杜

speech-to-image ，我測(cè)試了三類聲音到圖像的生成

# 人聲哼唱（小編的瞎哼）

# 流行音樂(lè) （Golden Hour 前奏+一丟丟人聲）

# 環(huán)境自然音（小編嘈雜的居住環(huán)境）

#01 人聲哼唱

#02 流行音樂(lè)

#03 環(huán)境音

......

小杜

出乎意料的驚喜！對(duì)于我們?nèi)祟?，與為文字配插畫(huà)相比，為音樂(lè)配

圖似乎是件更為困難的事。音樂(lè)的抽象特征與AI生成的特質(zhì)意外的契合。

AI給第一個(gè)哼唱生成了一幅略顯俏皮的圣誕老人形象，似乎有點(diǎn)在嘲諷我哼唱得五音不全hh。第二個(gè)流行歌曲，AI應(yīng)該是識(shí)別出了歌曲的關(guān)鍵詞 “Love” ，雖說(shuō)沒(méi)太拼對(duì)，但有種為愛(ài)情沖昏了頭腦的感覺(jué)。第三個(gè)環(huán)境音嘈雜而沒(méi)有感情色彩，AI也生成了一幅比較契合的黑白色調(diào)的拼貼畫(huà)。

反過(guò)來(lái)，圖像生成音樂(lè)是啥效果？

Mixlab

小杜

那可更驚喜了！我找的音頻素材可沒(méi)AI生成的驚艷～同樣也測(cè)試了三類圖片生成的音樂(lè)-

# 音頻生成的圖像

# Stable Diffusion 文本生成的圖像

# 藝術(shù)畫(huà)作

#01 音頻生成的圖像

#02 文本生成的圖像

#03 名畫(huà)千里江山圖局部

......

小杜

真是一個(gè)比一個(gè)驚喜！第一張圖是測(cè)試 Golden Hour 音頻轉(zhuǎn)圖像生成的圖，反過(guò)來(lái)生成了有點(diǎn)迷幻電子風(fēng)的音樂(lè)。第二張是用SD生成的概念汽車場(chǎng)景，AI較為精準(zhǔn)地 “理解了” 畫(huà)面內(nèi)容，生成了科幻槍?xiě)?zhàn)的配樂(lè)。第三個(gè)則是震驚到我了，AI盡然為我挑選的千里江山圖生成了有樂(lè)章結(jié)構(gòu)的中國(guó)風(fēng)音樂(lè)！

Stable Diffusion 的開(kāi)源生態(tài)已經(jīng)不局限于圖像了。在文本-音樂(lè)生成模型 Mubert 實(shí)現(xiàn)圖像-音樂(lè)的工作流中，文本是在哪一步生成的呢？

Mixlab

小杜

img-to-music 使用了 CLIP Interrogator 來(lái)生成圖像的文字，再通過(guò) Mubert 實(shí)現(xiàn)文本轉(zhuǎn)音樂(lè)。

圖像轉(zhuǎn)文本模型demo

文本轉(zhuǎn)音頻demo

小杜

img-to-music 作者 @fffiloni 也展示了他產(chǎn)出的一些輸出探索，非常奇妙～

圖像轉(zhuǎn)音頻 demo

小杜

以 img-to-music 為線索，我找出了 Stable Diffusion 較完善的擴(kuò)展應(yīng)用模型集成，大家感興趣也可以自主嘗試基于SD模型的應(yīng)用擴(kuò)展創(chuàng)新哦～

speech-to-image demo：
huggingface.co/spaces/fffiloni/speech-to-image

Image to Music demo：
huggingface.co/spaces/fffiloni/img-to-music

CLIP Interrogator：
huggingface.co/spaces/pharma/CLIP-Interrogator

Mubert demo：

huggingface.co/spaces/Mubert/Text-to-Music

Mubert 項(xiàng)目地址：
github.com/MubertAI/Mubert-Text-to-Music

SD 擴(kuò)展模型應(yīng)用集成：
github.com/huggingface/diffusers/tree/main/examples/community#speech-to-image

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： Mixlab交叉學(xué)科 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

請(qǐng)遵守用戶評(píng)論公約

類似文章 更多

Mixlab交叉學(xué)科

關(guān)注對(duì)話

TA的最新館藏

探索的真正意義在于超越自己的能力邊界：AI編程線下訓(xùn)練營(yíng) - 程序員回訪
高校教師為何熱衷學(xué)習(xí)#AI編程？新創(chuàng)造力工具
AI讓創(chuàng)造變得越來(lái)越簡(jiǎn)單，讓每個(gè)人都能把想法變成現(xiàn)實(shí)#AI編程訓(xùn)練營(yíng) - 設(shè)計(jì)師回訪
畢設(shè)選題：AI Agent 全棧設(shè)計(jì)#AI編程訓(xùn)練營(yíng) - 學(xué)生回訪
AI被人類騙走34萬(wàn)！用于解決復(fù)雜任務(wù)的通用多智能體系統(tǒng)#Magentic-One
Narya.ai正在尋找iOS工程師！#Mixlab內(nèi)推

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久99夜色精品噜噜亚洲av | 日韩精品一区二区不卡| 91偷拍裸体一区二区三区| 国产91麻豆精品成人区| 富婆又大又白又丰满又紧又硬| 九九热精彩视频在线播放| 九九九热视频最新在线| 亚洲欧美一二区日韩高清在线 | 99日韩在线视频精品免费| 国产成人精品午夜福利| 国产又色又爽又黄又大| 2019年国产最新视频| 亚洲精品中文字幕欧美| 日本av一区二区不卡| 日韩精品一区二区三区av在线| 91精品日本在线视频| 久久精品国产99精品最新| 在线日本不卡一区二区| 久久香蕉综合网精品视频| av国产熟妇露脸在线观看| 亚洲精品中文字幕无限乱码| 日本人妻中出在线观看| 亚洲国产av在线观看一区| 国产亚洲精品一二三区| 亚洲国产成人久久一区二区三区| 激情五月激情婷婷丁香| 久久99热成人网不卡| 少妇福利视频一区二区| 欧美日韩综合综合久久久| 精品人妻一区二区三区在线看| 国产精品刮毛视频不卡| 久久免费精品拍拍一区二区| 精品欧美国产一二三区| 午夜精品一区免费视频| 尹人大香蕉一级片免费看| 69精品一区二区蜜桃视频| 欧美韩国日本精品在线| 成人精品一区二区三区在线| 欧美日韩久久精品一区二区| 亚洲一区二区三区av高清| 午夜午夜精品一区二区|

<sup id="wmgwm"></sup>