這波AIGC(利用人工智能技術(shù)來生成內(nèi)容)的熱潮,已經(jīng)開卷視頻了。 上個月初,橙柿互動記者報(bào)道過,阿里達(dá)摩院正在研發(fā)類ChatGPT的對話機(jī)器人,當(dāng)時已開放給公司內(nèi)員工測試。 94659 阿里達(dá)摩院也在研究ChatGPT產(chǎn)品?剛剛,阿里回應(yīng)橙柿互動沒想到,一個多月后,先露面的是文本生成視頻。 就在昨天,阿里達(dá)摩院低調(diào)地在魔搭社區(qū)(ModelScope)放出了“文本生成視頻大模型”。魔搭,是達(dá)摩院在去年11月推出的開源模型平臺。 根據(jù)官方介紹,目前這個模型,由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺空間這3個子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。支持英文輸入。擴(kuò)散模型采用Unet3D結(jié)構(gòu),通過從純高斯噪聲視頻中,迭代去噪的過程,實(shí)現(xiàn)視頻生成的功能。 看不太懂?沒關(guān)系。會玩就行。 記者剛才試了一把。輸入提示詞:A panda eating bamboo on a rock,等了差不多77秒,收到一段2秒鐘的視頻。 感受一下~ 如果換成中文:一只大熊貓坐在巖石上吃竹子,出來的結(jié)果就是一只類似于貓咪的小動物。果然,目前還不支持中文。 再來幾個~ A goldendoodle playing in a park by a lake.(一只金貴犬在湖邊的公園玩耍) A dog wearing a Superhero outfit with red cape flying through the sky.(一只身著超級英雄裝和紅斗篷的狗正在天上飛) Monkey learning to play the piano.(猴子正在學(xué)習(xí)彈鋼琴) 從試玩的結(jié)果來看,目前能生成的視頻長度多在2-4秒,生成等候時間從20多秒到1分多鐘不等。 感興趣的,不妨自己去體驗(yàn)一下(上“魔搭社區(qū)”搜索“文生視頻”,跳出來的第一個即是)。 達(dá)摩院的這個發(fā)布,也在國內(nèi)外的社交平臺上吸引了一波嘗鮮的網(wǎng)友。因?yàn)橥娴娜颂?,有微博網(wǎng)友說,連刷20次都沒擠進(jìn)去。 另外,今天凌晨,總部位于紐約的人工智能初創(chuàng)公司Runway也發(fā)布了一種從文本到視頻轉(zhuǎn)化的AI模型Gen-2。 上個月,這家曾參與創(chuàng)建Stable Diffusion的公司推出過模型Gen-1,能通過文本提示或參考圖像指定的風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)化為新視頻。 比如將“街道上的人”變成“粘土木偶”,只需要一行提示詞。 從命名上就能看出,Gen-2是Gen-1的升級版,能從零開始產(chǎn)出視頻。目前,我們只能看到Runway分享出來的一些演示片段。根據(jù)該公司的說法,未來幾周會提供廣泛訪問試用。 早在去年,谷歌和Meta都展示了各自在文本轉(zhuǎn)視頻上的嘗試,利用AI生成泰迪熊洗碗和在湖上泛舟等視頻。但這兩家公司都沒有宣布將相關(guān)技術(shù)推進(jìn)到研究階段以外的計(jì)劃。 文本生成視頻,最理想的效果就是用戶給出提示詞,系統(tǒng)自動生成任何風(fēng)格的對應(yīng)視頻。 不過,從目前此類模型生成視頻的等待時間,畫面的真實(shí)度、清晰度以及長度等各方面來看,距離產(chǎn)出令人滿意的視頻還有很大距離。 事實(shí)上,與圖像編輯相比,視頻編輯是一個更有挑戰(zhàn)性的領(lǐng)域。扎克伯格此前就在推特上說過,AI模型能從生成靜態(tài)像素,發(fā)展到預(yù)測每個像素隨著時間推移發(fā)生的變化,這在技術(shù)上已經(jīng)是一個突破。 當(dāng)然了,也許用不了多久,AI就會解決現(xiàn)存的這些缺陷。將來,哪怕完全不懂視頻制作的人,也能上手做視頻,且可能是批量產(chǎn)出。 橙柿互動記者 童蔚 |
|