繼前兩篇文章我們講解了AI視頻生成的兩種方法,今天我們將繼續(xù)介紹目前較熱門的Pika視頻生成網(wǎng)站及SVD方法的使用與測試效果。 美國AI初創(chuàng)公司Pika Labs日前發(fā)布了其首款視頻生成產(chǎn)品Pika1.0,在官網(wǎng)發(fā)布的宣傳片中,Pika1.0生成的視頻效果非常驚艷,讓人稱奇。
我們也是第一時間就申請了試用,經(jīng)過了一段時間的等待,終于通過了,下面就讓我們一起看看Pika的生成效果如何吧。 Pika跟上期我們提到的Runway gen-2類似,也可通過文字生成視頻、文字+圖像生成視頻、圖像生成視頻(無需文字)、視頻生成視頻(用文字和示例圖像進行視頻風(fēng)格改變)。文字生成視頻,我們可以先在框1處填寫想要展現(xiàn)的視頻內(nèi)容,也叫正向提示詞;然后點擊框2,輸入不想在視頻里出現(xiàn)的內(nèi)容,即反向提示詞(Negative prompt),還可填寫隨機種子數(shù)(Seed),不同的隨機種子數(shù)生成的視頻不一樣,也可設(shè)置視頻與文本提示詞相關(guān)性(Consistency with the text)。 接著我們點開框3,這里可以設(shè)置相機運動方向和速率,從上至下依次是左、右、上、下、逆時針、順時針、變焦放大、變焦縮小。點擊框4,就能設(shè)置視頻畫面比例以及幀率。最后點擊生成,即可生成一段3秒的視頻,如果覺得時長不夠可以在視頻生成后再點擊延長視頻,點擊一次增加4秒。 用“a big ocean wave at daybreak, Deep sea swell, cinematic, film, moody, high resolution”做提示詞生成的視頻如下: 若想對生成的視頻進行修改,可以點開視頻,以下的功能按鈕依次為重試、重新輸入提示詞、編輯、增加4秒、放大視頻(提示分辨率)。其中,點擊編輯按鈕后,可通過Modify region單獨修改視頻中某個主體,而Expand canvas能夠調(diào)整視頻長寬比例。此外,想要使用圖片+文字生成視頻或者進行視頻風(fēng)格變化,只需要點擊下圖框中的按鈕來上傳圖片或視頻即可。下面給出一些Pika與Gen-2的對比視頻。 這個對比中我輸入的提示詞為“A train pulled into the platform”,可以看出Pika生成的視頻,分辨率和流暢度明顯比Gen-2要高,也出現(xiàn)了站臺和行人,但是它似乎理解錯了我想讓它前進的方向。而這個對比,就可以看出Pika更好的理解了我輸入“An astronaut is walk”的意思,Gen-2就是簡單的進行了相機的運動。最后這個對比視頻是僅文字生成視頻的。看起來Pika與Gen-2都有著不錯的效果。創(chuàng)造了Stable diffusion的Stability AI也在最近發(fā)布了生成式視頻模型Stable Video Diffusion(SVD),該模型通過在小型、高質(zhì)量的視頻數(shù)據(jù)集上插入時間層并微調(diào),將用于2D圖像合成的潛在擴散模型轉(zhuǎn)化為生成視頻模型。按照官方的說法,使用SVD-XT模型可以生成25幀的視頻,并且在他們調(diào)研的用戶偏好研究中勝出了runway gen-2和Pika labs。我們測試了其發(fā)布的圖像到視頻模型。測試的效果如下:其中第二個視頻里的測試圖與runway gen-2的筆刷測試其中一張為同一張,大家可以比較一下哪個更好。目前想使用SVD,電腦需要有強大的顯卡性能,有條件的小伙伴可以去嘗試一下。11月28日,阿里巴巴智能計算研究院也開發(fā)了Animate Anyone,只需要提供一個靜態(tài)的角色圖像以及一些預(yù)設(shè)的動作(或姿勢序列),即可生成該角色的動畫視頻,并且視頻也能保證靜態(tài)角色圖像中的外觀特征一致性。該方法不僅適用于真實人類,還可以用于卡通動漫角色和類人角色。 該方法設(shè)計了ReferenceNet,通過空間注意力來合并特征,保持參考圖像中的復(fù)雜外觀特征一致性;還引入了一個高效的姿勢引導(dǎo)器來指導(dǎo)角色的動作,采用有效的時間建模方法來確保視頻幀之間的過渡。截至本文完成時,此項目源碼和模型還未公開,等有更新時,我們會第一時間進行測試。當(dāng)然,隨著人工智能技術(shù)的不斷進步,AI視頻生成的應(yīng)用范圍遠不止于廣告制作。在電影特效、游戲開發(fā)、虛擬現(xiàn)實(VR)、混合現(xiàn)實(MR)等領(lǐng)域,特別是在個性化內(nèi)容創(chuàng)作上,AI可以根據(jù)用戶的喜好和行為模式生成定制化的視頻內(nèi)容,從而提供更加個性化的觀看體驗。未來,隨著算力的提升和算法的優(yōu)化,有理由相信AI視頻生成技術(shù)將更加成熟和普及。從而涌現(xiàn)出更多創(chuàng)新的應(yīng)用場景,推動多媒體娛樂、內(nèi)容創(chuàng)作等行業(yè)的革新,為使用者帶來前所未有的便利和體驗。
|