作者丨Juny編輯丨海腰題圖丨Sora AI 多年以后,當(dāng)我們?cè)倩乜础癆I視頻生成”這件事時(shí),或許都直接可以用“Sora前時(shí)代”和“Sora后時(shí)代”來描述它。 在Sora前時(shí)代,如Runway、Pika、Stable Video Diffusion等大量創(chuàng)業(yè)公司還在百家爭(zhēng)鳴、平分秋色,而在Sora橫空出世后,這些公司都瞬間黯然失色,遭到降維打擊后不得不去重新審視未來的發(fā)展道路。畢竟,大家如今都可以隨意生成60秒的高清大片了,誰還會(huì)為你那4秒的動(dòng)圖拍手稱贊呢? 當(dāng)所有人都在為Sora驚嘆狂歡時(shí),在無人在意的角落,是大量AI視頻創(chuàng)業(yè)者和投資人的一夜無眠。 遙遙領(lǐng)先幾個(gè)身位 首先,讓我們簡(jiǎn)要回顧一下相比于此前行業(yè)內(nèi)的同類型產(chǎn)品,此次OpenAI發(fā)布的Sora有哪些顛覆之處。 1.生成視頻的時(shí)間長(zhǎng)度。在昨天之前,受制于AI文本到視頻生成的物理和時(shí)空推理局限,目前整個(gè)行業(yè)中所公布的單個(gè)連貫性視頻的最大長(zhǎng)度是16秒,行業(yè)的普遍水平是2-4秒之間。但此次Sora的最大支持長(zhǎng)度是60秒,直接跨越式升級(jí)15倍。 2.鏡頭切換與畫面流暢度。此前AI生成視頻產(chǎn)品都是單鏡頭單生成,在效果層面更像是讓一張圖片動(dòng)起來。但由Sora所生成的視頻,能夠在保持主體一致性的前提下實(shí)現(xiàn)多角度鏡頭無縫切換,整個(gè)畫面干凈流暢,從而實(shí)現(xiàn)真正的視頻大片效果。 3.使用的基礎(chǔ)模型架構(gòu)。此前的AI生成視頻大部分都是基于“大模型+大數(shù)據(jù)”架構(gòu),因此難以突破AI幻覺問題,Runway也在去年12月正式提出要打造通用世界模型。但此次Sora則已經(jīng)具有了世界模型的雛形,其生成的視頻是基于對(duì)真實(shí)物理世界的理解,因此內(nèi)容更加符合邏輯也更加令人信服。 那么,關(guān)于這些突破性的進(jìn)展,很多人可能也好奇,落實(shí)到產(chǎn)品效果層面,Sora真的有如此大的優(yōu)勢(shì)嗎? 雖然目前Sora只僅對(duì)一小部分用戶開放還未開啟公測(cè),但因?yàn)樗鼈冏蛱焖l(fā)布的視頻都配有詳細(xì)的Prompt文本,所以很多人也用這些同樣的文本對(duì)其他工具進(jìn)行了測(cè)試。下面,讓我們來看看一些效果對(duì)比的例子。 Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.(提示詞:美麗多雪的東京城熱鬧非凡。鏡頭穿過熙熙攘攘的城市街道,跟隨幾位正在享受美麗雪景和在附近攤位購(gòu)物的人們。絢麗的櫻花花瓣與雪花一起隨風(fēng)飛舞。) 圖源:X 賬號(hào)@Gabor Cselle 在該對(duì)比視頻中我們可以看到,從時(shí)長(zhǎng)來看,Pika大概3秒、Runway和Stable Video大概4秒,而Sora能長(zhǎng)達(dá)幾十秒。從內(nèi)容來看,Pika和Runway生成都是類似于一幅動(dòng)圖的場(chǎng)景,Pika抓住了攤位、櫻花、雪景等關(guān)鍵詞,Runway則更側(cè)重于提示詞的最后一句,Stable video的鏡頭有一定的推伸但似乎少了關(guān)于櫻花的描述。而Sora這邊,鏡頭從一開始帶有東京街道的全景開始再無縫推進(jìn)到街道上的小攤和人物的特色,提示詞內(nèi)所有元素都沒有缺失并且得到了很好的呈現(xiàn)。 再看一個(gè)例子。 Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.(提示詞:兩艘海盜船在一杯咖啡中航行時(shí)的逼真特寫視頻) 在Pika所生成的視頻并沒有體現(xiàn)“航行中逼真特寫”的關(guān)鍵內(nèi)容,而Runway則沒能理解關(guān)于“在一杯咖啡中航行”的重點(diǎn)描述。從視覺效果來看,Sora也更加準(zhǔn)確地展現(xiàn)了提示詞中航行激蕩的情形。 圖源:X 賬號(hào)@Syntho_elysium 再比如,那段驚艷眾人的描繪一位時(shí)尚女性漫步在京東街頭的視頻。完全相同的一段提示詞之下,Runway展現(xiàn)出來是這樣的: Pika展現(xiàn)出來是這樣的: 而這是Sora的效果:
視頻來自X 賬號(hào)@dezi_labs 總體來看,雖然目前Runway和Pika等行業(yè)內(nèi)領(lǐng)先工具或許已經(jīng)基本能實(shí)現(xiàn)對(duì)提示詞的理解和還原,但從生成視頻的效果來看,不僅時(shí)長(zhǎng)上難以實(shí)現(xiàn)4秒突破,內(nèi)容仍然缺少著真實(shí)性和連貫性。其中,特別是對(duì)真實(shí)物理世界的還原這一點(diǎn)上,從以下幾個(gè)Sora和Runway的對(duì)比中就能看出,世界模型的應(yīng)用確實(shí)讓Sora已經(jīng)到達(dá)了另一個(gè)層次。 Prompt: Reflections in the window of a train traveling through the Tokyo suburbs. Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. 數(shù)百創(chuàng)業(yè)公司一夜崩塌 從以上這一些簡(jiǎn)單的對(duì)比中可以看出,Sora的出現(xiàn)對(duì)整個(gè)AI文本生成視頻行業(yè)所產(chǎn)生的影響無疑是具有顛覆性的。這也導(dǎo)致了昨天Sora一經(jīng)發(fā)布之后,大量的行業(yè)投資人拉響了警鐘。 過去一年來,在AI領(lǐng)域幾乎每個(gè)月都有AI生成視頻類的公司獲得融資,不僅這些創(chuàng)業(yè)公司的投資者都極具號(hào)召力,融資級(jí)別也幾乎都在千萬級(jí)美元以上。比如,去年6月,Runway宣布獲得新一輪1.41億美元的融資,投資者包括谷歌、英偉達(dá)、Salesforce等;去年8月,由A16Z A輪投資4000萬美元的Irreverent Labs宣布獲得三星的新一輪融資;去年 11月,Pika宣布獲得5500萬美元的融資,由Lightspeed Venture Partners領(lǐng)投,其他投資人還包括Quora的創(chuàng)始人Adam D'Angelo、前GitHub首席執(zhí)行官Nat Friedman等;今年2月,總部位于德國(guó)的Colossyan成功獲得由歐洲風(fēng)投公司Lakestar領(lǐng)投的2200萬美元A輪融資…… 2023年AI視頻生成行業(yè)的參與者盤點(diǎn) 圖源:A16Z 據(jù)不完全統(tǒng)計(jì),過去一年來全球AI生成視頻類賽道的融資已經(jīng)超過數(shù)10億美元,其中大部分的公司都以種子輪、A輪為主。就在今年1月底,A16Z還專門針對(duì)AI視頻生成領(lǐng)域做了一個(gè)全面的回顧和展望,并盤點(diǎn)了市場(chǎng)上超過20個(gè)明星產(chǎn)品。 可以想象的是,這些創(chuàng)業(yè)公司以及其背后的投資人都因此次Sora的發(fā)布而經(jīng)歷了難熬的一天。有人表示,ChatGPT的出現(xiàn)終結(jié)了那些AI文本生成的創(chuàng)業(yè)公司,現(xiàn)在輪到Sora終結(jié)AI視頻生成公司了,AI視頻創(chuàng)業(yè)者看到Sora之后心情可以用心如死灰來形容。 不僅是創(chuàng)業(yè)者們的努力付諸東流,大量投資者們的錢也或?qū)⒁虼舜蛄怂?。雖然創(chuàng)業(yè)公司的縮水情況我們還不得而知,但就在昨天Sora發(fā)布后,作為擁有直接競(jìng)爭(zhēng)業(yè)務(wù)的Adobe今日股價(jià)就大跌超過了7%。 而關(guān)于Sora發(fā)布后的影響,一些圈內(nèi)人士也陸續(xù)發(fā)表了他們的觀點(diǎn)。 360創(chuàng)始人周鴻祎在微博長(zhǎng)文中表示,Sora的誕生意味著AGI(通用人工智能)實(shí)現(xiàn)可能從10年縮短至一兩年。同時(shí),科技競(jìng)爭(zhēng)本質(zhì)上比拼還是人才的密度和深厚積累,Sora效果吊打Pika和Runway很正常,有人認(rèn)為有了AI以后,創(chuàng)業(yè)公司只需要做個(gè)體戶就行,實(shí)際今天再次證明這種想法是非??尚Φ?。 此外,前阿里技術(shù)副總裁、目前正在從事AI架構(gòu)創(chuàng)業(yè)的賈揚(yáng)清也針對(duì)Sora在朋友圈發(fā)布了他最新的觀點(diǎn)。他認(rèn)為此次Sora確實(shí)非常厲害,而Sora將帶來的影響包括以下幾點(diǎn):“1.對(duì)標(biāo)OpenAI的公司有一波被其他大廠fomo收購(gòu)的機(jī)會(huì)。2.長(zhǎng)線閉源寡頭,開源還需要一段時(shí)間才能追趕上。3. 從算法小廠的角度,要不就算法上媲美OpenAI,要不就垂直領(lǐng)域深耕應(yīng)用,要不就選擇開源。4.基礎(chǔ)設(shè)施的需求繼續(xù)會(huì)猛增?!?/span> Sora會(huì)帶來革命性的影響嗎? 雖然Sora公布的視頻效果令人驚嘆,但由于目前僅開放給了一小部分人進(jìn)行實(shí)測(cè),因此其真實(shí)的效果如何我們還不得而知。畢竟此前Runway和Pika等同類型平臺(tái)都出現(xiàn)過Demo做得無比精良,實(shí)操卻出現(xiàn)種種問題的情況。 此次,就連OpenAI自己也提前給大家打好了預(yù)防針。在關(guān)于Sora官方博客的最后,OpenAI明確表示目前Sora的模型還并不完美,仍然屬于世界模型研究應(yīng)用的初期。特別是在模擬復(fù)雜的物理環(huán)境下,還會(huì)出現(xiàn)明顯的邏輯和因果關(guān)系推理錯(cuò)誤,比如跑步時(shí)方向搞反、人吹蠟燭火光不滅、塑料椅子會(huì)變形飄起來、小狼仔變形等情況。 但目前大部分業(yè)內(nèi)人士都認(rèn)為,目前的Sora還只是最初版本,按照OpenAI目前的訓(xùn)練情況和模型迭代速度,推理準(zhǔn)確性問題會(huì)很快被攻克。而屆時(shí),Sora將逐漸對(duì)一些行業(yè)產(chǎn)生的底層性的影響。 首當(dāng)其沖的是影視制作行業(yè)。《三體》電視劇的特效導(dǎo)演陸貝珂在不久前的一期播客中曾聊到,過去一年來,AI技術(shù)對(duì)于影視行業(yè)的影響主要體現(xiàn)在概念設(shè)計(jì)和繪畫等基礎(chǔ)工種的效率提升上,更多使用的是AI生成圖片技術(shù),AI生成視頻的不夠準(zhǔn)確和邏輯問題導(dǎo)致很多生成內(nèi)容并不可用,當(dāng)時(shí)他就提出世界模型是影視行業(yè)的發(fā)展方向。一旦視頻的準(zhǔn)確度、連貫性問題被解決,群演、布景、特效等大量?jī)?nèi)容則都可以用AI去幫助完成。 再比如廣告和短視頻行業(yè)。未來大量的廣告和短視頻將由AI生成,對(duì)設(shè)計(jì)師、攝影師、后期制作崗位的需求會(huì)大量減少,整個(gè)行業(yè)運(yùn)行的模式將出現(xiàn)變革。視頻創(chuàng)作的門檻和經(jīng)費(fèi)會(huì)大大降低,從崗位上來說會(huì)使用AI的內(nèi)容創(chuàng)作者將成為行業(yè)核心。各類短視頻將爆發(fā)涌現(xiàn)。 還可能影響的是游戲行業(yè)。在OpenAI 發(fā)布的最新Sora技術(shù)報(bào)告中提到,Sora能夠模擬如視頻游戲的數(shù)字化過程,Sora能在控制 Minecraft 游戲角色進(jìn)行基本操作的同時(shí),高質(zhì)量動(dòng)態(tài)渲染游戲世界。未來Sora將可能被應(yīng)用于建模、生成游戲動(dòng)畫和場(chǎng)景等,游戲開發(fā)者的門檻將被大大降低。 圖源:OpenAI官方技術(shù)文檔 Sora的誕生,似乎再次印證了贏者通吃的道理。手握著絕對(duì)資源的OpenAI,又一次走自己的路讓其他人都無路可走。而這可能也讓一些AI創(chuàng)業(yè)者和投資者們也開始再次思考,在行業(yè)巨頭的陰影和壓力之下,自己能力施展的生存和機(jī)會(huì)空間究竟在哪里。