Sora,自2月16日OpenAI發(fā)布后一直被吐槽是“技術(shù)期貨”,終于在12月10日,正式版Sora露面了,可以生成最高 1080p 分辨率、最長(zhǎng) 20 秒的視頻。 OpenAI CEO奧特曼稱,Sora正式版是視頻生成領(lǐng)域的GPT-1時(shí)刻。 但國(guó)內(nèi)AI企業(yè),并沒有像跟進(jìn)GPT時(shí)期一樣,在視頻生成領(lǐng)域也與OpenAI保持同步,而是呈現(xiàn)出更復(fù)雜的態(tài)度。 有人選擇跟進(jìn),比如Sora問世之后,互聯(lián)網(wǎng)公司如阿里、字節(jié)跳動(dòng)、快手、騰訊等,AI公司如智譜AI、MiniMax、愛詩(shī)科技、生數(shù)科技等,都陸續(xù)發(fā)布了視頻生成模型,不少都表示達(dá)到或超越了預(yù)覽版Sora。 也有人選擇不跟進(jìn),包括互聯(lián)網(wǎng)公司中的百度,李彥宏曾明確表示,“無論Sora多么火爆百度都不去做”。AI公司如百川智能,也明確表示不會(huì)做類Sora模型,月之暗面、商湯科技、零一萬物雖然都有文生視頻模型,但都不作為重點(diǎn)。 視頻生成賽道,不再延續(xù)GPT時(shí)代的發(fā)展模式,即OpenAI打出一張王牌,國(guó)內(nèi)科技企業(yè)搶著要跟。Sora之后,國(guó)內(nèi)AI牌局開始有了自己的節(jié)奏,也呈現(xiàn)出更為復(fù)雜的局勢(shì)。 有能力做通用基礎(chǔ)大模型的國(guó)內(nèi)科技公司,在技術(shù)路線、商業(yè)前景等判斷上,開始出現(xiàn)明顯分野。我們就從國(guó)內(nèi)企業(yè)跟進(jìn)Sora的選擇與否,聊聊視頻生成的中國(guó)牌局。 首先我們要明確一下,國(guó)內(nèi)對(duì)標(biāo)Sora模型的科技公司,到底在做什么? 簡(jiǎn)單來說,Sora視頻生成模型的核心技術(shù)路線是Diffusion+Transformer相結(jié)合,通過文本(自然語言)、圖片、視頻作為提示詞prompts進(jìn)行視頻生成。 對(duì)標(biāo)Sora的模型,至少要具備幾個(gè)特點(diǎn): 1.通用性,不針對(duì)某一類風(fēng)格、行業(yè)、角色等,任意內(nèi)容的視頻都可以生成。 2.高質(zhì)量,畫質(zhì)精度高(達(dá)到1080p)、視頻時(shí)間長(zhǎng)(最長(zhǎng)達(dá)一分鐘)、畫面一致性強(qiáng)(理解物理規(guī)律)。 面對(duì)Sora,國(guó)內(nèi)科技企業(yè)不像ChatGPT推出時(shí)那樣毫無準(zhǔn)備。但到底跟or不跟,卻不再像ChatGPT那樣高度一致,而是分化成了三類: 第一類,明確跟進(jìn)。 互聯(lián)網(wǎng)公司陣營(yíng)中,以視頻為核心業(yè)務(wù)的字節(jié)跳動(dòng)、快手等,以及綜合科技公司騰訊,數(shù)字基建成熟,技術(shù)人才資源充沛,內(nèi)部有視頻產(chǎn)品基因,幾乎第一時(shí)間選擇了跟進(jìn)。字節(jié)跳動(dòng)推出了即夢(mèng)Dreamnia,快手也發(fā)布了可靈大模型。騰訊以混元大模型作為核心,發(fā)布并開源了混元多模態(tài)生成模型,被認(rèn)為是騰訊版Sora。 大模型初創(chuàng)企業(yè)中,智譜AI的行動(dòng)最為敏捷,今年7月發(fā)布了AI視頻生成工具清影,支持用戶通過文本/圖片,生成10秒、4K、60幀視頻。MiniMax的海螺AI也在十月增加了視頻生成能力,支持文本提示詞生成6秒視頻片段。 第二類,堅(jiān)決不跟。 與第一類企業(yè)的態(tài)度截然相反,互聯(lián)網(wǎng)公司和大模型創(chuàng)企中也有堅(jiān)決不跟Sora的。比如Sora問世之后,百川智能的王小川就表示,團(tuán)隊(duì)有人提出要做Sora,但他明確表態(tài)稱不會(huì)跟進(jìn)這個(gè)方向。 同樣想法的還有百度李彥宏,盡管百度已經(jīng)在視頻生成領(lǐng)域取得了一定的成果,但他不做Sora的態(tài)度也非常堅(jiān)決,原因是Sora的商業(yè)化可能要五年甚至十年,目前百度更聚焦在大語言模型、多模態(tài)大模型,沒有類Sora的產(chǎn)品化嘗試。 第三類,淺嘗輒止。 除此之外,還有大量國(guó)內(nèi)企業(yè)對(duì)于Sora,出于FOMO“恐懼錯(cuò)過”心理有所布局,但并不重點(diǎn)投入,處于一種淺嘗輒止的狀態(tài)。 比如阿里系中的阿里媽媽團(tuán)隊(duì)發(fā)布了tomoVideo,試水電商營(yíng)銷的視頻生成場(chǎng)景;“大模型六小虎”中,月之暗面也推出了視頻生成模型,但仍聚焦在kimi產(chǎn)品上;零一萬物入局B端業(yè)務(wù),而視頻生成模型面向的影視制作行業(yè)正處于調(diào)整期,類Sora產(chǎn)品也很難成為核心增長(zhǎng)點(diǎn)。 總結(jié)一下,如果說全球大模型是一場(chǎng)“斗地主”,那么游戲規(guī)則不再是OpenAI打出一張王炸,國(guó)內(nèi)科技公司紛紛跟上,而是各自按照自己手里的牌面、業(yè)務(wù)重要性和優(yōu)先級(jí),來確定Sora的出牌策略。 為什么到了Sora,大模型行業(yè)的游戲規(guī)則就變了? 國(guó)內(nèi)科技企業(yè)的表現(xiàn)說明,對(duì)于Sora存在非共識(shí),整體還是比較混亂、規(guī)則模糊的階段。迷霧中的領(lǐng)域,游戲規(guī)則自然只能自行探索。 如今視頻生成領(lǐng)域的現(xiàn)狀,籠罩著三重迷霧。 技術(shù)迷霧:OpenAl認(rèn)為Sora是世界模擬器、通往AGl的一條有前途的途徑,這一技術(shù)路線目前存在不少爭(zhēng)議。 比如李飛飛、lecun等人認(rèn)為,Sora不能實(shí)現(xiàn)AGI。李飛飛提出,Sora仍是二維圖像,只有三維空間智能才能實(shí)現(xiàn)AGI。Sora預(yù)覽版展示的“日本女性走過霓虹閃爍東京街頭”的生成視頻,就無法把攝像機(jī)放在女子背后,說明Sora并沒有真的理解三維世界。學(xué)術(shù)大神Lecun也點(diǎn)名不看好Sora,說它根本不是真正的世界模型,并且仍會(huì)面臨GPT4的巨大瓶頸。 確實(shí),即使是正式版Sora,生成的手部細(xì)節(jié)不準(zhǔn)確,動(dòng)態(tài)過程中的一致性等問題,依然存在。 而國(guó)內(nèi)公司堅(jiān)定不跟進(jìn)Sora的原因之一,也是對(duì)這一技術(shù)路線保留意見。比如百川智能的王小川就認(rèn)為,Sora只是階段性產(chǎn)物,技術(shù)高度、突破性以及應(yīng)用價(jià)值均不及GPT??傊?,實(shí)現(xiàn)AGI、模擬物理世界的技術(shù)路線的開放性,決定了Sora并非唯一解。 商業(yè)迷霧:視頻生成模型的商用前景、投資回報(bào)比,在短期內(nèi)都不明朗,成為勸退國(guó)內(nèi)企業(yè)的另一重阻礙。 預(yù)覽版和正式版Sora,都延續(xù)了OpenAI的“暴力美學(xué)”,OpenAI 研究科學(xué)家 Noam Brown 表示,Sora是scale力量最直觀的展示,也就是通過堆算力、對(duì)數(shù)據(jù)、對(duì)參數(shù)量的方式,來嘗試讓大模型涌現(xiàn)出理解物理世界的能力。這種方法成本高、資源投入大。是否跟進(jìn)Sora,就取決于各家對(duì)模型的商用預(yù)期和投資回報(bào)比。 如果視頻生成模型面向ToB收費(fèi),通過API或SaaS服務(wù),都需要基礎(chǔ)模型廠商投入大量人力去優(yōu)化業(yè)務(wù)流程、開發(fā)交互頁(yè)面,而影視行業(yè)正處于調(diào)整周期,AI影視制作業(yè)務(wù)的增長(zhǎng)有限。這就在無形中增加了AI企業(yè)的機(jī)會(huì)成本,因?yàn)橥瑯拥娜肆?、物力、算力,投入到金融AI、教育AI、大型政企等領(lǐng)域,顯然收效更大。所以,百度、零一萬物等公司,都將視頻生成領(lǐng)域作為邊緣業(yè)務(wù),并不重點(diǎn)投入。 而ToC場(chǎng)景中,一方面?zhèn)€人付費(fèi)意愿不高,視頻生成并不是大眾日常使用的高頻場(chǎng)景,而且生成成本和訂閱費(fèi)一般都比文本模型高,加上Sora模型都沒能解決幻覺、一致性難題,未必能創(chuàng)造實(shí)際價(jià)值,所以C端付費(fèi)規(guī)模十分有限。另一方面,模型完全免費(fèi),把視頻生成模型產(chǎn)品作為企業(yè)的流量入口,這一商業(yè)模式只適合將視頻作為核心業(yè)務(wù)的企業(yè)。 比如快手、字節(jié)跳動(dòng),本身就有核心的視頻業(yè)務(wù),可以快速實(shí)現(xiàn)模型的規(guī)?;C嫦駽端用戶或B端生產(chǎn)力工具,這類企業(yè)能夠快速將視頻生成能力與現(xiàn)有產(chǎn)品進(jìn)行集成與整合,模型研發(fā)的邊際成本是會(huì)隨著規(guī)模商用而下降的。 整體來看,對(duì)國(guó)內(nèi)絕大多數(shù)基礎(chǔ)模廠,視頻生成領(lǐng)域都是一個(gè)相對(duì)邊緣、投資回報(bào)比不高的業(yè)務(wù)。 第三重迷霧,就是市場(chǎng)格局的競(jìng)爭(zhēng)迷霧。 雖然視頻生成模型現(xiàn)在商業(yè)前景不明,但有沒有可能以后會(huì)爆發(fā),企業(yè)悄悄投入然后驚艷所有人?這種押注邊緣賽道“撿大漏”的商業(yè)神話,在大模型身上恐怕很難發(fā)生。 當(dāng)前,大模型的產(chǎn)品化、商業(yè)化前景普遍比較模糊,通用模型廠商都需要盡快從一大堆不甚明朗的產(chǎn)品中,選出一個(gè)更高成功概率和更大市場(chǎng)潛力的選項(xiàng),重點(diǎn)投入。而在所有產(chǎn)品中,視頻生成模型是一個(gè)尤為沉重且具有挑戰(zhàn)性的項(xiàng)目。這種情況下,肯定要優(yōu)先考慮成功率更高的產(chǎn)品,降低視頻生成模型的業(yè)務(wù)優(yōu)先級(jí)。 換一個(gè)角度,即便企業(yè)將視頻生成模型的優(yōu)先級(jí)放到最高,恐怕也很難建立起競(jìng)爭(zhēng)優(yōu)勢(shì)。因?yàn)楫?dāng)前大模型的市場(chǎng)競(jìng)爭(zhēng)情況跟GPT時(shí)期不太一樣,如今各家在基礎(chǔ)訓(xùn)練設(shè)施、核心架構(gòu)設(shè)計(jì)與技術(shù)儲(chǔ)備等方面都有了一定積累,復(fù)現(xiàn)Sora并上線類Sora應(yīng)用的技術(shù)壁壘,其實(shí)沒有ChatGPT時(shí)期那么難了。這也意味著,即使企業(yè)先發(fā)布了視頻生成模型,也未必能長(zhǎng)期保持競(jìng)爭(zhēng)優(yōu)勢(shì)和市場(chǎng)壟斷地位,這種競(jìng)爭(zhēng)態(tài)勢(shì)也削弱了Sora的商業(yè)想象空間。 技術(shù)迷霧、商業(yè)迷霧、競(jìng)爭(zhēng)迷霧,仍然籠罩在視頻生成領(lǐng)域,導(dǎo)致Sora這一場(chǎng)牌局有著太多的不確定,和太多可能。哪種理解是對(duì)的,哪條路線是最終贏家,目前都言之過早,各家只能按照自己的游戲規(guī)則玩下去。 大模型技術(shù)必須繼續(xù)發(fā)展下去,但從Sora開始,國(guó)內(nèi)科技企業(yè)不再緊跟著OpenAI亦步亦趨,開始有了自己的節(jié)奏感。 具體表現(xiàn)在,對(duì)于Sora這樣一鳴驚人的新東西,國(guó)內(nèi)企業(yè)在大模型產(chǎn)品化、商業(yè)化上都有了自己的理解與思考,開始自己定義玩法,跟進(jìn)Sora展現(xiàn)的是實(shí)力,不跟進(jìn)Sora展現(xiàn)的是心態(tài)與戰(zhàn)略定力。 此外,不一味跟進(jìn)產(chǎn)品,但OpenAI的敘事能力仍然值得學(xué)習(xí)。 無論是2月用Sora搶走谷歌風(fēng)頭,還是近期Sora正式上線,OpenAI總能一次次帶動(dòng)節(jié)奏、設(shè)置議題、吸引關(guān)注,這對(duì)于資本密集型AI企業(yè)是非常重要的能力。 可以不跟進(jìn)Sora,但不能遺漏關(guān)鍵技術(shù)。 以百度為例,雖然沒有推出Sora產(chǎn)品的計(jì)劃,但自身也沒有缺席關(guān)鍵技術(shù),比如自研了多模態(tài)可控生圖技術(shù),能夠在保持實(shí)體特征不變的情況下,實(shí)現(xiàn)圖像的高泛化生成,而可控性的提升,恰恰是視頻生成下一階段核心中的核心。此外,百度也沒有完全無視視頻生成領(lǐng)域,目前投資了視頻生成初創(chuàng)公司生數(shù)科技、AI視頻短劇公司井英科技等。 聚焦主賽道,以自身核心業(yè)務(wù)、商業(yè)優(yōu)先級(jí)等多元因素來確定追趕Sora的輕重緩急。大模型的牌局,國(guó)內(nèi)企業(yè)正在找到自己的節(jié)奏感。 |
|