大廠掀起視頻生成「軍備競(jìng)賽」，AI 真能干掉好萊塢？

天承辦公室 2024-07-16 發(fā)布于江蘇

展開全文

機(jī)器之心報(bào)道

機(jī)器之心編輯部

AI 視頻圈正殺得你死我活。

前腳快手高調(diào)發(fā)布可靈，后腳 Luma 不甘示弱，推出最新視頻模型 Dream Machine，緊接著 Runway 橫插一腳，祭出 Gen-3 這個(gè)大殺器。

在微妙的 FOMO 氣氛帶動(dòng)下，更多玩家秉持著「累死自己，卷死同行」的宗旨，一頭扎進(jìn)這個(gè)賽道 ——

阿里巴巴達(dá)摩院押注「尋光視頻創(chuàng)作平臺(tái)」、字節(jié)即夢(mèng) AI 探索「生成式影劇」、美圖 MOKI 盯上 AI 短片創(chuàng)作、Haiper AI 則聚焦創(chuàng)意表達(dá) ……

7 月 5 日的上海，火熱，像極了 AI 視頻圈的焦灼。

這一天，上海世博展覽館 H3 館 X 會(huì)議室人頭攢動(dòng)，一場(chǎng)由世界人工智能大會(huì)組委會(huì)辦公室主辦，機(jī)器之心、東浩蘭生共同承辦的「2024 WAIC 視頻生成前沿技術(shù)論壇」正如火如荼地進(jìn)行。

該論壇匯聚了眾多 AI 視頻領(lǐng)域的明星企業(yè)和專家，共同探討視頻生成技術(shù)的最新進(jìn)展及其在產(chǎn)業(yè)應(yīng)用中的創(chuàng)新實(shí)踐。

深度分享：一線圈內(nèi)人的肺腑之言

自 ChatGPT 橫空出世后，Sora 引爆的視頻生成技術(shù)絕對(duì)是科技界的「當(dāng)紅炸子雞」。

盡管這一領(lǐng)域目前尚處起步階段，但視頻生成技術(shù)以其驚人的發(fā)展速度和極具潛力的應(yīng)用前景，正不斷拓展數(shù)字內(nèi)容創(chuàng)作的邊界。

阿里巴巴達(dá)摩院視頻生成負(fù)責(zé)人陳威華、上海交通大學(xué)電子系教授倪冰冰、美圖公司集團(tuán)高級(jí)副總裁陳劍毅、Haiper AI 創(chuàng)始人繆亦舒出席本次論壇并發(fā)表主題演講。

阿里巴巴達(dá)摩院視頻生成負(fù)責(zé)人陳威華表示，年初 Sora 的發(fā)布不僅展示了 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力，更激發(fā)了人們對(duì)這一技術(shù)的無限想象。

盡管 Sora 非?？?，但生成過程仍難以控制，主角的一致性難以保證，需要大量人工后期編輯才能達(dá)到最佳效果。

「視頻內(nèi)容的控制是創(chuàng)作中最大的需求，也是今天我們算法所面臨的最大挑戰(zhàn)?！龟愅A說。

阿里巴巴達(dá)摩院最新發(fā)布的 AIGC 產(chǎn)品 —— 尋光視頻創(chuàng)作平臺(tái)，旨在提升視頻制作效率，解決視頻后期編輯問題，通過簡(jiǎn)易的分鏡頭組織形式和豐富的視頻編輯能力，讓用戶實(shí)現(xiàn)對(duì)視頻內(nèi)容的精準(zhǔn)控制，并保持多個(gè)視頻中角色和場(chǎng)景的一致性。

尋光為 AI 視頻的廣泛應(yīng)用提供了一站式的工具平臺(tái)，AI 不會(huì)取代創(chuàng)作者的工作，而是會(huì)優(yōu)化視頻創(chuàng)作的工作流，成為創(chuàng)意驅(qū)動(dòng)的新引擎。

上海交通大學(xué)電子系教授倪冰冰則分享了面向矢量化的媒體內(nèi)容生成技術(shù)。

演講一開始，他就潑了一盆冷水。

「當(dāng)前的生成算法都面臨著結(jié)構(gòu)性和細(xì)節(jié)性的問題。例如，生成的內(nèi)容可能會(huì)多出或缺少某些元素，抑或是手穿模等。對(duì)于那些需要符合物理規(guī)則的精細(xì)化視頻，目前的生成技術(shù)仍面臨挑戰(zhàn)?！鼓弑f，究其原因，所有生成式智能本質(zhì)上是一個(gè)采樣過程，而視頻是一個(gè)高維度的空間，盡管通過增加訓(xùn)練數(shù)據(jù)和降低采樣精度可以提高內(nèi)容質(zhì)量，但由于維度空間極高，要達(dá)到完美無缺的程度，在當(dāng)前技術(shù)框架下仍有一定難度。

此外，算力的限制也是一個(gè)重要因素。目前，包括大語言模型、圖像視頻生成模型在內(nèi)的算力指標(biāo)已經(jīng)達(dá)到幾十 T、上百 T 甚至上千 T 的水平。未來，生成式智能的發(fā)展趨勢(shì)肯定會(huì)向端側(cè)下沉，而端側(cè)不可能使用無限制的大算力采樣方式解決問題。

對(duì)此，倪冰冰提出利用矢量化表征框架，將視頻內(nèi)容實(shí)例化到網(wǎng)絡(luò)參數(shù)，從而實(shí)現(xiàn)精確操控生成內(nèi)容，并更好地符合物理世界規(guī)則。

他認(rèn)為生成式人工智能目前階段性的成功是以算力與數(shù)據(jù)的過度消耗為代價(jià)的，未來應(yīng)聚焦于媒體內(nèi)容的新型表征與生成式計(jì)算新范式，積極打造更加高質(zhì)高效的媒體新質(zhì)生產(chǎn)力。

美圖公司集團(tuán)高級(jí)副總裁陳劍毅則從產(chǎn)品經(jīng)理的視角分析了 AI 視頻生成的應(yīng)用場(chǎng)景和挑戰(zhàn)。

在用戶調(diào)研中，他發(fā)現(xiàn)兩個(gè)有趣的現(xiàn)象。

一是圈內(nèi)人會(huì)因?yàn)橐曨l由 AI 生成而驚嘆，但對(duì)于普通用戶而言，他們并不關(guān)心視頻是否由 AI 生成，而是聚焦于內(nèi)容是否吸引人。

「這意味著，無論 AI 視頻生成技術(shù)達(dá)到何種視覺體驗(yàn)，我們都必須回歸到內(nèi)容本身，關(guān)注視頻想要傳遞的價(jià)值觀和故事。」陳劍毅說。

二是大多數(shù)普通用戶對(duì)「文生圖」和「文生視頻」這類專業(yè)術(shù)語并不熟悉，也不清楚它們的具體用途。就拿「文生圖」來說，這個(gè)名詞就像當(dāng)年 PhotoShop 的「液化」功能一樣，讓人難以理解，然而，如果將其做個(gè)場(chǎng)景限定，描述為「瘦臉瘦身」功能，用戶就更能直觀地理解其價(jià)值。「文生視頻」也同理。

同時(shí)，他表示，AI 視頻生成技術(shù)讓內(nèi)容表達(dá)更加具象，豐富了視覺創(chuàng)意和體驗(yàn)度，但其仍需解決視覺設(shè)定可控性、動(dòng)態(tài)可控性和音頻可控性等關(guān)鍵問題。

美圖探索的 AI 短片創(chuàng)作平臺(tái) MOKI，正攻克這幾大難點(diǎn)。

據(jù)介紹，MOKI 以 AI 視頻生成技術(shù)為核心，構(gòu)建了一個(gè)全面的短片工作流程。前期階段，創(chuàng)作者可以進(jìn)行腳本編寫、視覺風(fēng)格設(shè)計(jì)和角色設(shè)定，然后利用 AI 技術(shù)生成視頻素材。最終，通過 AI 的后期制作能力，將所有素材串聯(lián)起來，形成一個(gè)連貫的短片。

作為明星創(chuàng)業(yè)公司 Haiper AI 創(chuàng)始人，繆亦舒深入探討了視頻生成技術(shù)的意義和價(jià)值。

繆亦舒說：「我們經(jīng)常聽到這樣的觀點(diǎn)，比如『語言即智能』或『大語言模型即通用人工智能（AGI）』。然而，僅靠語言學(xué)習(xí)真的能直接引領(lǐng)我們通往 AGI 嗎？語言是人類獲取知識(shí)的重要途徑之一，但并非唯一途徑。人類通過視覺、聽覺、閱讀和動(dòng)覺等多種學(xué)習(xí)方式來學(xué)習(xí)。AI 也需要通過多種模態(tài)融合去學(xué)習(xí)和構(gòu)建真正的通用智能?！?/span>

GPT-3.5 推出后，許多人提出「自然語言處理 (NLP) 不存在了」的觀點(diǎn)，因?yàn)榇笳Z言模型通過自回歸生成式模型（每次預(yù)測(cè)下一個(gè)詞），基本解決了語言系統(tǒng)學(xué)習(xí)和語義推理的問題，我們甚至不再需要判別式模型來對(duì)特定的推理問題進(jìn)行微調(diào)。

類似地，視頻生成模型也是通過自回歸的方式構(gòu)建生成式模型（每次預(yù)測(cè)下一個(gè)視頻幀），模型因此隱式地學(xué)習(xí)了深度預(yù)測(cè)、語義標(biāo)注和語義分割等計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù)。因此，在 2024 年，我們會(huì)聽到類似「計(jì)算機(jī)視覺（CV）不存在了」的言論，因?yàn)橐曨l生成模型在學(xué)習(xí)生成視頻內(nèi)容的過程中，已經(jīng)逐漸掌握到感知能力和物理規(guī)律。

「我們是否需要像小狗一樣理解牛頓第一定律才能在街上追逐蝴蝶？是否需要像 5 歲的小孩一樣知道所有物理定律才能行走和騎自行車？答案是否定的。人類通過與世界的不斷互動(dòng)和觀察，通過各種建模來學(xué)習(xí)。事實(shí)上，視頻生成模型已經(jīng)通過學(xué)習(xí)生成多樣的視頻內(nèi)容構(gòu)建了世界模型，我們可以輕松地通過提示詞與世界模型互動(dòng)，渲染出我們想要的視頻內(nèi)容，而這一切并不需要我們顯式地搭建一個(gè)模擬器來模擬所謂的物理規(guī)律?！?/span>

繆亦舒強(qiáng)調(diào)，「Video Generation Is Beyond Generating Videos」。在他看來，視頻生成模型不僅能生成視頻內(nèi)容，更是通過多模態(tài)學(xué)習(xí)基礎(chǔ)感知能力的重要一步，也是人工智能走向 AGI 的必經(jīng)之路。

圓桌激辯：視頻生成之路該怎么走？

除了四位專家學(xué)者的主題分享，論壇還邀請(qǐng)了來自學(xué)界、企業(yè)、創(chuàng)業(yè)公司、知名投資機(jī)構(gòu)的嘉賓，圍繞視頻生成的前沿技術(shù)、場(chǎng)景落地行業(yè)創(chuàng)新應(yīng)用實(shí)踐等議題進(jìn)行深度圓桌討論。

第一場(chǎng)圓桌討論中，井英科技創(chuàng)始人 & CEO 朱江、新加坡南洋理工大學(xué)助理教授劉子緯、盛趣游戲技術(shù)中心 AI 負(fù)責(zé)人李鋒、倚天資本合伙人樂元等嘉賓圍繞「大模型驅(qū)動(dòng)下，視頻生成技術(shù)提升路徑將何去何從？」這一主題展開深入探討，闡述了視頻生成技術(shù)在行業(yè)的落地前景。

井英科技創(chuàng)始人 & CEO 朱江將視頻生成技術(shù)類比于寒武紀(jì)生命大爆發(fā)，認(rèn)為當(dāng)前處于一個(gè)技術(shù)和應(yīng)用快速發(fā)展的階段。他強(qiáng)調(diào)，應(yīng)用層公司需要保持對(duì)技術(shù)的理解和領(lǐng)先，同時(shí)關(guān)注用戶需求，才能在競(jìng)爭(zhēng)中脫穎而出。他表示，最終模型公司和應(yīng)用公司都能生存下來，但模型公司可能會(huì)更加通用，而應(yīng)用公司則需要更加關(guān)注用戶和商業(yè)的理解。

新加坡南洋理工大學(xué)助理教授劉子緯認(rèn)為視頻生成技術(shù)目前處于 GPT-3 時(shí)代，距離成熟還有半年左右的時(shí)間。他分析了 Diffusion、Transformer 和語言模型三條技術(shù)路徑的優(yōu)缺點(diǎn)，認(rèn)為未來可能會(huì)融合發(fā)展。他還強(qiáng)調(diào)，需要探索視頻生成技術(shù)的「牛頓第一定律」，即如何通過投入算力和數(shù)據(jù)來獲得可預(yù)測(cè)的提升。

盛趣游戲技術(shù)中心 AI 負(fù)責(zé)人李鋒從游戲行業(yè)的角度出發(fā)，認(rèn)為視頻生成技術(shù)可以提升游戲研發(fā)效率和創(chuàng)意水平。他希望能夠與模型公司合作，將視頻生成技術(shù)應(yīng)用到游戲研發(fā)流程中，例如參考可微渲染的思路去做關(guān)卡設(shè)計(jì)和布局預(yù)演，在研發(fā)協(xié)同合作時(shí)的溝通方式可視化對(duì)齊以和其他動(dòng)態(tài)資產(chǎn)影像生成。

倚天資本合伙人樂元?jiǎng)t從資本的視角，分析了視頻生成技術(shù)商業(yè)落地面臨的挑戰(zhàn)。他認(rèn)為，視頻生成技術(shù)在最近兩三年取得了遠(yuǎn)超預(yù)期的進(jìn)步，這是令人驚喜的，但客觀來講今天的技術(shù)水平還是不足以支撐大范圍商業(yè)化，基于語言模型開發(fā)應(yīng)用所使用的方法論和遇到的挑戰(zhàn)，在視頻相關(guān)的應(yīng)用領(lǐng)域也同樣適用。

論壇的第二個(gè)圓桌對(duì)話聚焦于「解構(gòu)生成式 AI 浪潮下，視頻生成應(yīng)用的創(chuàng)新與機(jī)會(huì)」，來自五源資本、FancyTech、Morph AI 和斯坦福大學(xué)的嘉賓，從投資、應(yīng)用、技術(shù)和藝術(shù)等多個(gè)角度，挖掘了視頻生成技術(shù)的發(fā)展方向和應(yīng)用場(chǎng)景。

FancyTech（時(shí)代涌現(xiàn)）創(chuàng)始人 & CEO 空界認(rèn)為視頻生成技術(shù)將帶來供給側(cè)的改革，讓更多人能夠參與內(nèi)容創(chuàng)作。他介紹了 FancyTech 的 To B 視頻生成平臺(tái)，通過將現(xiàn)實(shí)物品還原到虛擬場(chǎng)景中，幫助商家降低內(nèi)容創(chuàng)作成本。

五源資本副總裁石允豐提到，目前的視頻生成還處于早期發(fā)展階段，類似于 GPT2 剛發(fā)布時(shí)的探索狀態(tài)。技術(shù)的底座還沒有穩(wěn)固時(shí)找 PMF 的挑戰(zhàn)很大。他認(rèn)為，盡管技術(shù)在不斷進(jìn)步，創(chuàng)作者也非常有熱情，有一定范圍的傳播，但沒有廣泛的內(nèi)容消費(fèi)。需要有天才的產(chǎn)品經(jīng)理將產(chǎn)品做裁剪，創(chuàng)造出和現(xiàn)有信息流不兼容的新內(nèi)容形態(tài)。

Morph AI 創(chuàng)始人 & CEO 徐懷哲認(rèn)為視頻生成的技術(shù)和應(yīng)用同樣重要，作為技術(shù)出身的團(tuán)隊(duì)，更要協(xié)調(diào)好模型層和應(yīng)用層的開發(fā)。他介紹了 Morph Studio 這款 All-in-one 的 AI 視頻制作工具，是基于 Morph 領(lǐng)先的 AI 視頻大模型打造，目前已在全球公測(cè)，并收到了積極的反饋。未來，Morph 將持續(xù)通過用戶反饋，不斷優(yōu)化產(chǎn)品功能和用戶體驗(yàn)，讓其 AI 視頻技術(shù)能夠通過產(chǎn)品更快的落地，更優(yōu)的幫助創(chuàng)作者。

斯坦福大學(xué)博士后研究員饒安逸則從藝術(shù)和科技的結(jié)合角度出發(fā)，認(rèn)為視頻生成技術(shù)可以激發(fā)更多交互式創(chuàng)作方式。他強(qiáng)調(diào)，機(jī)器和人都不能做到 100% 正確，因此在創(chuàng)作過程中需要引入交互式改進(jìn)機(jī)制，讓機(jī)器和人協(xié)同完成創(chuàng)作。

總體而言，圓桌對(duì)話的嘉賓們對(duì)視頻生成技術(shù)的應(yīng)用前景充滿期待，但也認(rèn)識(shí)到當(dāng)前技術(shù)仍處于早期階段，需要探索新的商業(yè)模式和應(yīng)用場(chǎng)景才能實(shí)現(xiàn)更大的價(jià)值。

本次論壇的成功舉辦，不僅為 AI 視頻領(lǐng)域的從業(yè)者提供了一個(gè)交流與學(xué)習(xí)的平臺(tái)，也為相關(guān)產(chǎn)業(yè)鏈上的各個(gè)環(huán)節(jié)提供了更多合作的機(jī)會(huì)。展望未來，AI 視頻技術(shù)將迎來更加廣闊的發(fā)展空間和更加豐富的應(yīng)用場(chǎng)景，為人類創(chuàng)造更加美好的視覺體驗(yàn)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)