AI 視頻圈正殺得你死我活。 前腳快手高調(diào)發(fā)布可靈,后腳 Luma 不甘示弱,推出最新視頻模型 Dream Machine,緊接著 Runway 橫插一腳,祭出 Gen-3 這個(gè)大殺器。 在微妙的 FOMO 氣氛帶動(dòng)下,更多玩家秉持著「累死自己,卷死同行」的宗旨,一頭扎進(jìn)這個(gè)賽道 —— 阿里巴巴達(dá)摩院押注「尋光視頻創(chuàng)作平臺(tái)」、字節(jié)即夢(mèng) AI 探索「生成式影劇」、美圖 MOKI 盯上 AI 短片創(chuàng)作、Haiper AI 則聚焦創(chuàng)意表達(dá) …… 7 月 5 日的上海,火熱,像極了 AI 視頻圈的焦灼。 這一天,上海世博展覽館 H3 館 X 會(huì)議室人頭攢動(dòng),一場(chǎng)由世界人工智能大會(huì)組委會(huì)辦公室主辦,機(jī)器之心、東浩蘭生共同承辦的「2024 WAIC 視頻生成前沿技術(shù)論壇」正如火如荼地進(jìn)行。 該論壇匯聚了眾多 AI 視頻領(lǐng)域的明星企業(yè)和專家,共同探討視頻生成技術(shù)的最新進(jìn)展及其在產(chǎn)業(yè)應(yīng)用中的創(chuàng)新實(shí)踐。 深度分享:一線圈內(nèi)人的肺腑之言 自 ChatGPT 橫空出世后,Sora 引爆的視頻生成技術(shù)絕對(duì)是科技界的「當(dāng)紅炸子雞」。 盡管這一領(lǐng)域目前尚處起步階段,但視頻生成技術(shù)以其驚人的發(fā)展速度和極具潛力的應(yīng)用前景,正不斷拓展數(shù)字內(nèi)容創(chuàng)作的邊界。 阿里巴巴達(dá)摩院視頻生成負(fù)責(zé)人陳威華、上海交通大學(xué)電子系教授倪冰冰、美圖公司集團(tuán)高級(jí)副總裁陳劍毅、Haiper AI 創(chuàng)始人繆亦舒出席本次論壇并發(fā)表主題演講。 阿里巴巴達(dá)摩院視頻生成負(fù)責(zé)人陳威華表示,年初 Sora 的發(fā)布不僅展示了 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力,更激發(fā)了人們對(duì)這一技術(shù)的無限想象。 盡管 Sora 非???,但生成過程仍難以控制,主角的一致性難以保證,需要大量人工后期編輯才能達(dá)到最佳效果。 「視頻內(nèi)容的控制是創(chuàng)作中最大的需求,也是今天我們算法所面臨的最大挑戰(zhàn)?!龟愅A說。 阿里巴巴達(dá)摩院最新發(fā)布的 AIGC 產(chǎn)品 —— 尋光視頻創(chuàng)作平臺(tái),旨在提升視頻制作效率,解決視頻后期編輯問題,通過簡(jiǎn)易的分鏡頭組織形式和豐富的視頻編輯能力,讓用戶實(shí)現(xiàn)對(duì)視頻內(nèi)容的精準(zhǔn)控制,并保持多個(gè)視頻中角色和場(chǎng)景的一致性。 尋光為 AI 視頻的廣泛應(yīng)用提供了一站式的工具平臺(tái),AI 不會(huì)取代創(chuàng)作者的工作,而是會(huì)優(yōu)化視頻創(chuàng)作的工作流,成為創(chuàng)意驅(qū)動(dòng)的新引擎。 上海交通大學(xué)電子系教授倪冰冰則分享了面向矢量化的媒體內(nèi)容生成技術(shù)。 演講一開始,他就潑了一盆冷水。 「當(dāng)前的生成算法都面臨著結(jié)構(gòu)性和細(xì)節(jié)性的問題。例如,生成的內(nèi)容可能會(huì)多出或缺少某些元素,抑或是手穿模等。對(duì)于那些需要符合物理規(guī)則的精細(xì)化視頻,目前的生成技術(shù)仍面臨挑戰(zhàn)?!鼓弑f,究其原因,所有生成式智能本質(zhì)上是一個(gè)采樣過程,而視頻是一個(gè)高維度的空間,盡管通過增加訓(xùn)練數(shù)據(jù)和降低采樣精度可以提高內(nèi)容質(zhì)量,但由于維度空間極高,要達(dá)到完美無缺的程度,在當(dāng)前技術(shù)框架下仍有一定難度。 此外,算力的限制也是一個(gè)重要因素。目前,包括大語言模型、圖像視頻生成模型在內(nèi)的算力指標(biāo)已經(jīng)達(dá)到幾十 T、上百 T 甚至上千 T 的水平。未來,生成式智能的發(fā)展趨勢(shì)肯定會(huì)向端側(cè)下沉,而端側(cè)不可能使用無限制的大算力采樣方式解決問題。 對(duì)此,倪冰冰提出利用矢量化表征框架,將視頻內(nèi)容實(shí)例化到網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)精確操控生成內(nèi)容,并更好地符合物理世界規(guī)則。 他認(rèn)為生成式人工智能目前階段性的成功是以算力與數(shù)據(jù)的過度消耗為代價(jià)的,未來應(yīng)聚焦于媒體內(nèi)容的新型表征與生成式計(jì)算新范式,積極打造更加高質(zhì)高效的媒體新質(zhì)生產(chǎn)力。 美圖公司集團(tuán)高級(jí)副總裁陳劍毅則從產(chǎn)品經(jīng)理的視角分析了 AI 視頻生成的應(yīng)用場(chǎng)景和挑戰(zhàn)。 在用戶調(diào)研中,他發(fā)現(xiàn)兩個(gè)有趣的現(xiàn)象。 一是圈內(nèi)人會(huì)因?yàn)橐曨l由 AI 生成而驚嘆,但對(duì)于普通用戶而言,他們并不關(guān)心視頻是否由 AI 生成,而是聚焦于內(nèi)容是否吸引人。 「這意味著,無論 AI 視頻生成技術(shù)達(dá)到何種視覺體驗(yàn),我們都必須回歸到內(nèi)容本身,關(guān)注視頻想要傳遞的價(jià)值觀和故事。」陳劍毅說。 二是大多數(shù)普通用戶對(duì)「文生圖」和 「文生視頻」這類專業(yè)術(shù)語并不熟悉,也不清楚它們的具體用途。就拿「文生圖」來說,這個(gè)名詞就像當(dāng)年 PhotoShop 的 「液化」功能一樣,讓人難以理解,然而,如果將其做個(gè)場(chǎng)景限定,描述為「瘦臉瘦身」功能,用戶就更能直觀地理解其價(jià)值。「文生視頻」也同理。 同時(shí),他表示,AI 視頻生成技術(shù)讓內(nèi)容表達(dá)更加具象,豐富了視覺創(chuàng)意和體驗(yàn)度,但其仍需解決視覺設(shè)定可控性、動(dòng)態(tài)可控性和音頻可控性等關(guān)鍵問題。 美圖探索的 AI 短片創(chuàng)作平臺(tái) MOKI,正攻克這幾大難點(diǎn)。 據(jù)介紹,MOKI 以 AI 視頻生成技術(shù)為核心,構(gòu)建了一個(gè)全面的短片工作流程。前期階段,創(chuàng)作者可以進(jìn)行腳本編寫、視覺風(fēng)格設(shè)計(jì)和角色設(shè)定,然后利用 AI 技術(shù)生成視頻素材。最終,通過 AI 的后期制作能力,將所有素材串聯(lián)起來,形成一個(gè)連貫的短片。 作為明星創(chuàng)業(yè)公司 Haiper AI 創(chuàng)始人,繆亦舒深入探討了視頻生成技術(shù)的意義和價(jià)值。 繆亦舒說:「我們經(jīng)常聽到這樣的觀點(diǎn),比如『語言即智能』或『大語言模型即通用人工智能(AGI)』。然而,僅靠語言學(xué)習(xí)真的能直接引領(lǐng)我們通往 AGI 嗎?語言是人類獲取知識(shí)的重要途徑之一,但并非唯一途徑。人類通過視覺、聽覺、閱讀和動(dòng)覺等多種學(xué)習(xí)方式來學(xué)習(xí)。AI 也需要通過多種模態(tài)融合去學(xué)習(xí)和構(gòu)建真正的通用智能?!?/span> GPT-3.5 推出后,許多人提出 「自然語言處理 (NLP) 不存在了」的觀點(diǎn),因?yàn)榇笳Z言模型通過自回歸生成式模型(每次預(yù)測(cè)下一個(gè)詞),基本解決了語言系統(tǒng)學(xué)習(xí)和語義推理的問題,我們甚至不再需要判別式模型來對(duì)特定的推理問題進(jìn)行微調(diào)。 類似地,視頻生成模型也是通過自回歸的方式構(gòu)建生成式模型(每次預(yù)測(cè)下一個(gè)視頻幀),模型因此隱式地學(xué)習(xí)了深度預(yù)測(cè)、語義標(biāo)注和語義分割等計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù)。因此,在 2024 年,我們會(huì)聽到類似 「計(jì)算機(jī)視覺(CV)不存在了」 的言論,因?yàn)橐曨l生成模型在學(xué)習(xí)生成視頻內(nèi)容的過程中,已經(jīng)逐漸掌握到感知能力和物理規(guī)律。 「我們是否需要像小狗一樣理解牛頓第一定律才能在街上追逐蝴蝶?是否需要像 5 歲的小孩一樣知道所有物理定律才能行走和騎自行車?答案是否定的。人類通過與世界的不斷互動(dòng)和觀察,通過各種建模來學(xué)習(xí)。事實(shí)上,視頻生成模型已經(jīng)通過學(xué)習(xí)生成多樣的視頻內(nèi)容構(gòu)建了世界模型,我們可以輕松地通過提示詞與世界模型互動(dòng),渲染出我們想要的視頻內(nèi)容,而這一切并不需要我們顯式地搭建一個(gè)模擬器來模擬所謂的物理規(guī)律?!?/span> 繆亦舒強(qiáng)調(diào),「Video Generation Is Beyond Generating Videos」。在他看來,視頻生成模型不僅能生成視頻內(nèi)容,更是通過多模態(tài)學(xué)習(xí)基礎(chǔ)感知能力的重要一步,也是人工智能走向 AGI 的必經(jīng)之路。 圓桌激辯:視頻生成之路該怎么走? 除了四位專家學(xué)者的主題分享,論壇還邀請(qǐng)了來自學(xué)界、企業(yè)、創(chuàng)業(yè)公司、知名投資機(jī)構(gòu)的嘉賓,圍繞視頻生成的前沿技術(shù)、場(chǎng)景落地行業(yè)創(chuàng)新應(yīng)用實(shí)踐等議題進(jìn)行深度圓桌討論。 第一場(chǎng)圓桌討論中,井英科技創(chuàng)始人 & CEO 朱江、新加坡南洋理工大學(xué)助理教授劉子緯、盛趣游戲技術(shù)中心 AI 負(fù)責(zé)人李鋒、倚天資本合伙人樂元等嘉賓圍繞「大模型驅(qū)動(dòng)下,視頻生成技術(shù)提升路徑將何去何從?」這一主題展開深入探討,闡述了視頻生成技術(shù)在行業(yè)的落地前景。 井英科技創(chuàng)始人 & CEO 朱江將視頻生成技術(shù)類比于寒武紀(jì)生命大爆發(fā),認(rèn)為當(dāng)前處于一個(gè)技術(shù)和應(yīng)用快速發(fā)展的階段。他強(qiáng)調(diào),應(yīng)用層公司需要保持對(duì)技術(shù)的理解和領(lǐng)先,同時(shí)關(guān)注用戶需求,才能在競(jìng)爭(zhēng)中脫穎而出。他表示,最終模型公司和應(yīng)用公司都能生存下來,但模型公司可能會(huì)更加通用,而應(yīng)用公司則需要更加關(guān)注用戶和商業(yè)的理解。 新加坡南洋理工大學(xué)助理教授劉子緯認(rèn)為視頻生成技術(shù)目前處于 GPT-3 時(shí)代,距離成熟還有半年左右的時(shí)間。他分析了 Diffusion、Transformer 和語言模型三條技術(shù)路徑的優(yōu)缺點(diǎn),認(rèn)為未來可能會(huì)融合發(fā)展。他還強(qiáng)調(diào),需要探索視頻生成技術(shù)的「牛頓第一定律」,即如何通過投入算力和數(shù)據(jù)來獲得可預(yù)測(cè)的提升。 盛趣游戲技術(shù)中心 AI 負(fù)責(zé)人李鋒從游戲行業(yè)的角度出發(fā),認(rèn)為視頻生成技術(shù)可以提升游戲研發(fā)效率和創(chuàng)意水平。他希望能夠與模型公司合作,將視頻生成技術(shù)應(yīng)用到游戲研發(fā)流程中,例如參考可微渲染的思路去做關(guān)卡設(shè)計(jì)和布局預(yù)演,在研發(fā)協(xié)同合作時(shí)的溝通方式可視化對(duì)齊以和其他動(dòng)態(tài)資產(chǎn)影像生成。 倚天資本合伙人樂元?jiǎng)t從資本的視角,分析了視頻生成技術(shù)商業(yè)落地面臨的挑戰(zhàn)。他認(rèn)為,視頻生成技術(shù)在最近兩三年取得了遠(yuǎn)超預(yù)期的進(jìn)步,這是令人驚喜的,但客觀來講今天的技術(shù)水平還是不足以支撐大范圍商業(yè)化,基于語言模型開發(fā)應(yīng)用所使用的方法論和遇到的挑戰(zhàn),在視頻相關(guān)的應(yīng)用領(lǐng)域也同樣適用。 論壇的第二個(gè)圓桌對(duì)話聚焦于「解構(gòu)生成式 AI 浪潮下,視頻生成應(yīng)用的創(chuàng)新與機(jī)會(huì)」,來自五源資本、FancyTech、Morph AI 和斯坦福大學(xué)的嘉賓,從投資、應(yīng)用、技術(shù)和藝術(shù)等多個(gè)角度,挖掘了視頻生成技術(shù)的發(fā)展方向和應(yīng)用場(chǎng)景。 FancyTech(時(shí)代涌現(xiàn))創(chuàng)始人 & CEO 空界認(rèn)為視頻生成技術(shù)將帶來供給側(cè)的改革,讓更多人能夠參與內(nèi)容創(chuàng)作。他介紹了 FancyTech 的 To B 視頻生成平臺(tái),通過將現(xiàn)實(shí)物品還原到虛擬場(chǎng)景中,幫助商家降低內(nèi)容創(chuàng)作成本。 五源資本副總裁石允豐提到,目前的視頻生成還處于早期發(fā)展階段,類似于 GPT2 剛發(fā)布時(shí)的探索狀態(tài)。技術(shù)的底座還沒有穩(wěn)固時(shí)找 PMF 的挑戰(zhàn)很大。他認(rèn)為,盡管技術(shù)在不斷進(jìn)步,創(chuàng)作者也非常有熱情,有一定范圍的傳播,但沒有廣泛的內(nèi)容消費(fèi)。需要有天才的產(chǎn)品經(jīng)理將產(chǎn)品做裁剪,創(chuàng)造出和現(xiàn)有信息流不兼容的新內(nèi)容形態(tài)。 Morph AI 創(chuàng)始人 & CEO 徐懷哲認(rèn)為視頻生成的技術(shù)和應(yīng)用同樣重要,作為技術(shù)出身的團(tuán)隊(duì),更要協(xié)調(diào)好模型層和應(yīng)用層的開發(fā)。他介紹了 Morph Studio 這款 All-in-one 的 AI 視頻制作工具,是基于 Morph 領(lǐng)先的 AI 視頻大模型打造,目前已在全球公測(cè),并收到了積極的反饋。未來,Morph 將持續(xù)通過用戶反饋,不斷優(yōu)化產(chǎn)品功能和用戶體驗(yàn),讓其 AI 視頻技術(shù)能夠通過產(chǎn)品更快的落地,更優(yōu)的幫助創(chuàng)作者。 斯坦福大學(xué)博士后研究員饒安逸則從藝術(shù)和科技的結(jié)合角度出發(fā),認(rèn)為視頻生成技術(shù)可以激發(fā)更多交互式創(chuàng)作方式。他強(qiáng)調(diào),機(jī)器和人都不能做到 100% 正確,因此在創(chuàng)作過程中需要引入交互式改進(jìn)機(jī)制,讓機(jī)器和人協(xié)同完成創(chuàng)作。 總體而言,圓桌對(duì)話的嘉賓們對(duì)視頻生成技術(shù)的應(yīng)用前景充滿期待,但也認(rèn)識(shí)到當(dāng)前技術(shù)仍處于早期階段,需要探索新的商業(yè)模式和應(yīng)用場(chǎng)景才能實(shí)現(xiàn)更大的價(jià)值。
本次論壇的成功舉辦,不僅為 AI 視頻領(lǐng)域的從業(yè)者提供了一個(gè)交流與學(xué)習(xí)的平臺(tái),也為相關(guān)產(chǎn)業(yè)鏈上的各個(gè)環(huán)節(jié)提供了更多合作的機(jī)會(huì)。展望未來,AI 視頻技術(shù)將迎來更加廣闊的發(fā)展空間和更加豐富的應(yīng)用場(chǎng)景,為人類創(chuàng)造更加美好的視覺體驗(yàn)。