一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

LVS2023 | 從 AIGC 到 MMLM

 高觀點篤者 2023-08-31 發(fā)布于新西蘭

來源:LiveVideoStackCon 2023
主講人:宋利
內(nèi)容整理:馮冬輝
最近 AIGC 技術(shù)備受關(guān)注,該技術(shù)實現(xiàn)了從文本模態(tài)到圖像模態(tài)的高效轉(zhuǎn)換,能夠利用文本提示詞生成出專業(yè)水準的圖像或視頻。這一技術(shù)的商業(yè)落地正在逐漸改變著我們的內(nèi)容生產(chǎn)和消費方式。與此同時,學(xué)術(shù)界和行業(yè)界的前沿正在積極探索多模態(tài)大模型,甚至將其推進到了十二種模態(tài)之間的對齊與生成。在最近舉辦的 LiveVideoStackCon 2023(上海,7月28-29日)大會上,上海交通大學(xué)的宋利老師發(fā)表了一場關(guān)于多模態(tài)媒體大模型的全景與展望的精彩演講。他詳細探討了這一系列技術(shù)將會如何改變我們的多媒體鏈條,包括生成、編碼和交互方面的進展、前景和挑戰(zhàn)。這場演講向我們展示了多媒體領(lǐng)域一個令人激動的未來方向。

目錄

  • 多模態(tài)媒體大模型概覽

  • 01. 多模態(tài)媒體生成

  • 02. 多模態(tài)媒體編碼

  • 03. 多模態(tài)媒體交互

多模態(tài)媒體大模型概覽

圖片
圖1 多模態(tài)媒體大模型

媒體行業(yè)增速放緩,而 AIGC 技術(shù)的商業(yè)落地備受矚目,文本到圖像的模態(tài)生生成技術(shù)有望改變我們的內(nèi)容生產(chǎn)和消費方式,帶給行業(yè)新的想象空間。同時,學(xué)術(shù)界和行業(yè)界正在積極研究多模態(tài)大模型,實現(xiàn)多種模態(tài)的對齊和生成。我們判斷,多模態(tài)媒體大模型將是行業(yè)的重要技術(shù)基礎(chǔ)設(shè)施,給內(nèi)容的生成、編碼、交互帶來全新的變革。

根據(jù)目前的研究態(tài)勢,我們給出如下的多模態(tài)媒體大模型體系框架,實現(xiàn)文本、圖像、視頻、音頻、3D、傳感器、驅(qū)動器等模態(tài)的輸入、推理和生成??蚣軐⒄Z言大模型作為邏輯推理的中心,將不同模態(tài)的數(shù)據(jù)變?yōu)橐粋€整體的張量作為輸入,經(jīng)過大模型推理后,輸出的張量再還原到目標模態(tài),從而使大模型成為一個具有推理和思考能力的高級操作系統(tǒng)。

這其中有一些要點:

  • 表示(Representation):多模態(tài)媒體大模型需要能夠有效地表示和處理不同模態(tài)的媒體數(shù)據(jù),例如文本、圖像、視頻、音頻、3D 等。對于每種模態(tài),需要選擇適當?shù)谋硎痉椒?,以便在模型中進行進一步的處理和分析。例如,對于圖像,可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征,對于文本,可以使用詞嵌入或者序列模型來表示。
  • 對齊(Alignment):在多模態(tài)數(shù)據(jù)中,模態(tài)之間可能存在相關(guān)性和對應(yīng)關(guān)系。對齊是指將不同模態(tài)的數(shù)據(jù)進行匹配和關(guān)聯(lián),以便模型可以理解它們之間的關(guān)系。例如,可以使用注意力機制(Attention)來對齊文本和圖像之間的語義對應(yīng)關(guān)系。
  • 推理(Inference):多模態(tài)媒體大模型需要具備推理能力,即能夠分析和理解輸入數(shù)據(jù),并從中提取有用的信息。推理可以利用語言邏輯,具備一定的泛化能力。通過將不同模態(tài)的數(shù)據(jù)結(jié)合起來進行推理,模型可以獲得更全面和豐富的理解。目前通用的方式是利用預(yù)訓(xùn)練語言大模型進行推理任務(wù)。
  • 生成(Generation):多模態(tài)媒體大模型也可以用于生成新的多模態(tài)數(shù)據(jù)。例如,可以通過給定一段文本描述來生成對應(yīng)的圖像或視頻,或者通過給定一段音頻生成對應(yīng)的文本。我們可以對推理輸出的中間表示進行解碼,輸出需要的模態(tài)。
  • 評價(Evaluation):對于多模態(tài)媒體大模型,評價是一個重要的環(huán)節(jié),用于度量模型輸出的質(zhì)量和性能。評價可以包括主觀評估和客觀評估。主觀評估可以通過人工評價來衡量生成結(jié)果的質(zhì)量,客觀評估可以使用各種指標和度量來評估模型的性能,例如生成的多樣性,音視頻的質(zhì)量等。
  • 編碼(Encoding):不同于數(shù)據(jù)表示中的嵌入概念,這里特指數(shù)據(jù)的壓縮編碼。在多模態(tài)媒體大模型中,數(shù)據(jù)的編碼是指對于任何模態(tài)的信息或者中間嵌入轉(zhuǎn)換為空間緊湊的數(shù)據(jù)流。對于文本、音視頻等傳統(tǒng)模態(tài),已有成熟的編碼標準,對于 3D 模態(tài),各種技術(shù)路徑還未收斂。同時,業(yè)界也在積極探索跨模態(tài)編碼、嵌入信息編碼和神經(jīng)網(wǎng)絡(luò)編碼。
  • 交互(Interaction):多模態(tài)媒體大模型可以支持人與模型的交互、模型與模型的交互,甚至人與人之間的交互由模型的交互來代理,這將形成一個模型的生態(tài)圈。這包括接收用戶輸入的多模態(tài)數(shù)據(jù),并根據(jù)用戶的需求進行推理和生成。交互也可以涉及模型與其他系統(tǒng)的協(xié)作,例如與傳感器和驅(qū)動器交互,甚至實現(xiàn)廣義人工智能 AGI。

接下來,我們將從其中的生成、編碼交互三個維度來展開介紹。

01. 多模態(tài)媒體生成

圖片
圖2 多模態(tài)媒體生成
圖片
圖3 元宇宙與大模型

對于內(nèi)容生成的討論上,去年元宇宙的話題備受關(guān)注,今年則是大模型搶了風(fēng)頭。但實際上,AIGC 將大模型與元宇宙之間建立了一個很好的橋梁。當我們強調(diào)元宇宙時,更注重的是用戶體驗和帶入人類的因素。而大模型則更注重于工具和賦能。這兩個方面應(yīng)該是相互補充的,形成一個整體,既包括生產(chǎn)力也包括用戶體驗。

圖片
圖4 AIGC基礎(chǔ)模型和應(yīng)用發(fā)展預(yù)測

紅杉資本的這張圖展示了 AIGC 基礎(chǔ)模型的發(fā)展態(tài)勢,目前普遍認為我們處于發(fā)展的中間階段,后面的預(yù)期都打著問號,表示未來的發(fā)展路徑可能存在不確定性,時間上可能會更快或更慢。有些事情可能比我們想象的簡單,有些則可能更復(fù)雜。然而,我個人認為,各大頭部公司和創(chuàng)業(yè)企業(yè)已經(jīng)涌入這個領(lǐng)域,投入了大量的智力和資源,這將加速發(fā)展進程。

圖片
圖5 AIGC大模型一覽,單模態(tài)&多模態(tài)

從 AIGC 和模態(tài)的角度來看,我們可以觀察到模型的發(fā)展呈現(xiàn)出三個階段。最初階段是單模態(tài)模型,像 GPT 這樣的模型在這個階段起到了代表性的作用。

隨后,在 2021 年和 2022 年,雙模態(tài)模型開始大量涌現(xiàn)。其中一個代表性的應(yīng)用是文生圖、文生視頻,它結(jié)合了文本和視頻等多種模態(tài)。這里面有一個關(guān)鍵的部分,就是對齊(alignment),也就是將不同模態(tài)的數(shù)據(jù)以最自然的語言表達進行對齊。這種對齊是基于語言的,也是維特根斯坦所說的語言是思維的邊界。因此,從文本到其他模態(tài)的轉(zhuǎn)換都是非常自然的。

在去年年底到今年初,我們已經(jīng)看到多模態(tài)模型開始爆發(fā)。在這個階段,有兩個主要趨勢,一個是自然擴展,另一個是深度擴展。目前,我們已經(jīng)看到模型中有六種模態(tài),甚至有一些模型擁有十二種模態(tài)。然而,核心仍然是以文本為基礎(chǔ)的,從文本轉(zhuǎn)換到各種模態(tài),再進行對齊。我們可以預(yù)期未來的發(fā)展將更加多樣化,并且更多地涉及多模態(tài)的應(yīng)用。

圖片
圖6 多模態(tài)AIGC大模型的必然性

目前,雙模態(tài)應(yīng)用的落地較多,而多模態(tài)應(yīng)用仍處于早期階段。為什么多模態(tài)會是一種必然呢?

首先,多模態(tài)提供了對維度的自然擴展,使得模型可以更全面地理解和處理不同模態(tài)的數(shù)據(jù)。

其次,我們注意到數(shù)據(jù)收集的跨模態(tài)特性。在構(gòu)建大型模型時,高質(zhì)量的數(shù)據(jù)是一個重要的瓶頸。多模態(tài)數(shù)據(jù)在跨模態(tài)的收集方面已經(jīng)取得了一些進展。盡管在幾年前這樣的數(shù)據(jù)集非常有限,只有少數(shù)幾家公司在進行相關(guān)工作,而且最自然的跨模態(tài)數(shù)據(jù)集是文本和圖像之間的轉(zhuǎn)換。例如,聲音和 3D 或傳感器數(shù)據(jù)之間的轉(zhuǎn)換,這些數(shù)據(jù)量非常有限,缺乏相應(yīng)的數(shù)據(jù)集。然而,現(xiàn)在我們已經(jīng)開始構(gòu)建這樣的數(shù)據(jù)集,包括一些大公司也在進行相關(guān)研究,它們也在開始進行模態(tài)融合。

最后,從研究和學(xué)術(shù)角度來看。人類認知本身就是天然的多模態(tài)過程。如果我們?nèi)斯ぶ悄艿拇竽P鸵ケ平祟愔悄艿脑?,尤其是從感知到認知的角度,走向多模態(tài)是符合自然規(guī)律的。代表性的例子之一是 Meta 的 'image-bind',它融合了六種模態(tài),并且是開源的,取得了一定的效果。雖然跳出給定的數(shù)據(jù)集進行評估時可能并不理想,但至少他們?yōu)檫@個領(lǐng)域開辟了一條道路。

圖片
圖7 多模態(tài)AIGC大模型的關(guān)鍵要素

那么如何實現(xiàn)多模態(tài) AIGC 大模型?

首先,數(shù)據(jù)是最關(guān)鍵的因素。當前,所有大型模型之間的共識是,數(shù)據(jù)對于多模態(tài)模型的成功至關(guān)重要。最近的一次采訪中,包括 OpenAI 的領(lǐng)導(dǎo)人和創(chuàng)始人在內(nèi),被問及中國是否能夠超越其他國家的技術(shù)實力。他們的基本觀點是,首先你需要擁有大規(guī)模且高質(zhì)量的數(shù)據(jù)才有意義。僅僅擁有大規(guī)模的數(shù)據(jù)是不夠的,數(shù)據(jù)質(zhì)量同樣至關(guān)重要。在多模態(tài)領(lǐng)域,這一點更加顯著,因為如果維度增加,數(shù)據(jù)很容易變得非常稀疏。因此,對于擬合模型而言,這帶來了更大的挑戰(zhàn)。目前,有多種方法可以處理數(shù)據(jù)。例如,在無人駕駛領(lǐng)域,將仿真數(shù)據(jù)與真實數(shù)據(jù)結(jié)合使用可以在一定程度上彌補多模態(tài)數(shù)據(jù)的缺失問題。

其次,關(guān)于模型本身,人們普遍認為多模態(tài)模型的參數(shù)應(yīng)該更多、規(guī)模更大。然而,目前的研究結(jié)果表明,視覺模型和其他模態(tài)模型,并沒有像語言模型那樣,在參數(shù)量上展示出更高的維度。這里面可能有一個語義對齊的問題,即語義空間和信號空間可能不同。多模態(tài)的數(shù)據(jù)在信號空間上可能具有更大的維度;然而在語義空間中,語言模態(tài)可能具有更高的有效維度或內(nèi)在維度。因此,模型設(shè)計仍然是一個巨大的挑戰(zhàn)。除了當前以語言為核心的大型模型,現(xiàn)在還有一些人在探索模擬人腦智能,當然都還處于初級階段。

最后,關(guān)于功能方面,學(xué)術(shù)界和工業(yè)界開始提出一個新概念,即具身智能。這意味著模型需要與環(huán)境進行感知,并在決策和學(xué)習(xí)之間形成一個與環(huán)境和數(shù)據(jù)進行循環(huán)交互的大循環(huán)。因此,多模態(tài)的具身智能模型可能是一個有潛力的應(yīng)用方向。

圖片
圖8 多模態(tài)生成之圖像創(chuàng)作

目前在圖像領(lǐng)域主要采用的是擴散(diffusion)技術(shù),但實際上在擴散之前也有生成網(wǎng)絡(luò) GAN 等其他成功的技術(shù)。如果我們仔細觀察,生成對抗網(wǎng)絡(luò)(GAN)并沒有消失,最近還出現(xiàn)了一個很有潛力的工具,叫做 DragGAN。實際上,GAN 在操控性方面至少在當前階段比擴散方法更好。然而,GAN 的可控性仍有挑戰(zhàn),尤其是在生成高質(zhì)量圖像和語音時與 diffusion 有不少差距。所以大多數(shù)人都在擴散方法的賽道上,但仍有一部分人繼續(xù)深入研究 GAN,包括在生成三維圖像方面,GAN 仍然具有一定的優(yōu)勢。

圖片
圖9 自由式圖像生成:文本+布局

圖像生成方面有很多工作正在進行。這里簡單介紹一下我們今年的一個工作,給定一個布局圖,和一段 prompt 提示詞來生成圖像??梢愿鼡Q其中的元素或詞語,這樣就可以實現(xiàn)一種可控性的表達方式。這種方法可以與直接生成圖像相比,提供更多的控制。在控制方面也有多種方法,比如布局圖,輪廓線或是參考圖。對此感興趣的同事可以參閱我們發(fā)表的論文。

圖片
圖10 多模態(tài)生成之視頻創(chuàng)作

在視頻創(chuàng)作方面,已經(jīng)有 Runway 等幾家公司在這個領(lǐng)域取得了突破,一些投資公司對這個領(lǐng)域比較看好,國內(nèi)也可以有類似的公司出現(xiàn)。與文生圖相比,文生視頻仍然存在一些擴展性和通用性的差距,我認為這個差距至少還需要一到兩年的時間來彌補。生成效果上,后者的水平大約相當于前者兩年前的水平,這包括生成圖像的質(zhì)量和抖動性等方面。目前主要以生成短視頻為主,生成長視頻時,一般是通過合成短視頻并添加滑動窗口等工程技術(shù)來實現(xiàn)。就原理性技術(shù)而言,并沒有突破 'stable diffusion' 框架,即以 CLIP 和 transform 為基礎(chǔ)加上擴散技術(shù)的框架。

圖片
圖11 多模態(tài)生成之3D創(chuàng)作

除了視頻,人們也自然而然地關(guān)注到了三維圖像生成。在某種程度上,文本到三維生成比文本到視頻生成更成熟。當然,生成復(fù)雜的建筑模型(如天安門廣場)比較困難,但是生成一只貓、一只狗等小物件的效果是可行的,至少可以幫助動畫師快速創(chuàng)建初始模型,進一步的編輯也變得更加容易。因此,目前對于三維圖像生成這個領(lǐng)域的關(guān)注度也相對較高。雖然今年的論文也有開始做 3D diffusion 的,但是現(xiàn)在可控性更強的還是以 GAN 為基礎(chǔ)的生成技術(shù)。

圖片
圖12 數(shù)字人技術(shù)是元宇宙的重要技術(shù)

目前,數(shù)字人是最近最受關(guān)注和應(yīng)用最廣泛的領(lǐng)域之一。去年元宇宙的興起使得數(shù)字人成為了熱門話題,因為數(shù)字人被稱為進入元宇宙的入口。因此,各個公司都高度關(guān)注數(shù)字人,市場上已經(jīng)有數(shù)百家數(shù)字人公司或團隊,學(xué)校也在進行相關(guān)研究。

圖片
圖13 數(shù)字人:語音驅(qū)動真實化身

我們早在一年前就開始研究數(shù)字人,并取得了一定的領(lǐng)先。其中嘴型對齊是一個最具挑戰(zhàn)性的問題,今年大家基本上都解決了這個問題。所以說,領(lǐng)域的進展程度是可見的,只要你敢于展示你的成果,很快就會被接受和認可。我們的工作早期就已經(jīng)在學(xué)術(shù)論壇上進行了討論,所以引起了一些關(guān)注,包括一些創(chuàng)業(yè)公司聯(lián)系我們,希望我們參加他們的創(chuàng)業(yè)賽道,這可能對其他人也有一些啟發(fā)。

圖片
圖14 數(shù)字人:語音驅(qū)動虛擬化身

去年,參加世界人工智能大會的時候,有一個對嘴型的競賽,重點是給定一個平均模型,大家使用各自的模型進行對齊。因此,一些項目更注重驅(qū)動模型而不是仿真人。我們?nèi)ツ暌矃⒓恿诉@個競賽,在這方面取得了一些進展。

圖片
圖15 2D數(shù)智人:全流程交互式問答助理

交互是最困難的部分。如 DEMO 所示,我們也初步嘗試了與 GPT 模型的交互,不過這里的視頻處理了一下延遲。實時交互的核心問題是延遲。從問題到 GPT 的回答之間會有接近兩秒的延遲,然后 TTS 合成也需要大約一秒的延遲,再將文字轉(zhuǎn)化為視頻,一般會緩沖 30-50 個字,所以延遲也會有幾秒鐘??傮w來說,現(xiàn)在的延遲已經(jīng)接近六七秒了。我們預(yù)計通過工程的方法可以將延遲減少到 3 秒左右,但要進一步減少目前串行交互是不行的,我們還沒有找到解決這個問題的方法。

直播的延遲可以消隱,但是實時交互則比較困難。我認為下一步或者近期的重點是將實時通信(RTC)與這個技術(shù)結(jié)合起來,即進行具有可見參與者的強交互對話,這是一個比較大的挑戰(zhàn)。

圖片
圖16 多模態(tài)生成模型的思考

在這方面,我們有幾個小的思考。

首先,關(guān)于多模態(tài),目前我們主要以 GPT 為中心,但這是否是最佳方式?是否還有其他路徑或方法?這個問題還沒有清晰的答案。

其次,很多人在問,當GPT作家讀完了所有的書該怎么辦呢?意思是說模型是否已經(jīng)達到了信息飽和的狀態(tài)。對于多模態(tài)的大型模型,是否會出現(xiàn)卷到天花板的情況?它的增長速度會很快嗎?大家都在探索這個問題。當然,我要提醒的是,我們這里默認的假設(shè)都是基于多模態(tài),每個公司都有自己的多模態(tài)模型,或者是一個超大規(guī)模的多模態(tài)模型。如果將多模態(tài)模型視為人一樣的話,個體的能力是有限的。而所有人的能力加起來可能不僅僅是模型本身的能力,還可能涉及到其他社會智能的涌現(xiàn)。這方面可能還比較早,所以從這個意義上來說,目前的智能還是以單個人為中心。當然,這個人學(xué)習(xí)了很多知識,但實際上還有很多其他智能,比如社交智能,在這種大型模型中還沒有得到充分展現(xiàn)。

最后,目前初步看來說多模態(tài)的能力其實不如這個用單一模型在做,這個模型在做所有東西的對齊,這個路徑其實也是值得探索的。

02. 多模態(tài)媒體編碼

圖片
圖17 多模態(tài)媒體編碼
圖片
圖18 沉浸式編碼標準

從媒體表達形式的角度來看,過去幾年主要關(guān)注的是從 360 度視頻到點云,特別是在最近兩年的元宇宙浪潮中,以視頻為中心的體積視頻成為了熱門話題。

MPEG 在 2021 年底啟動了 MIV(Moving Immersive Video)項目,并在去年底發(fā)布,主要關(guān)注的是對體積視頻的編碼。MPEG 下一步開始關(guān)注類似 AIGC 或NeRF(Neural Radiance Fields)這種神經(jīng)表達技術(shù),這個領(lǐng)域正處于一個新舊轉(zhuǎn)換的時期。內(nèi)容的未來發(fā)展將肯定是朝向真正的 3D 表達,而如何進行 3D 表達的壓縮是一個重要的課題。

圖片
圖19 新趨勢:基于隱式表達的沉浸式編碼

隱式表達可以作為一種緊湊的多視圖表達方式,它并不一定源自圖形學(xué),但它本身對于多視圖具有緊湊的表示能力。自然地,這種表達方式也可以用于呈現(xiàn)和壓縮。

我們的這篇工作中使用常規(guī)編碼方法對主視角進行編碼,而使用隱式表達方法對其他系數(shù)視角進行壓縮。這種方法與使用神經(jīng)網(wǎng)絡(luò)進行圖像壓縮的本質(zhì)相同,但我們在此過程中壓縮的是坐標、坐標轉(zhuǎn)換以及視角之間的預(yù)測,通過這種方式實現(xiàn)了模型參數(shù)之間的映射。通過將所有這些內(nèi)容放入一個隱式表達函數(shù)中,我們可以在進行解壓縮時重新投影出選定的連續(xù)視角。因此,在某種程度上,我們將稀疏的數(shù)據(jù)轉(zhuǎn)化為連續(xù)函數(shù),并在其上進行采樣。

圖片
圖20 基于隱式表達的人臉編碼

我們還探索了 3D 人臉編碼,將其轉(zhuǎn)化為隱式表達后,實現(xiàn)超低碼率壓縮。

圖片
圖21

試驗結(jié)果表明,在碼率接近時,NeRF 表達相比傳統(tǒng)的 MIV 在質(zhì)量上有明顯的提升。MIV 項目中的編碼器采用了 H.265 或 H.266 兩種版本,當前工作比 H.265 表現(xiàn)更好,尚未超越 H.266。

圖片
圖22 基于隱式表達的編碼效果

隱式表達還具有一個優(yōu)點,就是生成的圖像合成是自然的。 與傳統(tǒng)的貼圖不同,隱式表達能夠自帶光照屬性和視角變化,其渲染效果更加自然。從渲染的角度來看,NeRF方法比 MIV 的效果更好,甚至比 VVC 的效果更好一些。至于隱式表達在人臉合成上的應(yīng)用,NeRF 也有更好的效果。

最近,MPEG 已經(jīng)開展了一個工作組,專門探索使用 NeRF 進行 6 自由度壓縮的方法及其可行性。這項工作可能需要大約一年的時間,如果證實這個方法具有潛力,將會啟動新一代標準的制定過程。

圖片
圖23 新趨勢:跨模態(tài)編碼

此外,在跨編碼和跨模態(tài)的應(yīng)用方面,近年來已經(jīng)有多種方法在進行研究,一個熱門的研究課題是語義壓縮,不過這里需要與無線通信領(lǐng)域的語義編碼稍作區(qū)分。語義編碼的工作大多使用神經(jīng)網(wǎng)絡(luò)來處理信源部分,而信道部分的處理相對較少。因為語義編碼主要指的是信源,而信道并不涉及語義問題。

圖上這個工作是由北大馬思偉老師團隊去年完成的。這項工作的主要目標是在對一幅圖像進行壓縮時,能夠直接提取出其中的文字。當然,將描述傳輸過去并重新生成圖像時,可能會有一些細節(jié)的損失,導(dǎo)致生成的圖像與原圖不完全一樣。因此,為了保持圖像的結(jié)構(gòu)性,這項工作引入了 Sketch 和 Semantic map 的概念,用于引導(dǎo)圖像的生成。此外,生成圖像的能力本身也是一個重要的工程問題,因為在生成過程中需要盡可能地恢復(fù)原圖的特征。從跨模態(tài)的角度來看,這個工作是有意義的。但是也許可以更直接一些,將這些信息從統(tǒng)一的大模型中提取出來,而不需要進行手工設(shè)計特征。

圖片
圖24 未來:基于大模型的智能跨模態(tài)編碼?

我們有一個大膽的設(shè)想:未來的編碼器可能只需要一個統(tǒng)一的編碼器,不再需要單獨的音頻編碼器和視頻編碼器。目前的多媒體處理流程通常是先處理音頻,再處理視頻,然后將它們合并到一個容器中,最后進行 MUX。對于跨模態(tài)的數(shù)據(jù),它們本身具有天然的對齊性,因此不再需要額外的同步處理。這意味著我們可以構(gòu)建一個統(tǒng)一的編碼器。

這個編碼器中的許多描述信息需要以描述符的形式進行編輯。這些描述信息可能包含人類可理解或不可理解的內(nèi)容,但更像是元數(shù)據(jù)。在此基礎(chǔ)上,大模型也可以是一個增強模型,可以進行預(yù)處理和后處理。統(tǒng)一編碼器 Codec GPT,再加上 Diffusion 的后處理,可以作為一個完整的數(shù)據(jù)表示。

在解碼時,只需要根據(jù)需求提取所需要的模態(tài),不再需要每個模態(tài)單獨的容器。如果只需要視頻,那么可以僅提取視頻部分,或者可以提取其投影版本。如果想看 3D 內(nèi)容,那么可以提取 3D 投影。此外,結(jié)合之前提到的云邊端結(jié)合,這種模型可以部署在邊緣設(shè)備上,用戶可以與之交互并獲得所需內(nèi)容。這有可能變成一種新的數(shù)據(jù)交互形態(tài)。

圖片
圖25 大模型下的碼率和失真

從壓縮的角度來看,大模型還需要研究失真率的問題。

關(guān)于圖像描述的信息量,在大約 12 年前,李飛飛老師提到了一個有趣的例子。我們可以根據(jù)不同的確定性水平進行分類判斷,做出一個永遠不會出錯的識別系統(tǒng)。系統(tǒng)可以將一只鳥的照片時,識別為“Bird”,或者在更高的確定性下識別為 'Small Bird';但如果確定性較低,則可以將其歸類為“Animal”??傊?,我們可以完全用這種方式來描述大模型的工作原理。我們可以不斷地進行追問,將其詳細化,而現(xiàn)在的穩(wěn)定擴散進化速度可能很快就能夠?qū)崿F(xiàn)準確的對應(yīng)關(guān)系。因此,這仍然是一個值得思考的方向。

在壓縮方面,我們不一定只限于視頻,我們可以將大模型作為壓縮對象。以前的 CNN 等模型可以通過減少參數(shù)量、量化和低秩分解等方法來進行輕量化部署。然而,壓縮大模型也存在一個問題,就是模型的組件或者參數(shù)必須是固定的才能進行壓縮。如果前面的組件仍在不斷變化中,那么進行壓縮可能會變得多余。因此,對于大模型的壓縮,目前可能還存在觀望的態(tài)度。但是,如果大模型相對穩(wěn)定下來一段時間,那么肯定還會有進行大模型壓縮的需求。關(guān)于大模型的壓縮方式,是事后進行壓縮,還是在設(shè)計大模型時就考慮壓縮,我們可以觀察到一些模型的體積已經(jīng)大幅減小。例如,它們的尺寸可能減小了 1/10,甚至更多,而性能并不一定下降。這意味著原始模型中可能存在很多冗余。因此,大模型的失真實際上是指其中可能存在的冗余部分。

另一個關(guān)于大模型失真的問題是,模型參數(shù)量與表達能力和生成能力之間的權(quán)衡。一般參數(shù)越多,能力越強。在許多場景中只需要識別出簡單的語義,而為了人類觀看則希望達到更高的準確性。因此,在這里可以找到大模型、失真和碼率之間的平衡點,這是一個非常值得從壓縮的角度研究的課題。

圖片
圖26 大模型在編碼中需要做什么?

有人認為大模型是對知識的粗略的有損壓縮,類似于 JPEG;如果要追求精確性,則模型會非常龐大。確實,模型可以被看作是對世界的一種壓縮表達,我們將全球的數(shù)據(jù)壓縮到一個知識點上。其他的東西實際上都可以看作是這個知識點的泛化,或者說是這個知識點的一種簡化投影,這才是事物的本質(zhì)。數(shù)據(jù)經(jīng)過訓(xùn)練,生成了模型,如果模型的吸收能力很強,那么模型就完全理解了數(shù)據(jù),模型本身就是數(shù)據(jù),就是知識

從這個意義上來看,傳統(tǒng)的編碼方法壓縮的是原始數(shù)據(jù),但原始數(shù)據(jù)從何而來呢?原始數(shù)據(jù)來自于世界,然后我們又用模型對其進行了重構(gòu),發(fā)現(xiàn)重構(gòu)后又得到了一個模型。因此,這可能是同一個過程。也就是說,傳統(tǒng)壓縮和大模型壓縮可能是等效的,所以通過構(gòu)建大模型,我們可能同時解決了壓縮的問題。這是一個邏輯上的推測,不一定成立。

圖片
圖27 編碼與生成

編碼和生成可以被看作是大模型的 encode 和 decode 過程。也就是說解碼過程可能對應(yīng)推理,而編碼則對應(yīng)深度訓(xùn)練。它們有相似之處,也有不同之處。實際上,編碼可以用來預(yù)測新的源分布,因此在進行編碼時,本質(zhì)上是在預(yù)測最大可能性的自然輸出。在更高的視角,在高維空間中進行對齊時,數(shù)據(jù)的某個維度只是一種條件概率或者一個投影,這是一種降維。當然,編碼模型對嵌入也存在一定的約束,這時也可以將嵌入視為類似于超參數(shù),將其引入到 RD 中作為一種約束。

另一方面,如果編碼模型向多模態(tài)發(fā)展,可能并非線性增長的問題,即在一定性能下不再提升。實際上,使用單模態(tài)可能已經(jīng)達到了飽和點。因此,它會帶來很多啟發(fā),也有許多問題需要回答。

03. 多模態(tài)媒體交互

圖片
圖28 多模態(tài)媒體交互
圖片
圖29 Real-Time Communication

過去幾年,特別是去年和前年,RTC(實時通信)是非常熱門的技術(shù)?,F(xiàn)在我們再回過頭看看 RTC 和 AIGC 之間的關(guān)系,會有一些有趣的發(fā)現(xiàn)。

目前我們更多地關(guān)注的是所謂的“2.0”階段。這意味著中間的交互變得比以前更強大,無論是語音游戲、直播、視頻會議還是共同參與元宇宙。暢想一下,當 RTC 與 AIGC 結(jié)合起來,可能會涉及到人工智能的代理人出鏡。在會議中、在購物領(lǐng)域,在數(shù)字人的展示中,我們可能不再是真人在觀看,而是數(shù)字人在觀看,讓代理人參加會議。

這帶來了一個巨大的變革,交互性將變得更強大,交互的頻率和維度也會大大增加。以前的視頻會議中,即使有幾千人參與一個會話,大部分人都是聽眾,只有很少一部分人進行交互。但在與 AIGC 結(jié)合的情況下,如果所有交流都是與 AI 對象進行的,那么交互頻率將是雙向的,非常對等。

圖片
圖30 RTC-3.0-基于云端代理的多模態(tài)交互

在這種新形態(tài)下,傳遞信息的方式可能不再局限于音視頻傳輸,而音視頻傳輸可能不再是一個挑戰(zhàn)。 傳遞信息的都是代理人,是模型與模型在進行對話。在用戶和代理人之間的對話中,代理人只需提供摘要,并不需要每秒 30 幀這樣高的數(shù)據(jù)量。

圖片
圖31 RTC-3.0-基于云端代理的多模態(tài)交互

如果將所有的交互變成代理之間的交互,這就給業(yè)務(wù)場景帶來顛覆,RTC 技術(shù)體系中也會有較大的變化。例如,控制信息會更多,可能只控制參數(shù),而不是數(shù)據(jù)的傳輸。我們現(xiàn)在使用的內(nèi)容中可能已經(jīng)有了很多前向糾錯編碼(FEC)的同步邏輯,但是算法會有大的變化。用戶需要與數(shù)字實體、數(shù)字人的代理進行綁定,而不是僅僅與音視頻傳輸?shù)漠嬞|(zhì)和音質(zhì)變化相綁定。因此,這里將涉及許多值得探討的新課題。

圖片
圖32 RTC-3.0 - RTC架構(gòu):AICU

我們可以將 RTC 和 AI 結(jié)合起來,成為 RTC3.0,以新的“AICU”架構(gòu)代替 RTC 原有的 MCU 和 SF 模式。在 AIGC 時代,當 Agent 之間進行會議時,它們之間的傳輸機制,無論是 P2P、CDN 還是現(xiàn)在的 RTN,都可以有新的發(fā)展,煥發(fā)新的生機。

圖片
圖33 新一代多模態(tài)媒體容器

此外,容器也會有重大變化,多媒體數(shù)據(jù)的標識解析將起到更大的作用。我們現(xiàn)在使用的諸如 HLS 等技術(shù),不同模態(tài)在不同的通道保存。在未來,容器中的數(shù)據(jù)可能只是一些源數(shù)據(jù)、控制指令和腳本。這種新的視頻內(nèi)容會與游戲領(lǐng)域的一些技術(shù)相結(jié)合,如果大家關(guān)注游戲的話,肯定知道 Meta 正在推動的開放 USD 格式。這個文件很可能為我們提供一個機會,將這種新型視頻內(nèi)容與文件容器進行融合。容器中可以包含腳本,這些腳本可以驅(qū)動、運行,也可以通過 prompt 生成或替換。這才能真正實現(xiàn)交互時代的內(nèi)容。以前這些東西都是流媒體思維的產(chǎn)物,流媒體的思路并沒有改變過。但如果要變成交互類型的內(nèi)容,所有這些東西都需要重構(gòu)。

圖34

附上演講視頻:


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    五月综合激情婷婷丁香| 国产精品亚洲一级av第二区| 老富婆找帅哥按摩抠逼视频| 亚洲欧美日韩国产成人| 日本高清不卡在线一区| 国产乱淫av一区二区三区| 国产亚洲欧美另类久久久| 中国一区二区三区人妻| 久久精品蜜桃一区二区av| 午夜视频成人在线免费| 好东西一起分享老鸭窝| 欧美日韩欧美国产另类| 日韩一区二区三区嘿嘿| 中文字幕人妻日本一区二区 | 国产又黄又猛又粗又爽的片| 午夜福利激情性生活免费视频| 不卡视频免费一区二区三区| 2019年国产最新视频| 国产精品激情在线观看| 久久精品国产在热亚洲| 在线亚洲成人中文字幕高清| 极品少妇一区二区三区精品视频| 小黄片大全欧美一区二区| 黑丝国产精品一区二区| 日韩三级黄色大片免费观看 | 中文字幕欧美精品人妻一区| 五月天六月激情联盟网| 在线观看视频日韩精品| 国内女人精品一区二区三区| 开心激情网 激情五月天| 国产91麻豆精品成人区| 成人精品欧美一级乱黄| 国产亚州欧美一区二区| 国产一级内射麻豆91| 中文字幕91在线观看| 日韩欧美中文字幕人妻| 国产专区亚洲专区久久| 日韩特级黄片免费观看| 日韩精品视频香蕉视频| 中国少妇精品偷拍视频| 午夜精品一区二区av|