LVS2023 | 從 AIGC 到 MMLM

高觀點篤者 2023-08-31 發(fā)布于新西蘭

展開全文

來源：LiveVideoStackCon 2023
主講人：宋利
內(nèi)容整理：馮冬輝
最近 AIGC 技術(shù)備受關(guān)注，該技術(shù)實現(xiàn)了從文本模態(tài)到圖像模態(tài)的高效轉(zhuǎn)換，能夠利用文本提示詞生成出專業(yè)水準的圖像或視頻。這一技術(shù)的商業(yè)落地正在逐漸改變著我們的內(nèi)容生產(chǎn)和消費方式。與此同時，學(xué)術(shù)界和行業(yè)界的前沿正在積極探索多模態(tài)大模型，甚至將其推進到了十二種模態(tài)之間的對齊與生成。在最近舉辦的 LiveVideoStackCon 2023（上海，7月28-29日）大會上，上海交通大學(xué)的宋利老師發(fā)表了一場關(guān)于多模態(tài)媒體大模型的全景與展望的精彩演講。他詳細探討了這一系列技術(shù)將會如何改變我們的多媒體鏈條，包括生成、編碼和交互方面的進展、前景和挑戰(zhàn)。這場演講向我們展示了多媒體領(lǐng)域一個令人激動的未來方向。

多模態(tài)媒體大模型概覽
01. 多模態(tài)媒體生成
02. 多模態(tài)媒體編碼
03. 多模態(tài)媒體交互

多模態(tài)媒體大模型概覽

媒體行業(yè)增速放緩，而 AIGC 技術(shù)的商業(yè)落地備受矚目，文本到圖像的模態(tài)生生成技術(shù)有望改變我們的內(nèi)容生產(chǎn)和消費方式，帶給行業(yè)新的想象空間。同時，學(xué)術(shù)界和行業(yè)界正在積極研究多模態(tài)大模型，實現(xiàn)多種模態(tài)的對齊和生成。我們判斷，多模態(tài)媒體大模型將是行業(yè)的重要技術(shù)基礎(chǔ)設(shè)施，給內(nèi)容的生成、編碼、交互帶來全新的變革。

根據(jù)目前的研究態(tài)勢，我們給出如下的多模態(tài)媒體大模型體系框架，實現(xiàn)文本、圖像、視頻、音頻、3D、傳感器、驅(qū)動器等模態(tài)的輸入、推理和生成?？蚣軐⒄Z言大模型作為邏輯推理的中心，將不同模態(tài)的數(shù)據(jù)變?yōu)橐粋€整體的張量作為輸入，經(jīng)過大模型推理后，輸出的張量再還原到目標模態(tài)，從而使大模型成為一個具有推理和思考能力的高級操作系統(tǒng)。

這其中有一些要點：

表示（Representation）：多模態(tài)媒體大模型需要能夠有效地表示和處理不同模態(tài)的媒體數(shù)據(jù)，例如文本、圖像、視頻、音頻、3D 等。對于每種模態(tài)，需要選擇適當?shù)谋硎痉椒?，以便在模型中進行進一步的處理和分析。例如，對于圖像，可以使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取特征，對于文本，可以使用詞嵌入或者序列模型來表示。
對齊（Alignment）：在多模態(tài)數(shù)據(jù)中，模態(tài)之間可能存在相關(guān)性和對應(yīng)關(guān)系。對齊是指將不同模態(tài)的數(shù)據(jù)進行匹配和關(guān)聯(lián)，以便模型可以理解它們之間的關(guān)系。例如，可以使用注意力機制（Attention）來對齊文本和圖像之間的語義對應(yīng)關(guān)系。
推理（Inference）：多模態(tài)媒體大模型需要具備推理能力，即能夠分析和理解輸入數(shù)據(jù)，并從中提取有用的信息。推理可以利用語言邏輯，具備一定的泛化能力。通過將不同模態(tài)的數(shù)據(jù)結(jié)合起來進行推理，模型可以獲得更全面和豐富的理解。目前通用的方式是利用預(yù)訓(xùn)練語言大模型進行推理任務(wù)。
生成（Generation）：多模態(tài)媒體大模型也可以用于生成新的多模態(tài)數(shù)據(jù)。例如，可以通過給定一段文本描述來生成對應(yīng)的圖像或視頻，或者通過給定一段音頻生成對應(yīng)的文本。我們可以對推理輸出的中間表示進行解碼，輸出需要的模態(tài)。
評價（Evaluation）：對于多模態(tài)媒體大模型，評價是一個重要的環(huán)節(jié)，用于度量模型輸出的質(zhì)量和性能。評價可以包括主觀評估和客觀評估。主觀評估可以通過人工評價來衡量生成結(jié)果的質(zhì)量，客觀評估可以使用各種指標和度量來評估模型的性能，例如生成的多樣性，音視頻的質(zhì)量等。
編碼（Encoding）：不同于數(shù)據(jù)表示中的嵌入概念，這里特指數(shù)據(jù)的壓縮編碼。在多模態(tài)媒體大模型中，數(shù)據(jù)的編碼是指對于任何模態(tài)的信息或者中間嵌入轉(zhuǎn)換為空間緊湊的數(shù)據(jù)流。對于文本、音視頻等傳統(tǒng)模態(tài)，已有成熟的編碼標準，對于 3D 模態(tài)，各種技術(shù)路徑還未收斂。同時，業(yè)界也在積極探索跨模態(tài)編碼、嵌入信息編碼和神經(jīng)網(wǎng)絡(luò)編碼。
交互（Interaction）：多模態(tài)媒體大模型可以支持人與模型的交互、模型與模型的交互，甚至人與人之間的交互由模型的交互來代理，這將形成一個模型的生態(tài)圈。這包括接收用戶輸入的多模態(tài)數(shù)據(jù)，并根據(jù)用戶的需求進行推理和生成。交互也可以涉及模型與其他系統(tǒng)的協(xié)作，例如與傳感器和驅(qū)動器交互，甚至實現(xiàn)廣義人工智能 AGI。

接下來，我們將從其中的生成、編碼、交互三個維度來展開介紹。

01. 多模態(tài)媒體生成

對于內(nèi)容生成的討論上，去年元宇宙的話題備受關(guān)注，今年則是大模型搶了風(fēng)頭。但實際上，AIGC 將大模型與元宇宙之間建立了一個很好的橋梁。當我們強調(diào)元宇宙時，更注重的是用戶體驗和帶入人類的因素。而大模型則更注重于工具和賦能。這兩個方面應(yīng)該是相互補充的，形成一個整體，既包括生產(chǎn)力也包括用戶體驗。

紅杉資本的這張圖展示了 AIGC 基礎(chǔ)模型的發(fā)展態(tài)勢，目前普遍認為我們處于發(fā)展的中間階段，后面的預(yù)期都打著問號，表示未來的發(fā)展路徑可能存在不確定性，時間上可能會更快或更慢。有些事情可能比我們想象的簡單，有些則可能更復(fù)雜。然而，我個人認為，各大頭部公司和創(chuàng)業(yè)企業(yè)已經(jīng)涌入這個領(lǐng)域，投入了大量的智力和資源，這將加速發(fā)展進程。

從 AIGC 和模態(tài)的角度來看，我們可以觀察到模型的發(fā)展呈現(xiàn)出三個階段。最初階段是單模態(tài)模型，像 GPT 這樣的模型在這個階段起到了代表性的作用。

隨后，在 2021 年和 2022 年，雙模態(tài)模型開始大量涌現(xiàn)。其中一個代表性的應(yīng)用是文生圖、文生視頻，它結(jié)合了文本和視頻等多種模態(tài)。這里面有一個關(guān)鍵的部分，就是對齊（alignment），也就是將不同模態(tài)的數(shù)據(jù)以最自然的語言表達進行對齊。這種對齊是基于語言的，也是維特根斯坦所說的語言是思維的邊界。因此，從文本到其他模態(tài)的轉(zhuǎn)換都是非常自然的。

在去年年底到今年初，我們已經(jīng)看到多模態(tài)模型開始爆發(fā)。在這個階段，有兩個主要趨勢，一個是自然擴展，另一個是深度擴展。目前，我們已經(jīng)看到模型中有六種模態(tài)，甚至有一些模型擁有十二種模態(tài)。然而，核心仍然是以文本為基礎(chǔ)的，從文本轉(zhuǎn)換到各種模態(tài)，再進行對齊。我們可以預(yù)期未來的發(fā)展將更加多樣化，并且更多地涉及多模態(tài)的應(yīng)用。

目前，雙模態(tài)應(yīng)用的落地較多，而多模態(tài)應(yīng)用仍處于早期階段。為什么多模態(tài)會是一種必然呢？

首先，多模態(tài)提供了對維度的自然擴展，使得模型可以更全面地理解和處理不同模態(tài)的數(shù)據(jù)。

其次，我們注意到數(shù)據(jù)收集的跨模態(tài)特性。在構(gòu)建大型模型時，高質(zhì)量的數(shù)據(jù)是一個重要的瓶頸。多模態(tài)數(shù)據(jù)在跨模態(tài)的收集方面已經(jīng)取得了一些進展。盡管在幾年前這樣的數(shù)據(jù)集非常有限，只有少數(shù)幾家公司在進行相關(guān)工作，而且最自然的跨模態(tài)數(shù)據(jù)集是文本和圖像之間的轉(zhuǎn)換。例如，聲音和 3D 或傳感器數(shù)據(jù)之間的轉(zhuǎn)換，這些數(shù)據(jù)量非常有限，缺乏相應(yīng)的數(shù)據(jù)集。然而，現(xiàn)在我們已經(jīng)開始構(gòu)建這樣的數(shù)據(jù)集，包括一些大公司也在進行相關(guān)研究，它們也在開始進行模態(tài)融合。

最后，從研究和學(xué)術(shù)角度來看。人類認知本身就是天然的多模態(tài)過程。如果我們?nèi)斯ぶ悄艿拇竽Ｐ鸵ケ平祟愔悄艿脑?，尤其是從感知到認知的角度，走向多模態(tài)是符合自然規(guī)律的。代表性的例子之一是 Meta 的 'image-bind'，它融合了六種模態(tài)，并且是開源的，取得了一定的效果。雖然跳出給定的數(shù)據(jù)集進行評估時可能并不理想，但至少他們?yōu)檫@個領(lǐng)域開辟了一條道路。

那么如何實現(xiàn)多模態(tài) AIGC 大模型？

首先，數(shù)據(jù)是最關(guān)鍵的因素。當前，所有大型模型之間的共識是，數(shù)據(jù)對于多模態(tài)模型的成功至關(guān)重要。最近的一次采訪中，包括 OpenAI 的領(lǐng)導(dǎo)人和創(chuàng)始人在內(nèi)，被問及中國是否能夠超越其他國家的技術(shù)實力。他們的基本觀點是，首先你需要擁有大規(guī)模且高質(zhì)量的數(shù)據(jù)才有意義。僅僅擁有大規(guī)模的數(shù)據(jù)是不夠的，數(shù)據(jù)質(zhì)量同樣至關(guān)重要。在多模態(tài)領(lǐng)域，這一點更加顯著，因為如果維度增加，數(shù)據(jù)很容易變得非常稀疏。因此，對于擬合模型而言，這帶來了更大的挑戰(zhàn)。目前，有多種方法可以處理數(shù)據(jù)。例如，在無人駕駛領(lǐng)域，將仿真數(shù)據(jù)與真實數(shù)據(jù)結(jié)合使用可以在一定程度上彌補多模態(tài)數(shù)據(jù)的缺失問題。

其次，關(guān)于模型本身，人們普遍認為多模態(tài)模型的參數(shù)應(yīng)該更多、規(guī)模更大。然而，目前的研究結(jié)果表明，視覺模型和其他模態(tài)模型，并沒有像語言模型那樣，在參數(shù)量上展示出更高的維度。這里面可能有一個語義對齊的問題，即語義空間和信號空間可能不同。多模態(tài)的數(shù)據(jù)在信號空間上可能具有更大的維度；然而在語義空間中，語言模態(tài)可能具有更高的有效維度或內(nèi)在維度。因此，模型設(shè)計仍然是一個巨大的挑戰(zhàn)。除了當前以語言為核心的大型模型，現(xiàn)在還有一些人在探索模擬人腦智能，當然都還處于初級階段。

最后，關(guān)于功能方面，學(xué)術(shù)界和工業(yè)界開始提出一個新概念，即具身智能。這意味著模型需要與環(huán)境進行感知，并在決策和學(xué)習(xí)之間形成一個與環(huán)境和數(shù)據(jù)進行循環(huán)交互的大循環(huán)。因此，多模態(tài)的具身智能模型可能是一個有潛力的應(yīng)用方向。

目前在圖像領(lǐng)域主要采用的是擴散（diffusion）技術(shù)，但實際上在擴散之前也有生成網(wǎng)絡(luò) GAN 等其他成功的技術(shù)。如果我們仔細觀察，生成對抗網(wǎng)絡(luò)（GAN）并沒有消失，最近還出現(xiàn)了一個很有潛力的工具，叫做 DragGAN。實際上，GAN 在操控性方面至少在當前階段比擴散方法更好。然而，GAN 的可控性仍有挑戰(zhàn)，尤其是在生成高質(zhì)量圖像和語音時與 diffusion 有不少差距。所以大多數(shù)人都在擴散方法的賽道上，但仍有一部分人繼續(xù)深入研究 GAN，包括在生成三維圖像方面，GAN 仍然具有一定的優(yōu)勢。

圖像生成方面有很多工作正在進行。這里簡單介紹一下我們今年的一個工作，給定一個布局圖，和一段 prompt 提示詞來生成圖像?？梢愿鼡Q其中的元素或詞語，這樣就可以實現(xiàn)一種可控性的表達方式。這種方法可以與直接生成圖像相比，提供更多的控制。在控制方面也有多種方法，比如布局圖，輪廓線或是參考圖。對此感興趣的同事可以參閱我們發(fā)表的論文。

在視頻創(chuàng)作方面，已經(jīng)有 Runway 等幾家公司在這個領(lǐng)域取得了突破，一些投資公司對這個領(lǐng)域比較看好，國內(nèi)也可以有類似的公司出現(xiàn)。與文生圖相比，文生視頻仍然存在一些擴展性和通用性的差距，我認為這個差距至少還需要一到兩年的時間來彌補。生成效果上，后者的水平大約相當于前者兩年前的水平，這包括生成圖像的質(zhì)量和抖動性等方面。目前主要以生成短視頻為主，生成長視頻時，一般是通過合成短視頻并添加滑動窗口等工程技術(shù)來實現(xiàn)。就原理性技術(shù)而言，并沒有突破 'stable diffusion' 框架，即以 CLIP 和 transform 為基礎(chǔ)加上擴散技術(shù)的框架。

除了視頻，人們也自然而然地關(guān)注到了三維圖像生成。在某種程度上，文本到三維生成比文本到視頻生成更成熟。當然，生成復(fù)雜的建筑模型（如天安門廣場）比較困難，但是生成一只貓、一只狗等小物件的效果是可行的，至少可以幫助動畫師快速創(chuàng)建初始模型，進一步的編輯也變得更加容易。因此，目前對于三維圖像生成這個領(lǐng)域的關(guān)注度也相對較高。雖然今年的論文也有開始做 3D diffusion 的，但是現(xiàn)在可控性更強的還是以 GAN 為基礎(chǔ)的生成技術(shù)。

目前，數(shù)字人是最近最受關(guān)注和應(yīng)用最廣泛的領(lǐng)域之一。去年元宇宙的興起使得數(shù)字人成為了熱門話題，因為數(shù)字人被稱為進入元宇宙的入口。因此，各個公司都高度關(guān)注數(shù)字人，市場上已經(jīng)有數(shù)百家數(shù)字人公司或團隊，學(xué)校也在進行相關(guān)研究。

我們早在一年前就開始研究數(shù)字人，并取得了一定的領(lǐng)先。其中嘴型對齊是一個最具挑戰(zhàn)性的問題，今年大家基本上都解決了這個問題。所以說，領(lǐng)域的進展程度是可見的，只要你敢于展示你的成果，很快就會被接受和認可。我們的工作早期就已經(jīng)在學(xué)術(shù)論壇上進行了討論，所以引起了一些關(guān)注，包括一些創(chuàng)業(yè)公司聯(lián)系我們，希望我們參加他們的創(chuàng)業(yè)賽道，這可能對其他人也有一些啟發(fā)。

去年，參加世界人工智能大會的時候，有一個對嘴型的競賽，重點是給定一個平均模型，大家使用各自的模型進行對齊。因此，一些項目更注重驅(qū)動模型而不是仿真人。我們?nèi)ツ暌矃⒓恿诉@個競賽，在這方面取得了一些進展。

交互是最困難的部分。如 DEMO 所示，我們也初步嘗試了與 GPT 模型的交互，不過這里的視頻處理了一下延遲。實時交互的核心問題是延遲。從問題到 GPT 的回答之間會有接近兩秒的延遲，然后 TTS 合成也需要大約一秒的延遲，再將文字轉(zhuǎn)化為視頻，一般會緩沖 30-50 個字，所以延遲也會有幾秒鐘?？傮w來說，現(xiàn)在的延遲已經(jīng)接近六七秒了。我們預(yù)計通過工程的方法可以將延遲減少到 3 秒左右，但要進一步減少目前串行交互是不行的，我們還沒有找到解決這個問題的方法。

直播的延遲可以消隱，但是實時交互則比較困難。我認為下一步或者近期的重點是將實時通信（RTC）與這個技術(shù)結(jié)合起來，即進行具有可見參與者的強交互對話，這是一個比較大的挑戰(zhàn)。

在這方面，我們有幾個小的思考。

首先，關(guān)于多模態(tài)，目前我們主要以 GPT 為中心，但這是否是最佳方式？是否還有其他路徑或方法？這個問題還沒有清晰的答案。

其次，很多人在問，當GPT作家讀完了所有的書該怎么辦呢？意思是說模型是否已經(jīng)達到了信息飽和的狀態(tài)。對于多模態(tài)的大型模型，是否會出現(xiàn)卷到天花板的情況？它的增長速度會很快嗎？大家都在探索這個問題。當然，我要提醒的是，我們這里默認的假設(shè)都是基于多模態(tài)，每個公司都有自己的多模態(tài)模型，或者是一個超大規(guī)模的多模態(tài)模型。如果將多模態(tài)模型視為人一樣的話，個體的能力是有限的。而所有人的能力加起來可能不僅僅是模型本身的能力，還可能涉及到其他社會智能的涌現(xiàn)。這方面可能還比較早，所以從這個意義上來說，目前的智能還是以單個人為中心。當然，這個人學(xué)習(xí)了很多知識，但實際上還有很多其他智能，比如社交智能，在這種大型模型中還沒有得到充分展現(xiàn)。

最后，目前初步看來說多模態(tài)的能力其實不如這個用單一模型在做，這個模型在做所有東西的對齊，這個路徑其實也是值得探索的。

02. 多模態(tài)媒體編碼

從媒體表達形式的角度來看，過去幾年主要關(guān)注的是從 360 度視頻到點云，特別是在最近兩年的元宇宙浪潮中，以視頻為中心的體積視頻成為了熱門話題。

MPEG 在 2021 年底啟動了 MIV（Moving Immersive Video）項目，并在去年底發(fā)布，主要關(guān)注的是對體積視頻的編碼。MPEG 下一步開始關(guān)注類似 AIGC 或NeRF（Neural Radiance Fields）這種神經(jīng)表達技術(shù)，這個領(lǐng)域正處于一個新舊轉(zhuǎn)換的時期。內(nèi)容的未來發(fā)展將肯定是朝向真正的 3D 表達，而如何進行 3D 表達的壓縮是一個重要的課題。

隱式表達可以作為一種緊湊的多視圖表達方式，它并不一定源自圖形學(xué)，但它本身對于多視圖具有緊湊的表示能力。自然地，這種表達方式也可以用于呈現(xiàn)和壓縮。

我們的這篇工作中使用常規(guī)編碼方法對主視角進行編碼，而使用隱式表達方法對其他系數(shù)視角進行壓縮。這種方法與使用神經(jīng)網(wǎng)絡(luò)進行圖像壓縮的本質(zhì)相同，但我們在此過程中壓縮的是坐標、坐標轉(zhuǎn)換以及視角之間的預(yù)測，通過這種方式實現(xiàn)了模型參數(shù)之間的映射。通過將所有這些內(nèi)容放入一個隱式表達函數(shù)中，我們可以在進行解壓縮時重新投影出選定的連續(xù)視角。因此，在某種程度上，我們將稀疏的數(shù)據(jù)轉(zhuǎn)化為連續(xù)函數(shù)，并在其上進行采樣。

我們還探索了 3D 人臉編碼，將其轉(zhuǎn)化為隱式表達后，實現(xiàn)超低碼率壓縮。

試驗結(jié)果表明，在碼率接近時，NeRF 表達相比傳統(tǒng)的 MIV 在質(zhì)量上有明顯的提升。MIV 項目中的編碼器采用了 H.265 或 H.266 兩種版本，當前工作比 H.265 表現(xiàn)更好，尚未超越 H.266。

隱式表達還具有一個優(yōu)點，就是生成的圖像合成是自然的。 與傳統(tǒng)的貼圖不同，隱式表達能夠自帶光照屬性和視角變化，其渲染效果更加自然。從渲染的角度來看，NeRF方法比 MIV 的效果更好，甚至比 VVC 的效果更好一些。至于隱式表達在人臉合成上的應(yīng)用，NeRF 也有更好的效果。

最近，MPEG 已經(jīng)開展了一個工作組，專門探索使用 NeRF 進行 6 自由度壓縮的方法及其可行性。這項工作可能需要大約一年的時間，如果證實這個方法具有潛力，將會啟動新一代標準的制定過程。

此外，在跨編碼和跨模態(tài)的應(yīng)用方面，近年來已經(jīng)有多種方法在進行研究，一個熱門的研究課題是語義壓縮，不過這里需要與無線通信領(lǐng)域的語義編碼稍作區(qū)分。語義編碼的工作大多使用神經(jīng)網(wǎng)絡(luò)來處理信源部分，而信道部分的處理相對較少。因為語義編碼主要指的是信源，而信道并不涉及語義問題。

圖上這個工作是由北大馬思偉老師團隊去年完成的。這項工作的主要目標是在對一幅圖像進行壓縮時，能夠直接提取出其中的文字。當然，將描述傳輸過去并重新生成圖像時，可能會有一些細節(jié)的損失，導(dǎo)致生成的圖像與原圖不完全一樣。因此，為了保持圖像的結(jié)構(gòu)性，這項工作引入了 Sketch 和 Semantic map 的概念，用于引導(dǎo)圖像的生成。此外，生成圖像的能力本身也是一個重要的工程問題，因為在生成過程中需要盡可能地恢復(fù)原圖的特征。從跨模態(tài)的角度來看，這個工作是有意義的。但是也許可以更直接一些，將這些信息從統(tǒng)一的大模型中提取出來，而不需要進行手工設(shè)計特征。

我們有一個大膽的設(shè)想：未來的編碼器可能只需要一個統(tǒng)一的編碼器，不再需要單獨的音頻編碼器和視頻編碼器。目前的多媒體處理流程通常是先處理音頻，再處理視頻，然后將它們合并到一個容器中，最后進行 MUX。對于跨模態(tài)的數(shù)據(jù)，它們本身具有天然的對齊性，因此不再需要額外的同步處理。這意味著我們可以構(gòu)建一個統(tǒng)一的編碼器。

這個編碼器中的許多描述信息需要以描述符的形式進行編輯。這些描述信息可能包含人類可理解或不可理解的內(nèi)容，但更像是元數(shù)據(jù)。在此基礎(chǔ)上，大模型也可以是一個增強模型，可以進行預(yù)處理和后處理。統(tǒng)一編碼器 Codec GPT，再加上 Diffusion 的后處理，可以作為一個完整的數(shù)據(jù)表示。

在解碼時，只需要根據(jù)需求提取所需要的模態(tài)，不再需要每個模態(tài)單獨的容器。如果只需要視頻，那么可以僅提取視頻部分，或者可以提取其投影版本。如果想看 3D 內(nèi)容，那么可以提取 3D 投影。此外，結(jié)合之前提到的云邊端結(jié)合，這種模型可以部署在邊緣設(shè)備上，用戶可以與之交互并獲得所需內(nèi)容。這有可能變成一種新的數(shù)據(jù)交互形態(tài)。

從壓縮的角度來看，大模型還需要研究失真率的問題。

關(guān)于圖像描述的信息量，在大約 12 年前，李飛飛老師提到了一個有趣的例子。我們可以根據(jù)不同的確定性水平進行分類判斷，做出一個永遠不會出錯的識別系統(tǒng)。系統(tǒng)可以將一只鳥的照片時，識別為“Bird”，或者在更高的確定性下識別為 'Small Bird'；但如果確定性較低，則可以將其歸類為“Animal”?？傊?，我們可以完全用這種方式來描述大模型的工作原理。我們可以不斷地進行追問，將其詳細化，而現(xiàn)在的穩(wěn)定擴散進化速度可能很快就能夠?qū)崿F(xiàn)準確的對應(yīng)關(guān)系。因此，這仍然是一個值得思考的方向。

在壓縮方面，我們不一定只限于視頻，我們可以將大模型作為壓縮對象。以前的 CNN 等模型可以通過減少參數(shù)量、量化和低秩分解等方法來進行輕量化部署。然而，壓縮大模型也存在一個問題，就是模型的組件或者參數(shù)必須是固定的才能進行壓縮。如果前面的組件仍在不斷變化中，那么進行壓縮可能會變得多余。因此，對于大模型的壓縮，目前可能還存在觀望的態(tài)度。但是，如果大模型相對穩(wěn)定下來一段時間，那么肯定還會有進行大模型壓縮的需求。關(guān)于大模型的壓縮方式，是事后進行壓縮，還是在設(shè)計大模型時就考慮壓縮，我們可以觀察到一些模型的體積已經(jīng)大幅減小。例如，它們的尺寸可能減小了 1/10，甚至更多，而性能并不一定下降。這意味著原始模型中可能存在很多冗余。因此，大模型的失真實際上是指其中可能存在的冗余部分。

另一個關(guān)于大模型失真的問題是，模型參數(shù)量與表達能力和生成能力之間的權(quán)衡。一般參數(shù)越多，能力越強。在許多場景中只需要識別出簡單的語義，而為了人類觀看則希望達到更高的準確性。因此，在這里可以找到大模型、失真和碼率之間的平衡點，這是一個非常值得從壓縮的角度研究的課題。

有人認為大模型是對知識的粗略的有損壓縮，類似于 JPEG；如果要追求精確性，則模型會非常龐大。確實，模型可以被看作是對世界的一種壓縮表達，我們將全球的數(shù)據(jù)壓縮到一個知識點上。其他的東西實際上都可以看作是這個知識點的泛化，或者說是這個知識點的一種簡化投影，這才是事物的本質(zhì)。數(shù)據(jù)經(jīng)過訓(xùn)練，生成了模型，如果模型的吸收能力很強，那么模型就完全理解了數(shù)據(jù)，模型本身就是數(shù)據(jù)，就是知識。

從這個意義上來看，傳統(tǒng)的編碼方法壓縮的是原始數(shù)據(jù)，但原始數(shù)據(jù)從何而來呢？原始數(shù)據(jù)來自于世界，然后我們又用模型對其進行了重構(gòu)，發(fā)現(xiàn)重構(gòu)后又得到了一個模型。因此，這可能是同一個過程。也就是說，傳統(tǒng)壓縮和大模型壓縮可能是等效的，所以通過構(gòu)建大模型，我們可能同時解決了壓縮的問題。這是一個邏輯上的推測，不一定成立。

編碼和生成可以被看作是大模型的 encode 和 decode 過程。也就是說解碼過程可能對應(yīng)推理，而編碼則對應(yīng)深度訓(xùn)練。它們有相似之處，也有不同之處。實際上，編碼可以用來預(yù)測新的源分布，因此在進行編碼時，本質(zhì)上是在預(yù)測最大可能性的自然輸出。在更高的視角，在高維空間中進行對齊時，數(shù)據(jù)的某個維度只是一種條件概率或者一個投影，這是一種降維。當然，編碼模型對嵌入也存在一定的約束，這時也可以將嵌入視為類似于超參數(shù)，將其引入到 RD 中作為一種約束。

另一方面，如果編碼模型向多模態(tài)發(fā)展，可能并非線性增長的問題，即在一定性能下不再提升。實際上，使用單模態(tài)可能已經(jīng)達到了飽和點。因此，它會帶來很多啟發(fā)，也有許多問題需要回答。

03. 多模態(tài)媒體交互

過去幾年，特別是去年和前年，RTC（實時通信）是非常熱門的技術(shù)?，F(xiàn)在我們再回過頭看看 RTC 和 AIGC 之間的關(guān)系，會有一些有趣的發(fā)現(xiàn)。

目前我們更多地關(guān)注的是所謂的“2.0”階段。這意味著中間的交互變得比以前更強大，無論是語音游戲、直播、視頻會議還是共同參與元宇宙。暢想一下，當 RTC 與 AIGC 結(jié)合起來，可能會涉及到人工智能的代理人出鏡。在會議中、在購物領(lǐng)域，在數(shù)字人的展示中，我們可能不再是真人在觀看，而是數(shù)字人在觀看，讓代理人參加會議。

這帶來了一個巨大的變革，交互性將變得更強大，交互的頻率和維度也會大大增加。以前的視頻會議中，即使有幾千人參與一個會話，大部分人都是聽眾，只有很少一部分人進行交互。但在與 AIGC 結(jié)合的情況下，如果所有交流都是與 AI 對象進行的，那么交互頻率將是雙向的，非常對等。

在這種新形態(tài)下,傳遞信息的方式可能不再局限于音視頻傳輸，而音視頻傳輸可能不再是一個挑戰(zhàn)。 傳遞信息的都是代理人，是模型與模型在進行對話。在用戶和代理人之間的對話中，代理人只需提供摘要，并不需要每秒 30 幀這樣高的數(shù)據(jù)量。

如果將所有的交互變成代理之間的交互，這就給業(yè)務(wù)場景帶來顛覆，RTC 技術(shù)體系中也會有較大的變化。例如，控制信息會更多，可能只控制參數(shù)，而不是數(shù)據(jù)的傳輸。我們現(xiàn)在使用的內(nèi)容中可能已經(jīng)有了很多前向糾錯編碼（FEC）的同步邏輯，但是算法會有大的變化。用戶需要與數(shù)字實體、數(shù)字人的代理進行綁定，而不是僅僅與音視頻傳輸?shù)漠嬞|(zhì)和音質(zhì)變化相綁定。因此，這里將涉及許多值得探討的新課題。

我們可以將 RTC 和 AI 結(jié)合起來，成為 RTC3.0，以新的“AICU”架構(gòu)代替 RTC 原有的 MCU 和 SF 模式。在 AIGC 時代，當 Agent 之間進行會議時，它們之間的傳輸機制，無論是 P2P、CDN 還是現(xiàn)在的 RTN，都可以有新的發(fā)展，煥發(fā)新的生機。

此外，容器也會有重大變化，多媒體數(shù)據(jù)的標識解析將起到更大的作用。我們現(xiàn)在使用的諸如 HLS 等技術(shù)，不同模態(tài)在不同的通道保存。在未來，容器中的數(shù)據(jù)可能只是一些源數(shù)據(jù)、控制指令和腳本。這種新的視頻內(nèi)容會與游戲領(lǐng)域的一些技術(shù)相結(jié)合，如果大家關(guān)注游戲的話，肯定知道 Meta 正在推動的開放 USD 格式。這個文件很可能為我們提供一個機會，將這種新型視頻內(nèi)容與文件容器進行融合。容器中可以包含腳本，這些腳本可以驅(qū)動、運行，也可以通過 prompt 生成或替換。這才能真正實現(xiàn)交互時代的內(nèi)容。以前這些東西都是流媒體思維的產(chǎn)物，流媒體的思路并沒有改變過。但如果要變成交互類型的內(nèi)容，所有這些東西都需要重構(gòu)。

圖34

附上演講視頻：