專訪月之暗面楊植麟：lossless long context is everything

從未名湖畔 2024-02-19 發(fā)布于廣東

展開全文

采訪：天一、penny、guangmi

編輯：天一

排版：Scout

Lossless long context is everything。這是我們跟楊植麟聊完兩個(gè)小時(shí)后記憶最深刻的一個(gè)觀點(diǎn)。

這個(gè)技術(shù)判斷在 23 年 10 月已經(jīng)被傳遞出來，當(dāng)時(shí)楊植麟創(chuàng)立的月之暗面發(fā)布了首個(gè)模型 moonshot 和智能助手 Kimi，支持 20 萬字的輸入。做“長”是因?yàn)闂钪谗肱袛?AI-Native 產(chǎn)品的終極價(jià)值是提供個(gè)性化的交互，而 lossless long-context 是實(shí)現(xiàn)這一點(diǎn)的基礎(chǔ) —— 模型的微調(diào)長期不應(yīng)該存在，用戶跟模型的交互歷史就是最好的個(gè)性化過程，歷史上每一代技術(shù)都是在提升 context length。

楊植麟身上的標(biāo)簽有天才 AI 科學(xué)家、連續(xù)創(chuàng)業(yè)者……在這次深度訪談中，他再次證明自己是個(gè)真正“懂”大模型的創(chuàng)業(yè)者，所以本文中有許多反共識(shí)的觀點(diǎn)：楊植麟覺得微調(diào)最終會(huì)不存在，tokenizer 最后也不一定是必須的；硅谷大模型訓(xùn)練者們擔(dān)心數(shù)據(jù)瓶頸和能源限制，他反而覺得所有問題都是互相關(guān)聯(lián)的，多模態(tài)可以緩解數(shù)據(jù)短缺，合成數(shù)據(jù)則可以通過改變計(jì)算范式解決能源問題。

本文還試圖回答另一個(gè)外界普遍關(guān)心的問題：一家新創(chuàng)立的 AGI 公司如何超越 OpenAI？楊植麟的答案是 tech vision，一號(hào)位要能做出技術(shù)判斷，同時(shí)還能拍板執(zhí)行。一個(gè)具體的例子是，月之暗面希望比 OpenAI 更關(guān)心用戶，原因是楊植麟判斷用戶數(shù)據(jù)的 scale up 的效果最終會(huì)超越 base model 自身。

楊植麟對于用 transformer 這個(gè)概率模型的思想基礎(chǔ)走向 AGI 也很有信心，用他的話說“如果你有 10 億的 context length，今天看到的問題都不是問題”。

01.

AGI：AI 本質(zhì)就是一堆 scaling law

海外獨(dú)角獸：我們把 LLM 的訓(xùn)練比作登月，月之暗面的名字也和登月相關(guān)。你怎么看現(xiàn)在創(chuàng)業(yè)公司的 LLM 訓(xùn)練，在 GPU 和算力資源有限的條件下，還能實(shí)現(xiàn)登月嗎？

楊植麟：“登月”有幾個(gè)不同的生產(chǎn)要素，算力肯定是一個(gè)核心，但還有其他的。

你需要一個(gè)同時(shí)滿足 scalability 和 generality 這兩點(diǎn)的架構(gòu)，但今天其實(shí)很多架構(gòu)已經(jīng)不滿足這兩條了。transformer 在已知的 token space 符合這兩條，但放大到一個(gè)更通用的場景，也不太符合。數(shù)據(jù)也是一個(gè)生產(chǎn)要素，包括整個(gè)世界的數(shù)字化，和來自用戶的數(shù)據(jù)。

所以在很多核心生產(chǎn)要素中，通過改變其他的生產(chǎn)要素，可以讓算力利用率變高。

同時(shí)，針對“登月”，算力肯定要持續(xù)增長。今天能看到最好的模型是 10 的 25 到 26 次方 FLOPs 這種規(guī)模。這個(gè)數(shù)量級(jí)接下來肯定還會(huì)持續(xù)增長，所以我認(rèn)為算力是個(gè)必要條件，因?yàn)闄C(jī)器學(xué)習(xí)或者 AI 研究了七八十年，唯一 work 的東西其實(shí)是 scaling Law，就是放大這幾種生產(chǎn)要素。

我們其實(shí)比較有信心，在一年的時(shí)間窗口，能夠達(dá)到 10 的 26 次方這樣規(guī)模的模型，資源最終會(huì)得到合理分配的。

海外獨(dú)角獸：OpenAI 訓(xùn)下一代模型，我們推測有至少 10 萬張 H100，單個(gè)集群也能達(dá)到 3 萬張。OpenAI 顯然是追求“登月”的，不足可能是沒那么注重用戶和客戶體驗(yàn)。月之暗面和 OpenAI 的差異化路徑會(huì)在哪兒？有什么是月之暗面能做而 OpenAI 不做的？

楊植麟：短期內(nèi)關(guān)鍵的一點(diǎn)在于大家的 tech vision 不完全相同。很多領(lǐng)域并不是 OpenAI 的核心競爭力，比如圖片生成，DALL-E 3 至少比 Midjourney 落后一代。GPT 的 long-context 也并不是 state-of-the-art。我們前段時(shí)間做出來的 lossless long-context 技術(shù)在很多具體場景上要比 OpenAI 效果更好，因?yàn)橛昧藷o損壓縮的技術(shù)。你可以用它去讀一篇很長的文章，它可以很好地還原一些具體細(xì)節(jié)，還可以內(nèi)容做推理。用戶自己還會(huì)發(fā)現(xiàn)很多場景，比如扔給它 50 個(gè)簡歷，讓它根據(jù)你的要求做分析和篩選。

要做差異化，我認(rèn)為就是去看這里面的 tech space 有多大，tech space 越大，技術(shù)、產(chǎn)品、商業(yè)層面能實(shí)現(xiàn)的差異化就越大。如果技術(shù)已經(jīng)收斂了，那大家只能去追趕，就是同質(zhì)化內(nèi)卷。

然后我其實(shí)比較樂觀，因?yàn)楝F(xiàn)在仍有巨大的 tech space。AGI 技術(shù)可以分為三層：

第一層是 scaling law 結(jié)合 next-token-prediction。這個(gè)基礎(chǔ)對所有人都是一樣的，追趕過程逐漸收斂。在這個(gè)路徑上， OpenAI 現(xiàn)在做得更好，因?yàn)樗麄冞^去四五年投入了相應(yīng)的資源。

第二層現(xiàn)在有兩個(gè)核心問題。首先是如何通用地表示這個(gè)世界？真正的“通用”是像計(jì)算機(jī)一樣，用 0 和 1 就能表示整個(gè)世界。對于基于 transformer 的語言模型來說，它能表示一本書、一篇文章、甚至一個(gè)視頻，但表示一個(gè)更大的 3D 世界或你硬盤上的所有文件還有難度，沒做到 token-in-token-out，離所謂的 unified representation 其實(shí)有差距。架構(gòu)其實(shí)解決的是這個(gè)問題。

通過 AI 自我進(jìn)化克服數(shù)據(jù)稀缺性的瓶頸是第二層的另一個(gè)問題。今天的 AI 其實(shí)像一個(gè)黑盒，這個(gè)黑盒有兩個(gè)輸入：電源線和數(shù)據(jù)線，輸入這兩個(gè)東西后，盒子就能產(chǎn)出智能。隨后大家意識(shí)到，數(shù)據(jù)線的輸入是有限的，這就是所謂的數(shù)據(jù)瓶頸問題，下一代 AI 需要拔掉數(shù)據(jù)線，做到只要源源不斷地輸入電力，就能源源不斷地輸出智能。

這兩個(gè)核心問題導(dǎo)致在第三層有巨大的空間，包括 long-context、不同模態(tài)的生成、模型多步規(guī)劃的能力、指令遵循的能力、各種 agent 的功能等。

這些上層的東西都會(huì)有巨大的差異化，因?yàn)橹虚g存在兩個(gè)重要的技術(shù)變量。我認(rèn)為這是我們的機(jī)會(huì)。

除了技術(shù)層面，價(jià)值觀上我們有一點(diǎn)和 OpenAI 不同：我們希望在下一個(gè)時(shí)代，能成為一家結(jié)合 OpenAI 技術(shù)理想主義和字節(jié)所展現(xiàn)的商業(yè)化哲學(xué)觀的公司。東方的效用主義我認(rèn)為有一定的可取之處。完全不關(guān)心商業(yè)價(jià)值的話，你其實(shí)很難真的做出來一個(gè)偉大的產(chǎn)品，或者讓一個(gè)本身很偉大的技術(shù)變得更偉大。

海外獨(dú)角獸：你覺得模型公司應(yīng)該講什么故事？像 OpenAI 一樣講追求 AGI，還是超級(jí)應(yīng)用的故事？兩者會(huì)有矛盾嗎，怎么來平衡？

楊植麟：如何講故事取決于投資人的心態(tài)。對我們來說，更重要的是理解兩者之間的關(guān)系。

AGI 和產(chǎn)品對我們來說并不是手段和目的的關(guān)系，兩個(gè)都是目的。同時(shí)，在追求 AGI 的過程中，我認(rèn)為所謂的數(shù)據(jù)飛輪是很重要的，盡管它是一個(gè)老套的概念。

像 ChatGPT 這樣的產(chǎn)品，還沒有完全建立起基于用戶數(shù)據(jù)的持續(xù)進(jìn)化。我覺得這很大程度上是 base model 還在進(jìn)化，進(jìn)化了一代，之前的用戶數(shù)據(jù)就沒什么用了。這跟發(fā)展階段有關(guān)系 —— 現(xiàn)在“吃”的是 base model 的 scaling law，未來可能會(huì)去“吃”用戶這個(gè)數(shù)據(jù)源的 scaling law。

歷史上基本所有的互聯(lián)網(wǎng)產(chǎn)品要跑出來，最終都要靠用戶數(shù)據(jù)的 scale。今天 MidJourney 已經(jīng)能看到一些跡象，它通過“吃”用戶的 scaling law 可以勝過 base model 的 scale up，但如果只看語言模型和文本，base model 的 scaling 效果仍然遠(yuǎn)遠(yuǎn)超過用戶的，但我認(rèn)為最終會(huì)轉(zhuǎn)移到用戶的 scaling law，只是個(gè)時(shí)間問題。

現(xiàn)在面對數(shù)據(jù)瓶頸，這一點(diǎn)尤為重要。特別是人類偏好數(shù)據(jù)，它非常有限，但沒有它又不行。我覺得這也是每一個(gè)AI-Native 產(chǎn)品現(xiàn)在最值得思考的問題之一。所以，一個(gè)不足夠關(guān)心用戶的公司最終可能也沒法實(shí)現(xiàn) AGI。

海外獨(dú)角獸：怎么看 MoE？有一種說法是 MoE 不是真正的 scale up，只有 scale up dense model 才會(huì)提升模型的能力。

楊植麟：你可以認(rèn)為帶 MoE 和不帶 MoE 是兩條 scaling law。本質(zhì)上 scaling law 刻畫的是 loss 跟參數(shù)量之間的關(guān)系。MoE 改變了這個(gè)函數(shù)，讓你能夠用更大的參數(shù)，但同時(shí) FLOPs 不變。合成數(shù)據(jù)改變的是另一個(gè)關(guān)系，F(xiàn)LOPs 不變的情況下讓數(shù)據(jù)規(guī)模增長。

沿著 scaling law 一直走是個(gè)有確定性的事情，大家通過試圖改變 scaling law 里的具體關(guān)系來獲得更高的 efficiency，多出來的 efficiency 就是各自的優(yōu)勢。

現(xiàn)在很多人覺得做出 MoE 就可以實(shí)現(xiàn) GPT-4。我覺得這是片面的說法，最終更實(shí)質(zhì)的可能還是如何有一個(gè)統(tǒng)一的表示空間以及可規(guī)模化的數(shù)據(jù)生產(chǎn)。

海外獨(dú)角獸：如果算力足夠，會(huì)有人想做一個(gè)萬億參數(shù)的 dense model 嗎？

楊植麟：取決于推理成本的下降速度，但我覺得肯定會(huì)有?，F(xiàn)在大家是因?yàn)橥评沓杀咎?，所以都在?tradeoff。但是最終直接訓(xùn)練一個(gè)萬億的 dense model 肯定效果會(huì)比一個(gè)只有千億參數(shù)的模型要好。

海外獨(dú)角獸：Anthropic 一直在提模型的可解釋性，這一點(diǎn)其實(shí)有蠻多爭論。你是如何思考可解釋性的？因?yàn)閯倓偰阋蔡岬搅四Ｐ褪且粋€(gè)黑盒，并且其實(shí)人類到現(xiàn)在還沒有弄清楚自己的大腦是怎么工作的。

楊植麟：可解釋性核心是個(gè)信任的問題。建立一個(gè)信任的心智是很重要的，對應(yīng)的應(yīng)用場景甚至可能和 ChatGPT 的也會(huì)不同，比如 long-context 和搜索的結(jié)合。

當(dāng)模型完全不 hallucinate 或者概率非常低，就不需要解釋了，因?yàn)樗f的東西都是對的。而且解釋有可能也只是 alignment 的一部分，比如說 chain-of-thought 也可以被認(rèn)為是一種解釋。

Hallucination 是可以通過 scaling law 來解決。但不一定是在 pre-training 環(huán)節(jié)，因?yàn)槠鋵?shí) alignment 也有 scaling law，它肯定是可以被解決的，只要你能找到對的數(shù)據(jù)。AI 本質(zhì)就是一堆 scaling law。

海外獨(dú)角獸：你對 AGI 的預(yù)期是什么？transformer 本質(zhì)還是一個(gè)統(tǒng)計(jì)概率模型，它能通往 AGI 嗎？

楊植麟：統(tǒng)計(jì)模型沒有什么問題。當(dāng) next token prediction 足夠好的時(shí)候，它能夠平衡創(chuàng)造性和事實(shí)性。

事實(shí)性一般是對統(tǒng)計(jì)模型的挑戰(zhàn)，但是今天的語言模型可以有非常尖峰的分布。讓它回答“中國的首都”，模型對“北”這個(gè)字能給出 99% 的概率。同時(shí)，如果我今天讓它寫一本小說，那它可能下一個(gè)詞的概率分布就會(huì)很均勻。概率其實(shí)是一個(gè)通用的表示方式。本質(zhì)上這個(gè)世界上有大量的熵，抓住確定性的東西，讓本身是混沌的東西繼續(xù)混沌。

通往 AGI 的話，long-context 會(huì)是一個(gè)很重要的點(diǎn)。所有問題都是 long-context 的問題 —— 歷史上所有的架構(gòu)演進(jìn)本質(zhì)上都是在提升有效的 context length。word2vec 最近拿了 NeurIPS 的 Test of Time 獎(jiǎng)。它在 10 年前用一個(gè)詞去預(yù)測周圍的詞，相當(dāng)于 context length 是 5。RNN 把有效的 context length 提升到了 20。LSTM 漲到大幾十。transformer 到了幾千?，F(xiàn)在我們能做到幾十萬。

如果你有 10 億的 context length，今天看到的問題都不是問題。

此外，其實(shí)無損壓縮就是在一片混沌中學(xué)習(xí)確定性。一個(gè)極端的例子是等差數(shù)列，給定前兩個(gè)數(shù)，接下來每一個(gè)數(shù)都是確定的，不存在混沌，所以一個(gè)完美的模型可以還原整個(gè)數(shù)列。但真實(shí)世界的很多數(shù)據(jù)都存在噪聲，我們需要過濾掉這些噪聲，讓模型只學(xué)能學(xué)習(xí)到的內(nèi)容。在這個(gè)過程中，對于那些不確定的可能性，也要分配足夠的概率。舉個(gè)例子，如果要生成一張圖片，那么它的 loss 會(huì)比生成一段文字更高，這是因?yàn)閳D片包含了更多的混沌和信息量，但只需捕捉其中你能掌握的部分，剩余的部分可以認(rèn)為是有概率發(fā)生的。比如，水杯的顏色是綠色還是紅色就是有概率會(huì)發(fā)生的，但顏色這個(gè)信息不會(huì)改變“水杯長什么樣”這件事，所以這里面需要重點(diǎn)學(xué)習(xí)的就是水杯的形狀，至于它的顏色，就要做一個(gè)概率分配。

海外獨(dú)角獸：context length 的提升存在什么規(guī)律？有技術(shù)可預(yù)見性嗎？

楊植麟：我自己感覺存在 context length 的摩爾定律。但需要強(qiáng)調(diào)：給定長度下的準(zhǔn)確率也非常重要，需要同時(shí)優(yōu)化長度和準(zhǔn)確率（無損壓縮）兩個(gè)指標(biāo)。

在保證模型能力和智商的情況下，我覺得大概率 context length 的提升是指數(shù)級(jí)增長的。

02.

多模態(tài)：大部分架構(gòu)不值得被 scale up

海外獨(dú)角獸：大家都期待多模態(tài)會(huì)在 2024 年爆發(fā)，相比文本，多模態(tài)的技術(shù)難度會(huì)在哪里？

楊植麟：現(xiàn)在 state-of-the-art 的視頻生成模型的 FLOPs 其實(shí)比語言模型少一個(gè)數(shù)量級(jí)以上，并不是大家不想 scale up，而是大部分架構(gòu)不值得這么做。

19 年最流行的是架構(gòu)是 BERT，后來大家問為什么沒有人去 scale BERT，其實(shí)是因?yàn)橹档帽?scale 的架構(gòu)需要具備 scalability 和 generality 這兩個(gè)條件。我不認(rèn)為 BERT 沒有 scalability，但是你能明顯看到它沒有 generality —— 不管 scale 到多大，它都不可能給你寫一篇文章。多模態(tài)過去幾年也是卡在架構(gòu)上，缺少真正通用的、有人愿意去 scale 的模型。Diffusion 明顯不是，scale 上天了它也不可能是 AGI。今天 auto-regressive 的架構(gòu)帶來了一些新的可能，犧牲了一些效率解決了通用性。

Auto-regressive 本身是 scalable 的，但是 tokenizer 不一定，或者最后就不需要 tokenizer，這是 24 年的核心問題。

海外獨(dú)角獸：如果 tokenizer 不 scalable ，我們需要一個(gè) transformer 之外全新的架構(gòu)嗎？

楊植麟：光說 transformer 本身，我覺得問題不大。核心還是解決 tokenizer 的問題。transformer 架構(gòu)其實(shí)已經(jīng)發(fā)生很多變化了，今天做 long-context、做 MoE，都不是標(biāo)準(zhǔn)的 transformer。但是 transformer 的靈魂或者思想肯定還會(huì)存在很長時(shí)間，核心是怎么在這個(gè)思想基礎(chǔ)上解決更多問題。

海外獨(dú)角獸：其實(shí) context length 無限長的話，我們也不需要 tokenizer 了？

楊植麟：對。本質(zhì)上模型足夠強(qiáng)的話，它可以處理任何的 token、pixel、byte。有了無限長的 context length，你可以直接把硬盤上所有的東西都輸給它，它會(huì)變成你真正的新計(jì)算機(jī)，根據(jù)這些 context 采取行動(dòng)。

海外獨(dú)角獸：OpenAI、Anthropic 等領(lǐng)先的模型公司覺得 2024 年的一大瓶頸會(huì)是數(shù)據(jù)，所以他們對怎么用合成數(shù)據(jù)期待比較高，你怎么看合成數(shù)據(jù)？

楊植麟：一個(gè)值得被 scale up 的架構(gòu)是基礎(chǔ)，這個(gè)架構(gòu)首先得支持不斷加入更多數(shù)據(jù)，然后數(shù)據(jù)才會(huì)真的成為瓶頸。我們現(xiàn)在說的數(shù)據(jù)瓶頸，從文本模態(tài)上，2024 年就會(huì)遇到，但多模態(tài)數(shù)據(jù)的引入進(jìn)來會(huì)把這個(gè)問題推遲 1-2 年。

如果視頻和多模態(tài)的卡點(diǎn)解決不了，那文本的數(shù)據(jù)瓶頸就會(huì)很關(guān)鍵。這點(diǎn)上其實(shí)我們也有些進(jìn)展 —— 如果限定了問題，比如數(shù)學(xué)或者寫代碼，數(shù)據(jù)是相對好生成的。通用的問題現(xiàn)在還沒有完全的解法，但是存在一些方向可以去探索。

海外獨(dú)角獸：2025 年的瓶頸會(huì)是能源？因?yàn)榈綍r(shí)候單個(gè)集群規(guī)模很大，對能源帶來挑戰(zhàn)。

楊植麟：這些問題其實(shí)是連在一起的，最后可能是多模態(tài)解決數(shù)據(jù)問題，合成數(shù)據(jù)解決能源問題。

到了 GPT-6 這一代，掌握合成數(shù)據(jù)技術(shù)的玩家會(huì)體現(xiàn)出明顯差距。因?yàn)閿?shù)據(jù)其實(shí)有兩種，一種是做 pre-training 的數(shù)據(jù)，另外一種是獲取成本更高的 alignment 數(shù)據(jù)。如果掌握了數(shù)據(jù)生成技術(shù)，alignment 的成本可能會(huì)降低好幾個(gè)數(shù)量級(jí)，或者能用一樣的投入產(chǎn)生更大的幾個(gè)數(shù)量級(jí)的數(shù)據(jù)，格局就會(huì)發(fā)生變化。

我覺得 2025、2026 年可能是很重要的 milestone —— 模型的大部分計(jì)算量會(huì)發(fā)生在模型自己生成的數(shù)據(jù)上。

26 年的時(shí)候也許模型用于推理的計(jì)算量會(huì)遠(yuǎn)遠(yuǎn)大于訓(xùn)練本身，可能花 10 倍的成本去推理，推理完之后花一倍的成本來訓(xùn)練。會(huì)出現(xiàn)新的范式，推理即訓(xùn)練，而且這個(gè)推理不是為任何用戶服務(wù)的，只為自己本身的合成數(shù)據(jù)服務(wù)。

出現(xiàn)這種情況的話，能源的問題也解決了，因?yàn)橥评硎强梢苑植际降?。而且它不違背定律，本質(zhì)還是個(gè)能源守恒。只不過我把計(jì)算范式改變了，讓能源能夠以分布式的方式解決。

03.

超級(jí)應(yīng)用：模型的微調(diào)可能最終不存在

海外獨(dú)角獸：Google 和抖音背后的搜索和推薦有很強(qiáng)的飛輪效應(yīng)，算法能根據(jù)用戶的行為實(shí)時(shí)反饋，用戶體驗(yàn)也能不斷提升。LLM 現(xiàn)在無法實(shí)時(shí)反饋用戶行為，AI-Native 產(chǎn)品的飛輪效應(yīng)會(huì)是什么？

楊植麟：我深入思考過這個(gè)問題。AI-Native 產(chǎn)品最終的核心價(jià)值是個(gè)性化交互，這是以前技術(shù)實(shí)現(xiàn)得不好的，所以這個(gè)問題其實(shí)是關(guān)于個(gè)性化的 —— 怎么讓用戶使用你的產(chǎn)品多了之后，獲得高度個(gè)性化的互動(dòng)體驗(yàn)。今天對許多產(chǎn)品來說，這個(gè)個(gè)性化程度幾乎為零。以前我們只能做個(gè)性化的推薦，但現(xiàn)在，用戶可以與產(chǎn)品進(jìn)行互動(dòng)。這種互動(dòng)是高度擬人化和個(gè)性化的。怎么實(shí)現(xiàn)這一點(diǎn)？

我覺得這背后實(shí)際上是個(gè)技術(shù)問題。傳統(tǒng) AI 時(shí)代，要實(shí)現(xiàn)個(gè)性化，需要持續(xù)更新模型，用小模型解決單點(diǎn)問題。大模型時(shí)代，實(shí)現(xiàn)個(gè)性化的一種方式是微調(diào)，但我認(rèn)為微調(diào)可能不是本質(zhì)的方法，長期來看可能不會(huì)存在模型的微調(diào)。為什么？當(dāng)你的模型指令跟隨能力、推理能力、上下文一致性能力越來越強(qiáng)時(shí)，所有東西只需要放在內(nèi)存里就可以。比如你的大模型內(nèi)存有一堆 prefix 這樣的東西用來 follow，成本可以降到非常低。最終，你對模型個(gè)性化的過程實(shí)際上就是你所有的交互歷史，也是一個(gè)包含了你的偏好和反饋的集合，這些反饋會(huì)比上個(gè)時(shí)代的產(chǎn)品更直接，因?yàn)樗峭耆ㄟ^對話界面產(chǎn)生的。

基于這個(gè)判斷，進(jìn)一步就會(huì)想：如何在技術(shù)層面實(shí)現(xiàn)基于 long-context 的定制化去完全取代微調(diào)？

我認(rèn)為現(xiàn)在正在往這個(gè)方向走，未來模型不需要微調(diào)，而是通過強(qiáng)大的上下文一致性和指令跟隨能力來解決問題，長期趨勢應(yīng)該是底層技術(shù)個(gè)性化，這會(huì)是一個(gè)很重要的變化。

比如，GPT-4 帶來的新的計(jì)算范式，創(chuàng)建 GPTs 并不需要微調(diào)。以前的定制化是通過 programming 實(shí)現(xiàn)的，今天實(shí)際上是通過讓模型的 prefix 變得非常復(fù)雜，從這個(gè)通用的集合中抽出你想要的東西。通過這種方式實(shí)現(xiàn)個(gè)性化才是 AI-native 的個(gè)性化，外掛一個(gè)傳統(tǒng)的推薦引擎肯定會(huì)被新方式淘汰。

海外獨(dú)角獸：你們先做 lossless long-context 這個(gè)決策是怎么做出來的？

楊植麟：我覺得最重要的還是以終為始地思考這個(gè)事。大模型作為新的計(jì)算機(jī)肯定也需要很大的內(nèi)存，因?yàn)榕f的計(jì)算機(jī)的內(nèi)存在過去幾十年的時(shí)間里面至少增長了幾個(gè)數(shù)量級(jí)，而且舊的計(jì)算機(jī)也是一開始的時(shí)候只有很少的內(nèi)存。第二點(diǎn)就在于 AI 的終極價(jià)值是個(gè)性化。

海外獨(dú)角獸：OpenAI 其實(shí)也有一定的 long-context 了。

楊植麟：它還沒有把用戶的交互過程真正視為個(gè)性化的場景。比如，如果我們?nèi)?ChatGPT prompt 某個(gè)東西，不管是今天還是明天，只要模型版本相同，可能效果基本上差不多，這就是我說的缺乏個(gè)性化。

最終所有東西都是指令遵循。只不過你的指令會(huì)越來越復(fù)雜。今天你的指令一開始可能是 10 個(gè)詞，但是你到后面有可能它就是 1 萬個(gè)詞、 100 萬個(gè)詞。

海外獨(dú)角獸：Chatbot 一直是 AI 科學(xué)家的白月光，如果每個(gè)用戶每天和 Chatbot 對話幾百條，Chatbot 系統(tǒng)能采集和理解更多的用戶 context，最終會(huì)大幅超越搜索和推薦系統(tǒng)的匹配準(zhǔn)確率嗎？就像我們和同事家人之間的互動(dòng)，只需要一句話甚至一個(gè)眼神對方就懂你的意思。

楊植麟：核心是跨越信任這一步。

我覺得最終衡量一個(gè) AI 產(chǎn)品的長期價(jià)值，就是看用戶愿意在它上面輸入多少個(gè)人化的信息，然后 lossless long-context 和個(gè)性化負(fù)責(zé)把這些輸入變成有價(jià)值的東西。

可能也還需要新的硬件形態(tài)，但我覺得模型和軟件現(xiàn)在也還是個(gè)瓶頸。因?yàn)橐偻裸@一層，讓用戶輸入很多信息的前提是 trust，是你需要有足夠 engaging 和 human like 的AI。不能說是我為了得到你的信息所以專門設(shè)置了一些產(chǎn)品功能。最終效果應(yīng)該是用戶和 AI 成為了朋友，那所有事情都可以跟它說。

Inflection Pi 的 motivation 其實(shí)是很好的，想要建立強(qiáng)信任，只是 Pi 可能要再往前推一步，到底怎樣跟用戶去建立信任，人類社會(huì)可能并不接受指派一個(gè)終身搭檔的做法，這有點(diǎn)反人性。

海外獨(dú)角獸：月之暗面想做超級(jí)應(yīng)用，你自己理想中的超級(jí)應(yīng)用長什么樣子？多大才算超級(jí)？

楊植麟：還是看破圈程度。周圍的親戚都在用，你才真正成為超級(jí)應(yīng)用。而且我認(rèn)為 AI 能力的提升會(huì)領(lǐng)先于產(chǎn)品破圈。比如假設(shè)今天 character.ai 是非常完美的多模態(tài)模型，那我覺得它破圈的概率至少會(huì)大 10 倍。最終一個(gè)應(yīng)用的上限體現(xiàn)在以年為維度的 AI 和人的 connection 的增加。

04.

月之暗面：最好的人才需要 unlearn 能力

海外獨(dú)角獸：AGI 公司最理想的 CEO 畫像應(yīng)該是什么樣的？

楊植麟：一方面需要有 tech vision。不能一直做別人已經(jīng)證明過的東西。真的 AGI 公司必須有自己獨(dú)特的技術(shù)判斷，而且這個(gè)判斷應(yīng)該影響到公司的整體方向。如果一號(hào)位不能拍板也不行。我們年初已經(jīng)在做 auto-regressive 的多模態(tài)、lossless long-context 了，但它們都是最近一兩個(gè)月才變得非常火，甚至即使今天，lossless long-context 仍然不是一個(gè)共識(shí)。但如果今天才看到這個(gè)事情，已經(jīng)沒有足夠多的時(shí)間去迭代，最后會(huì)變成跟隨者。

第二點(diǎn)是能夠很深刻的理解 AI-Native 產(chǎn)品的開發(fā)方式，然后基于新的生產(chǎn)方式適配一套組織。以前做產(chǎn)品是通過了解用戶的需求設(shè)計(jì)功能，新時(shí)代需要在制造的過程中完成設(shè)計(jì)。ChatGPT 就是通過制造完成設(shè)計(jì)，并沒有先設(shè)計(jì)出來一堆場景再找對應(yīng)的算法。Kimi 的用戶自己去上傳簡歷然后做篩選，也是我們上線之前完全沒有測試過的用例。

資源獲取肯定也很重要。其中主要燒錢的是算力。早期靠融資，到后面就需要更多的產(chǎn)品商業(yè)化。商業(yè)化也不能照搬上一個(gè)時(shí)代成熟的東西創(chuàng)新，所以好的 CEO 和團(tuán)隊(duì)?wèi)?yīng)該有一定經(jīng)驗(yàn)，但同時(shí)也有很強(qiáng)的學(xué)習(xí)和迭代能力。

海外獨(dú)角獸：但有可能投資人分辨不出來到底誰的 tech vision 是最領(lǐng)先的。

楊植麟：我不太擔(dān)心這個(gè)問題?，F(xiàn)在就是最好的分配方式，更接近一個(gè)自由市場，最后會(huì)有最高的分配效率。我們要跟別人證明的也不是我們的 vision，因?yàn)?vision 是一個(gè)抽象的東西，還是要通過真實(shí)的 deliver 模型和產(chǎn)品。Anthropic 放出 Claude 這些模型之后，馬上就得到了更多的資源。市場是公平的。

海外獨(dú)角獸：從建立產(chǎn)品和公司競爭壁壘的角度，工業(yè)時(shí)代講究規(guī)模效應(yīng)，互聯(lián)網(wǎng)時(shí)代講究網(wǎng)絡(luò)效應(yīng)，AGI 時(shí)代會(huì)有新范式嗎？

楊植麟：短期是組織方式的變化帶來技術(shù)上的提升 —— 你通過更好的組織帶來更好的技術(shù)，然后在產(chǎn)品上直接傳遞出更好的體驗(yàn)。

長期大概率還是網(wǎng)絡(luò)效應(yīng)。問題在于網(wǎng)絡(luò)效應(yīng)的體現(xiàn)方式是什么？比如以前互聯(lián)網(wǎng)的雙邊網(wǎng)絡(luò)可能仍然會(huì)存在，但并不是用戶和創(chuàng)作者雙邊。AI-Native 產(chǎn)品的雙邊網(wǎng)絡(luò)可能體現(xiàn)在個(gè)性化上，用戶和 AI 存在一種共創(chuàng)的關(guān)系。

所以我現(xiàn)在看到值得探索的是兩點(diǎn)：模型能力的持續(xù)提升，另一個(gè)是雙邊效應(yīng)。它們會(huì)在新時(shí)代帶來新的范式?，F(xiàn)在 Midjourney 在雙邊效應(yīng)上已經(jīng)爆發(fā)了，Stable Diffusion 作為開源模型就尷尬在單邊太分散，只能依賴 base model 的提升。

海外獨(dú)角獸：從招聘角度，你怎么定義好的人才？

楊植麟：我會(huì)拆成經(jīng)驗(yàn)和學(xué)習(xí)來看。學(xué)習(xí)是一個(gè)通用的能力，不光是 learn，還要 unlearn，特別是以前的成功經(jīng)驗(yàn)。假設(shè)你是從 0 到 1 做了 YouTube，現(xiàn)在做 AI 產(chǎn)品可能比別人更難，因?yàn)橐?unlearn 很多東西。學(xué)習(xí)比經(jīng)驗(yàn)重要?？赡茉龠^ 5 年的話， AI 行業(yè)會(huì)培養(yǎng)出來很多所謂的成熟職能。今天我覺得其實(shí)劃分職能沒有什么意義，需要每個(gè)人都很多面。

海外獨(dú)角獸：什么樣的 researcher 才會(huì)有 tech vision？

楊植麟：核心是兩點(diǎn)，一個(gè)是抓大放小，一個(gè)是終局思維。我跟很多 researcher 合作過，容易出現(xiàn)的一個(gè)問題就是過分雕花，容易在局部里看到有很多可以優(yōu)化的東西，比如我們發(fā)現(xiàn) transformer 解決了 LSTM 的 context length 問題，但如果再跳出來一層，就會(huì)發(fā)現(xiàn)本質(zhì)上每一代技術(shù)都是在提升 context length。

海外獨(dú)角獸：你覺得月之暗面還需要多少這樣的人才？

楊植麟：客觀上來說，限制我們的肯定還是供給?，F(xiàn)在 AGI 的人才稀缺在于經(jīng)驗(yàn)，但其實(shí)擁有學(xué)習(xí)能力的人才還是很多的。

但是需求角度，整個(gè)組織不能太大 —— 把自己活生生又弄成了大廠的話，很多組織優(yōu)勢就丟失了。所以我們肯定還是會(huì)維持一個(gè)精簡高效的組織。我覺得一個(gè)核心判斷是 AGI 不需要那么多人。而且長期來看，真的“拔掉了數(shù)據(jù)”之后，GPT-6 水平之后的模型完全可以自我進(jìn)化，這樣才能突破人類已有能力的邊界。

海外獨(dú)角獸：你怎么看追平 GPT-4 的難度和時(shí)間？

楊植麟：Benchmarking 刷到 GPT-4 非常簡單，但是達(dá)到它的實(shí)際效果肯定有難度的，而且靠的不只是資源，Google 已經(jīng)驗(yàn)證了這一點(diǎn)。其實(shí) GPT-4 的訓(xùn)練成本也沒那么高，大幾千萬美元不是一個(gè)很嚇人的數(shù)字，對我們來說是好事，并且我們已經(jīng)有比較好的進(jìn)展。

最重要的還是底層有 tech vision 去預(yù)判 GPT-5 和 GPT-6 應(yīng)該是什么樣，然后提前去執(zhí)行和積累，不然永遠(yuǎn)都不可能超越 Open AI。OpenAI 的很多紅利也在于提前預(yù)判，它在 2018 年就大概相信自己在探索正確的方向，花了很長時(shí)間積累。

海外獨(dú)角獸：讓你來做圖片生成這種產(chǎn)品的話，你會(huì)怎么做？怎么兼顧語言理解和圖片質(zhì)量？

楊植麟：現(xiàn)在 Midjourney 在圖片生成這個(gè)單一任務(wù)已經(jīng)做得特別好了，我來做的話會(huì)希望它能做很多任務(wù)，同時(shí)在其中的一些任務(wù)也能做得很好。這其實(shí)也是 OpenAI 的思路，只是它其實(shí)沒做成功。

AGI 公司應(yīng)該是入口邏輯，讓用戶默認(rèn)用你，此外特定人群會(huì)有一些特殊需求和對極致效果的追求，所以市場里還存在 Midjourney 之類公司的機(jī)會(huì)。但是 AGI 的通用性足夠強(qiáng)大時(shí)，很多用戶也會(huì)轉(zhuǎn)移 —— 如果今天我把 Photoshop 整個(gè)軟件都重新封裝成一個(gè) prompt，它變成大家一個(gè)外包的全能設(shè)計(jì)師，那會(huì)有更少的人用 Midjourney。

Midjourney 今天的地位在于它通過先發(fā)優(yōu)勢讓飛輪跑起來了。比較 tricky 的是未來還會(huì)不會(huì)有這種時(shí)間窗口，如果沒時(shí)間窗口，那很可能直接被通用模型碾壓。

海外獨(dú)角獸：沿著入口邏輯的話，你覺得未來會(huì)有幾個(gè)入口？

楊植麟：至少有兩個(gè)，一個(gè)是有用的，一個(gè)是好玩的。

信息入口可能不存在了，因?yàn)槲覀兯褜ば畔⒈举|(zhì)上是希望端到端完成一個(gè)任務(wù)。智能的入口以后大概率會(huì)覆蓋搜索引擎這類信息入口。人獲取信息并不是終極需求，它只是一直被強(qiáng)行定義成一種需求。有些時(shí)候我們是希望完成一件事，有些時(shí)候是希望學(xué)習(xí)某個(gè)東西，AGI 的入口應(yīng)該直接幫用戶完成任務(wù)，而不是幫他們獲取信息。

海外獨(dú)角獸：從今天到實(shí)現(xiàn)你理想中的 AGI 還需要多少錢？

楊植麟：嚴(yán)格的 AGI 還需要百億美元級(jí)別。但是它不是一步到位，你需要跑起來一個(gè)循環(huán)，業(yè)務(wù)能夠自己產(chǎn)出對應(yīng)的資源。這個(gè)百億美元推論的原因是 scale up 的規(guī)模還需要至少 2-3 個(gè)數(shù)量級(jí)。當(dāng)然，過程中會(huì)伴隨著成本的優(yōu)化。

海外獨(dú)角獸：AGI 公司的商業(yè)模式應(yīng)該是什么樣的？還會(huì)是 seat-based 或者 usage-based 嗎？

楊植麟：AGI 幫你完成的每個(gè)任務(wù)對應(yīng)的價(jià)值不一樣。它可能類似一個(gè)外包，按照每個(gè)任務(wù)定價(jià)。除此之外，在任務(wù)解決過程中，廣告肯定還會(huì)扮演重要角色，基于個(gè)性化互動(dòng)和對話的行為，廣告的變現(xiàn)效率可能比現(xiàn)在要高很多。

海外獨(dú)角獸：假如 GPT-4.5、Claude-3、Gemini-2.0 的訓(xùn)練成本是 3 億美元左右，再往后到 2025 年下一代模型的訓(xùn)練成本可能要漲到幾十億美元，那要探索出 AGI 會(huì)是一場千億美元豪賭，你思考過它最終對人類社會(huì)的影響嗎？

楊植麟：相對確定的一點(diǎn)是實(shí)打?qū)嵉纳a(chǎn)力提升?，F(xiàn)在用一個(gè)軟件，其實(shí)對應(yīng) 1000 個(gè)程序員的智能，是固定的，以后我們用的應(yīng)用背后可能對應(yīng) 100 萬個(gè)人的智能，而且每天都在迭代。

看可能性的話，今天的一切都會(huì)變化。這么多語言被訓(xùn)練到一起，對文化、價(jià)值觀都有影響。人的時(shí)間分配可能也會(huì)產(chǎn)生很多變化，真正為了錢工作的人可能會(huì)變少，更多時(shí)間可能花在精神世界里面，最后可能會(huì)有一個(gè)巨大的虛擬的精神空間。要實(shí)現(xiàn) Metaverse，可能其實(shí)是要先實(shí)現(xiàn) AI。

另外，我相信 AGI 最終是全球化的。

海外獨(dú)角獸：但是現(xiàn)在我們判斷領(lǐng)先的模型又強(qiáng)又便宜，會(huì)有很強(qiáng)的馬太效應(yīng)，最后格局還是很收斂。

楊植麟：5 年的時(shí)間窗口的話，頭部效應(yīng)還是會(huì)明顯。但是 50 年之后，我相信 AGI 肯定是同質(zhì)化的，跟今天的電沒有什么區(qū)別。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：從未名湖畔 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)