采訪:天一、penny、guangmi 編輯:天一 排版:Scout Lossless long context is everything。這是我們跟楊植麟聊完兩個(gè)小時(shí)后記憶最深刻的一個(gè)觀點(diǎn)。 這個(gè)技術(shù)判斷在 23 年 10 月已經(jīng)被傳遞出來,當(dāng)時(shí)楊植麟創(chuàng)立的月之暗面發(fā)布了首個(gè)模型 moonshot 和智能助手 Kimi,支持 20 萬字的輸入。做“長”是因?yàn)闂钪谗肱袛?AI-Native 產(chǎn)品的終極價(jià)值是提供個(gè)性化的交互,而 lossless long-context 是實(shí)現(xiàn)這一點(diǎn)的基礎(chǔ) —— 模型的微調(diào)長期不應(yīng)該存在,用戶跟模型的交互歷史就是最好的個(gè)性化過程,歷史上每一代技術(shù)都是在提升 context length。 楊植麟身上的標(biāo)簽有天才 AI 科學(xué)家、連續(xù)創(chuàng)業(yè)者……在這次深度訪談中,他再次證明自己是個(gè)真正“懂”大模型的創(chuàng)業(yè)者,所以本文中有許多反共識(shí)的觀點(diǎn):楊植麟覺得微調(diào)最終會(huì)不存在,tokenizer 最后也不一定是必須的;硅谷大模型訓(xùn)練者們擔(dān)心數(shù)據(jù)瓶頸和能源限制,他反而覺得所有問題都是互相關(guān)聯(lián)的,多模態(tài)可以緩解數(shù)據(jù)短缺,合成數(shù)據(jù)則可以通過改變計(jì)算范式解決能源問題。 本文還試圖回答另一個(gè)外界普遍關(guān)心的問題:一家新創(chuàng)立的 AGI 公司如何超越 OpenAI?楊植麟的答案是 tech vision,一號(hào)位要能做出技術(shù)判斷,同時(shí)還能拍板執(zhí)行。一個(gè)具體的例子是,月之暗面希望比 OpenAI 更關(guān)心用戶,原因是楊植麟判斷用戶數(shù)據(jù)的 scale up 的效果最終會(huì)超越 base model 自身。 楊植麟對于用 transformer 這個(gè)概率模型的思想基礎(chǔ)走向 AGI 也很有信心,用他的話說“如果你有 10 億的 context length,今天看到的問題都不是問題”。 01. AGI:AI 本質(zhì)就是一堆 scaling law 海外獨(dú)角獸:我們把 LLM 的訓(xùn)練比作登月,月之暗面的名字也和登月相關(guān)。你怎么看現(xiàn)在創(chuàng)業(yè)公司的 LLM 訓(xùn)練,在 GPU 和算力資源有限的條件下,還能實(shí)現(xiàn)登月嗎? 楊植麟:“登月”有幾個(gè)不同的生產(chǎn)要素,算力肯定是一個(gè)核心,但還有其他的。 你需要一個(gè)同時(shí)滿足 scalability 和 generality 這兩點(diǎn)的架構(gòu),但今天其實(shí)很多架構(gòu)已經(jīng)不滿足這兩條了。transformer 在已知的 token space 符合這兩條,但放大到一個(gè)更通用的場景,也不太符合。數(shù)據(jù)也是一個(gè)生產(chǎn)要素,包括整個(gè)世界的數(shù)字化,和來自用戶的數(shù)據(jù)。 所以在很多核心生產(chǎn)要素中,通過改變其他的生產(chǎn)要素,可以讓算力利用率變高。 同時(shí),針對“登月”,算力肯定要持續(xù)增長。今天能看到最好的模型是 10 的 25 到 26 次方 FLOPs 這種規(guī)模。這個(gè)數(shù)量級(jí)接下來肯定還會(huì)持續(xù)增長,所以我認(rèn)為算力是個(gè)必要條件,因?yàn)闄C(jī)器學(xué)習(xí)或者 AI 研究了七八十年,唯一 work 的東西其實(shí)是 scaling Law,就是放大這幾種生產(chǎn)要素。 我們其實(shí)比較有信心,在一年的時(shí)間窗口,能夠達(dá)到 10 的 26 次方這樣規(guī)模的模型,資源最終會(huì)得到合理分配的。 海外獨(dú)角獸:OpenAI 訓(xùn)下一代模型,我們推測有至少 10 萬張 H100,單個(gè)集群也能達(dá)到 3 萬張。OpenAI 顯然是追求“登月”的,不足可能是沒那么注重用戶和客戶體驗(yàn)。月之暗面和 OpenAI 的差異化路徑會(huì)在哪兒?有什么是月之暗面能做而 OpenAI 不做的? 楊植麟:短期內(nèi)關(guān)鍵的一點(diǎn)在于大家的 tech vision 不完全相同。很多領(lǐng)域并不是 OpenAI 的核心競爭力,比如圖片生成,DALL-E 3 至少比 Midjourney 落后一代。GPT 的 long-context 也并不是 state-of-the-art。我們前段時(shí)間做出來的 lossless long-context 技術(shù)在很多具體場景上要比 OpenAI 效果更好,因?yàn)橛昧藷o損壓縮的技術(shù)。你可以用它去讀一篇很長的文章,它可以很好地還原一些具體細(xì)節(jié),還可以內(nèi)容做推理。用戶自己還會(huì)發(fā)現(xiàn)很多場景,比如扔給它 50 個(gè)簡歷,讓它根據(jù)你的要求做分析和篩選。 要做差異化,我認(rèn)為就是去看這里面的 tech space 有多大,tech space 越大,技術(shù)、產(chǎn)品、商業(yè)層面能實(shí)現(xiàn)的差異化就越大。如果技術(shù)已經(jīng)收斂了,那大家只能去追趕,就是同質(zhì)化內(nèi)卷。 然后我其實(shí)比較樂觀,因?yàn)楝F(xiàn)在仍有巨大的 tech space。AGI 技術(shù)可以分為三層: 第一層是 scaling law 結(jié)合 next-token-prediction。這個(gè)基礎(chǔ)對所有人都是一樣的,追趕過程逐漸收斂。在這個(gè)路徑上, OpenAI 現(xiàn)在做得更好,因?yàn)樗麄冞^去四五年投入了相應(yīng)的資源。 第二層現(xiàn)在有兩個(gè)核心問題。首先是如何通用地表示這個(gè)世界?真正的“通用”是像計(jì)算機(jī)一樣,用 0 和 1 就能表示整個(gè)世界。對于基于 transformer 的語言模型來說,它能表示一本書、一篇文章、甚至一個(gè)視頻,但表示一個(gè)更大的 3D 世界或你硬盤上的所有文件還有難度,沒做到 token-in-token-out,離所謂的 unified representation 其實(shí)有差距。架構(gòu)其實(shí)解決的是這個(gè)問題。 通過 AI 自我進(jìn)化克服數(shù)據(jù)稀缺性的瓶頸是第二層的另一個(gè)問題。今天的 AI 其實(shí)像一個(gè)黑盒,這個(gè)黑盒有兩個(gè)輸入:電源線和數(shù)據(jù)線,輸入這兩個(gè)東西后,盒子就能產(chǎn)出智能。隨后大家意識(shí)到,數(shù)據(jù)線的輸入是有限的,這就是所謂的數(shù)據(jù)瓶頸問題,下一代 AI 需要拔掉數(shù)據(jù)線,做到只要源源不斷地輸入電力,就能源源不斷地輸出智能。 這兩個(gè)核心問題導(dǎo)致在第三層有巨大的空間,包括 long-context、不同模態(tài)的生成、模型多步規(guī)劃的能力、指令遵循的能力、各種 agent 的功能等。 這些上層的東西都會(huì)有巨大的差異化,因?yàn)橹虚g存在兩個(gè)重要的技術(shù)變量。我認(rèn)為這是我們的機(jī)會(huì)。 除了技術(shù)層面,價(jià)值觀上我們有一點(diǎn)和 OpenAI 不同:我們希望在下一個(gè)時(shí)代,能成為一家結(jié)合 OpenAI 技術(shù)理想主義和字節(jié)所展現(xiàn)的商業(yè)化哲學(xué)觀的公司。東方的效用主義我認(rèn)為有一定的可取之處。完全不關(guān)心商業(yè)價(jià)值的話,你其實(shí)很難真的做出來一個(gè)偉大的產(chǎn)品,或者讓一個(gè)本身很偉大的技術(shù)變得更偉大。 海外獨(dú)角獸:你覺得模型公司應(yīng)該講什么故事?像 OpenAI 一樣講追求 AGI,還是超級(jí)應(yīng)用的故事?兩者會(huì)有矛盾嗎,怎么來平衡? 楊植麟:如何講故事取決于投資人的心態(tài)。對我們來說,更重要的是理解兩者之間的關(guān)系。 AGI 和產(chǎn)品對我們來說并不是手段和目的的關(guān)系,兩個(gè)都是目的。同時(shí),在追求 AGI 的過程中,我認(rèn)為所謂的數(shù)據(jù)飛輪是很重要的,盡管它是一個(gè)老套的概念。 像 ChatGPT 這樣的產(chǎn)品,還沒有完全建立起基于用戶數(shù)據(jù)的持續(xù)進(jìn)化。我覺得這很大程度上是 base model 還在進(jìn)化,進(jìn)化了一代,之前的用戶數(shù)據(jù)就沒什么用了。這跟發(fā)展階段有關(guān)系 —— 現(xiàn)在“吃”的是 base model 的 scaling law,未來可能會(huì)去“吃”用戶這個(gè)數(shù)據(jù)源的 scaling law。 歷史上基本所有的互聯(lián)網(wǎng)產(chǎn)品要跑出來,最終都要靠用戶數(shù)據(jù)的 scale。今天 MidJourney 已經(jīng)能看到一些跡象,它通過“吃”用戶的 scaling law 可以勝過 base model 的 scale up,但如果只看語言模型和文本,base model 的 scaling 效果仍然遠(yuǎn)遠(yuǎn)超過用戶的,但我認(rèn)為最終會(huì)轉(zhuǎn)移到用戶的 scaling law,只是個(gè)時(shí)間問題。 現(xiàn)在面對數(shù)據(jù)瓶頸,這一點(diǎn)尤為重要。特別是人類偏好數(shù)據(jù),它非常有限,但沒有它又不行。我覺得這也是每一個(gè)AI-Native 產(chǎn)品現(xiàn)在最值得思考的問題之一。所以,一個(gè)不足夠關(guān)心用戶的公司最終可能也沒法實(shí)現(xiàn) AGI。 海外獨(dú)角獸:怎么看 MoE?有一種說法是 MoE 不是真正的 scale up,只有 scale up dense model 才會(huì)提升模型的能力。 楊植麟:你可以認(rèn)為帶 MoE 和不帶 MoE 是兩條 scaling law。本質(zhì)上 scaling law 刻畫的是 loss 跟參數(shù)量之間的關(guān)系。MoE 改變了這個(gè)函數(shù),讓你能夠用更大的參數(shù),但同時(shí) FLOPs 不變。合成數(shù)據(jù)改變的是另一個(gè)關(guān)系,F(xiàn)LOPs 不變的情況下讓數(shù)據(jù)規(guī)模增長。 沿著 scaling law 一直走是個(gè)有確定性的事情,大家通過試圖改變 scaling law 里的具體關(guān)系來獲得更高的 efficiency,多出來的 efficiency 就是各自的優(yōu)勢。 現(xiàn)在很多人覺得做出 MoE 就可以實(shí)現(xiàn) GPT-4。我覺得這是片面的說法,最終更實(shí)質(zhì)的可能還是如何有一個(gè)統(tǒng)一的表示空間以及可規(guī)模化的數(shù)據(jù)生產(chǎn)。 海外獨(dú)角獸:如果算力足夠,會(huì)有人想做一個(gè)萬億參數(shù)的 dense model 嗎? 楊植麟:取決于推理成本的下降速度,但我覺得肯定會(huì)有?,F(xiàn)在大家是因?yàn)橥评沓杀咎?,所以都在?tradeoff。但是最終直接訓(xùn)練一個(gè)萬億的 dense model 肯定效果會(huì)比一個(gè)只有千億參數(shù)的模型要好。 海外獨(dú)角獸:Anthropic 一直在提模型的可解釋性,這一點(diǎn)其實(shí)有蠻多爭論。你是如何思考可解釋性的?因?yàn)閯倓偰阋蔡岬搅四P褪且粋€(gè)黑盒,并且其實(shí)人類到現(xiàn)在還沒有弄清楚自己的大腦是怎么工作的。 楊植麟:可解釋性核心是個(gè)信任的問題。建立一個(gè)信任的心智是很重要的,對應(yīng)的應(yīng)用場景甚至可能和 ChatGPT 的也會(huì)不同,比如 long-context 和搜索的結(jié)合。 當(dāng)模型完全不 hallucinate 或者概率非常低,就不需要解釋了,因?yàn)樗f的東西都是對的。而且解釋有可能也只是 alignment 的一部分,比如說 chain-of-thought 也可以被認(rèn)為是一種解釋。 Hallucination 是可以通過 scaling law 來解決。但不一定是在 pre-training 環(huán)節(jié),因?yàn)槠鋵?shí) alignment 也有 scaling law,它肯定是可以被解決的,只要你能找到對的數(shù)據(jù)。AI 本質(zhì)就是一堆 scaling law。 海外獨(dú)角獸:你對 AGI 的預(yù)期是什么?transformer 本質(zhì)還是一個(gè)統(tǒng)計(jì)概率模型,它能通往 AGI 嗎? 楊植麟:統(tǒng)計(jì)模型沒有什么問題。當(dāng) next token prediction 足夠好的時(shí)候,它能夠平衡創(chuàng)造性和事實(shí)性。 事實(shí)性一般是對統(tǒng)計(jì)模型的挑戰(zhàn),但是今天的語言模型可以有非常尖峰的分布。讓它回答“中國的首都”,模型對“北”這個(gè)字能給出 99% 的概率。同時(shí),如果我今天讓它寫一本小說,那它可能下一個(gè)詞的概率分布就會(huì)很均勻。概率其實(shí)是一個(gè)通用的表示方式。本質(zhì)上這個(gè)世界上有大量的熵,抓住確定性的東西,讓本身是混沌的東西繼續(xù)混沌。 通往 AGI 的話,long-context 會(huì)是一個(gè)很重要的點(diǎn)。所有問題都是 long-context 的問題 —— 歷史上所有的架構(gòu)演進(jìn)本質(zhì)上都是在提升有效的 context length。word2vec 最近拿了 NeurIPS 的 Test of Time 獎(jiǎng)。它在 10 年前用一個(gè)詞去預(yù)測周圍的詞,相當(dāng)于 context length 是 5。RNN 把有效的 context length 提升到了 20。LSTM 漲到大幾十。transformer 到了幾千?,F(xiàn)在我們能做到幾十萬。 如果你有 10 億的 context length,今天看到的問題都不是問題。 此外,其實(shí)無損壓縮就是在一片混沌中學(xué)習(xí)確定性。一個(gè)極端的例子是等差數(shù)列,給定前兩個(gè)數(shù),接下來每一個(gè)數(shù)都是確定的,不存在混沌,所以一個(gè)完美的模型可以還原整個(gè)數(shù)列。但真實(shí)世界的很多數(shù)據(jù)都存在噪聲,我們需要過濾掉這些噪聲,讓模型只學(xué)能學(xué)習(xí)到的內(nèi)容。在這個(gè)過程中,對于那些不確定的可能性,也要分配足夠的概率。舉個(gè)例子,如果要生成一張圖片,那么它的 loss 會(huì)比生成一段文字更高,這是因?yàn)閳D片包含了更多的混沌和信息量,但只需捕捉其中你能掌握的部分,剩余的部分可以認(rèn)為是有概率發(fā)生的。比如,水杯的顏色是綠色還是紅色就是有概率會(huì)發(fā)生的,但顏色這個(gè)信息不會(huì)改變“水杯長什么樣”這件事,所以這里面需要重點(diǎn)學(xué)習(xí)的就是水杯的形狀,至于它的顏色,就要做一個(gè)概率分配。 海外獨(dú)角獸:context length 的提升存在什么規(guī)律?有技術(shù)可預(yù)見性嗎? 楊植麟:我自己感覺存在 context length 的摩爾定律。但需要強(qiáng)調(diào):給定長度下的準(zhǔn)確率也非常重要,需要同時(shí)優(yōu)化長度和準(zhǔn)確率(無損壓縮)兩個(gè)指標(biāo)。 在保證模型能力和智商的情況下,我覺得大概率 context length 的提升是指數(shù)級(jí)增長的。 02. 多模態(tài):大部分架構(gòu)不值得被 scale up 海外獨(dú)角獸:大家都期待多模態(tài)會(huì)在 2024 年爆發(fā),相比文本,多模態(tài)的技術(shù)難度會(huì)在哪里? 楊植麟:現(xiàn)在 state-of-the-art 的視頻生成模型的 FLOPs 其實(shí)比語言模型少一個(gè)數(shù)量級(jí)以上,并不是大家不想 scale up,而是大部分架構(gòu)不值得這么做。 19 年最流行的是架構(gòu)是 BERT,后來大家問為什么沒有人去 scale BERT,其實(shí)是因?yàn)橹档帽?scale 的架構(gòu)需要具備 scalability 和 generality 這兩個(gè)條件。我不認(rèn)為 BERT 沒有 scalability,但是你能明顯看到它沒有 generality —— 不管 scale 到多大,它都不可能給你寫一篇文章。多模態(tài)過去幾年也是卡在架構(gòu)上,缺少真正通用的、有人愿意去 scale 的模型。Diffusion 明顯不是,scale 上天了它也不可能是 AGI。今天 auto-regressive 的架構(gòu)帶來了一些新的可能,犧牲了一些效率解決了通用性。 Auto-regressive 本身是 scalable 的,但是 tokenizer 不一定,或者最后就不需要 tokenizer,這是 24 年的核心問題。 海外獨(dú)角獸:如果 tokenizer 不 scalable ,我們需要一個(gè) transformer 之外全新的架構(gòu)嗎? 楊植麟:光說 transformer 本身,我覺得問題不大。核心還是解決 tokenizer 的問題。transformer 架構(gòu)其實(shí)已經(jīng)發(fā)生很多變化了,今天做 long-context、做 MoE,都不是標(biāo)準(zhǔn)的 transformer。但是 transformer 的靈魂或者思想肯定還會(huì)存在很長時(shí)間,核心是怎么在這個(gè)思想基礎(chǔ)上解決更多問題。 海外獨(dú)角獸:其實(shí) context length 無限長的話,我們也不需要 tokenizer 了? 楊植麟:對。本質(zhì)上模型足夠強(qiáng)的話,它可以處理任何的 token、pixel、byte。有了無限長的 context length,你可以直接把硬盤上所有的東西都輸給它,它會(huì)變成你真正的新計(jì)算機(jī),根據(jù)這些 context 采取行動(dòng)。 海外獨(dú)角獸:OpenAI、Anthropic 等領(lǐng)先的模型公司覺得 2024 年的一大瓶頸會(huì)是數(shù)據(jù),所以他們對怎么用合成數(shù)據(jù)期待比較高,你怎么看合成數(shù)據(jù)? 楊植麟:一個(gè)值得被 scale up 的架構(gòu)是基礎(chǔ),這個(gè)架構(gòu)首先得支持不斷加入更多數(shù)據(jù),然后數(shù)據(jù)才會(huì)真的成為瓶頸。我們現(xiàn)在說的數(shù)據(jù)瓶頸,從文本模態(tài)上,2024 年就會(huì)遇到,但多模態(tài)數(shù)據(jù)的引入進(jìn)來會(huì)把這個(gè)問題推遲 1-2 年。 如果視頻和多模態(tài)的卡點(diǎn)解決不了,那文本的數(shù)據(jù)瓶頸就會(huì)很關(guān)鍵。這點(diǎn)上其實(shí)我們也有些進(jìn)展 —— 如果限定了問題,比如數(shù)學(xué)或者寫代碼,數(shù)據(jù)是相對好生成的。通用的問題現(xiàn)在還沒有完全的解法,但是存在一些方向可以去探索。 海外獨(dú)角獸:2025 年的瓶頸會(huì)是能源?因?yàn)榈綍r(shí)候單個(gè)集群規(guī)模很大,對能源帶來挑戰(zhàn)。 楊植麟:這些問題其實(shí)是連在一起的,最后可能是多模態(tài)解決數(shù)據(jù)問題,合成數(shù)據(jù)解決能源問題。 到了 GPT-6 這一代,掌握合成數(shù)據(jù)技術(shù)的玩家會(huì)體現(xiàn)出明顯差距。因?yàn)閿?shù)據(jù)其實(shí)有兩種,一種是做 pre-training 的數(shù)據(jù),另外一種是獲取成本更高的 alignment 數(shù)據(jù)。如果掌握了數(shù)據(jù)生成技術(shù),alignment 的成本可能會(huì)降低好幾個(gè)數(shù)量級(jí),或者能用一樣的投入產(chǎn)生更大的幾個(gè)數(shù)量級(jí)的數(shù)據(jù),格局就會(huì)發(fā)生變化。 我覺得 2025、2026 年可能是很重要的 milestone —— 模型的大部分計(jì)算量會(huì)發(fā)生在模型自己生成的數(shù)據(jù)上。 26 年的時(shí)候也許模型用于推理的計(jì)算量會(huì)遠(yuǎn)遠(yuǎn)大于訓(xùn)練本身,可能花 10 倍的成本去推理,推理完之后花一倍的成本來訓(xùn)練。會(huì)出現(xiàn)新的范式,推理即訓(xùn)練,而且這個(gè)推理不是為任何用戶服務(wù)的,只為自己本身的合成數(shù)據(jù)服務(wù)。 出現(xiàn)這種情況的話,能源的問題也解決了,因?yàn)橥评硎强梢苑植际降?。而且它不違背定律,本質(zhì)還是個(gè)能源守恒。只不過我把計(jì)算范式改變了,讓能源能夠以分布式的方式解決。 03. 超級(jí)應(yīng)用:模型的微調(diào)可能最終不存在 海外獨(dú)角獸:Google 和抖音背后的搜索和推薦有很強(qiáng)的飛輪效應(yīng),算法能根據(jù)用戶的行為實(shí)時(shí)反饋,用戶體驗(yàn)也能不斷提升。LLM 現(xiàn)在無法實(shí)時(shí)反饋用戶行為,AI-Native 產(chǎn)品的飛輪效應(yīng)會(huì)是什么? 楊植麟:我深入思考過這個(gè)問題。AI-Native 產(chǎn)品最終的核心價(jià)值是個(gè)性化交互,這是以前技術(shù)實(shí)現(xiàn)得不好的,所以這個(gè)問題其實(shí)是關(guān)于個(gè)性化的 —— 怎么讓用戶使用你的產(chǎn)品多了之后,獲得高度個(gè)性化的互動(dòng)體驗(yàn)。今天對許多產(chǎn)品來說,這個(gè)個(gè)性化程度幾乎為零。以前我們只能做個(gè)性化的推薦,但現(xiàn)在,用戶可以與產(chǎn)品進(jìn)行互動(dòng)。這種互動(dòng)是高度擬人化和個(gè)性化的。怎么實(shí)現(xiàn)這一點(diǎn)? 我覺得這背后實(shí)際上是個(gè)技術(shù)問題。傳統(tǒng) AI 時(shí)代,要實(shí)現(xiàn)個(gè)性化,需要持續(xù)更新模型,用小模型解決單點(diǎn)問題。大模型時(shí)代,實(shí)現(xiàn)個(gè)性化的一種方式是微調(diào),但我認(rèn)為微調(diào)可能不是本質(zhì)的方法,長期來看可能不會(huì)存在模型的微調(diào)。為什么?當(dāng)你的模型指令跟隨能力、推理能力、上下文一致性能力越來越強(qiáng)時(shí),所有東西只需要放在內(nèi)存里就可以。比如你的大模型內(nèi)存有一堆 prefix 這樣的東西用來 follow,成本可以降到非常低。最終,你對模型個(gè)性化的過程實(shí)際上就是你所有的交互歷史,也是一個(gè)包含了你的偏好和反饋的集合,這些反饋會(huì)比上個(gè)時(shí)代的產(chǎn)品更直接,因?yàn)樗峭耆ㄟ^對話界面產(chǎn)生的。 海外獨(dú)角獸:你們先做 lossless long-context 這個(gè)決策是怎么做出來的? 楊植麟:我覺得最重要的還是以終為始地思考這個(gè)事。大模型作為新的計(jì)算機(jī)肯定也需要很大的內(nèi)存,因?yàn)榕f的計(jì)算機(jī)的內(nèi)存在過去幾十年的時(shí)間里面至少增長了幾個(gè)數(shù)量級(jí),而且舊的計(jì)算機(jī)也是一開始的時(shí)候只有很少的內(nèi)存。第二點(diǎn)就在于 AI 的終極價(jià)值是個(gè)性化。 海外獨(dú)角獸:OpenAI 其實(shí)也有一定的 long-context 了。 楊植麟:它還沒有把用戶的交互過程真正視為個(gè)性化的場景。比如,如果我們?nèi)?ChatGPT prompt 某個(gè)東西, 不管是今天還是明天,只要模型版本相同,可能效果基本上差不多,這就是我說的缺乏個(gè)性化。 最終所有東西都是指令遵循。只不過你的指令會(huì)越來越復(fù)雜。今天你的指令一開始可能是 10 個(gè)詞,但是你到后面有可能它就是 1 萬個(gè)詞、 100 萬個(gè)詞。 海外獨(dú)角獸:Chatbot 一直是 AI 科學(xué)家的白月光,如果每個(gè)用戶每天和 Chatbot 對話幾百條,Chatbot 系統(tǒng)能采集和理解更多的用戶 context,最終會(huì)大幅超越搜索和推薦系統(tǒng)的匹配準(zhǔn)確率嗎?就像我們和同事家人之間的互動(dòng),只需要一句話甚至一個(gè)眼神對方就懂你的意思。 楊植麟:核心是跨越信任這一步。 我覺得最終衡量一個(gè) AI 產(chǎn)品的長期價(jià)值,就是看用戶愿意在它上面輸入多少個(gè)人化的信息,然后 lossless long-context 和個(gè)性化負(fù)責(zé)把這些輸入變成有價(jià)值的東西。 可能也還需要新的硬件形態(tài),但我覺得模型和軟件現(xiàn)在也還是個(gè)瓶頸。因?yàn)橐偻裸@一層,讓用戶輸入很多信息的前提是 trust,是你需要有足夠 engaging 和 human like 的AI。不能說是我為了得到你的信息所以專門設(shè)置了一些產(chǎn)品功能。最終效果應(yīng)該是用戶和 AI 成為了朋友,那所有事情都可以跟它說。 Inflection Pi 的 motivation 其實(shí)是很好的,想要建立強(qiáng)信任,只是 Pi 可能要再往前推一步,到底怎樣跟用戶去建立信任,人類社會(huì)可能并不接受指派一個(gè)終身搭檔的做法,這有點(diǎn)反人性。 海外獨(dú)角獸:月之暗面想做超級(jí)應(yīng)用,你自己理想中的超級(jí)應(yīng)用長什么樣子?多大才算超級(jí)? 楊植麟:還是看破圈程度。周圍的親戚都在用,你才真正成為超級(jí)應(yīng)用。而且我認(rèn)為 AI 能力的提升會(huì)領(lǐng)先于產(chǎn)品破圈。比如假設(shè)今天 character.ai 是非常完美的多模態(tài)模型,那我覺得它破圈的概率至少會(huì)大 10 倍。最終一個(gè)應(yīng)用的上限體現(xiàn)在以年為維度的 AI 和人的 connection 的增加。 04. 月之暗面:最好的人才需要 unlearn 能力 海外獨(dú)角獸:AGI 公司最理想的 CEO 畫像應(yīng)該是什么樣的? 楊植麟:一方面需要有 tech vision。不能一直做別人已經(jīng)證明過的東西。真的 AGI 公司必須有自己獨(dú)特的技術(shù)判斷,而且這個(gè)判斷應(yīng)該影響到公司的整體方向。如果一號(hào)位不能拍板也不行。我們年初已經(jīng)在做 auto-regressive 的多模態(tài)、lossless long-context 了,但它們都是最近一兩個(gè)月才變得非常火,甚至即使今天,lossless long-context 仍然不是一個(gè)共識(shí)。但如果今天才看到這個(gè)事情,已經(jīng)沒有足夠多的時(shí)間去迭代,最后會(huì)變成跟隨者。 第二點(diǎn)是能夠很深刻的理解 AI-Native 產(chǎn)品的開發(fā)方式,然后基于新的生產(chǎn)方式適配一套組織。以前做產(chǎn)品是通過了解用戶的需求設(shè)計(jì)功能,新時(shí)代需要在制造的過程中完成設(shè)計(jì)。ChatGPT 就是通過制造完成設(shè)計(jì),并沒有先設(shè)計(jì)出來一堆場景再找對應(yīng)的算法。Kimi 的用戶自己去上傳簡歷然后做篩選,也是我們上線之前完全沒有測試過的用例。 資源獲取肯定也很重要。其中主要燒錢的是算力。早期靠融資,到后面就需要更多的產(chǎn)品商業(yè)化。商業(yè)化也不能照搬上一個(gè)時(shí)代成熟的東西創(chuàng)新,所以好的 CEO 和團(tuán)隊(duì)?wèi)?yīng)該有一定經(jīng)驗(yàn),但同時(shí)也有很強(qiáng)的學(xué)習(xí)和迭代能力。 海外獨(dú)角獸:但有可能投資人分辨不出來到底誰的 tech vision 是最領(lǐng)先的。 楊植麟:我不太擔(dān)心這個(gè)問題?,F(xiàn)在就是最好的分配方式,更接近一個(gè)自由市場,最后會(huì)有最高的分配效率。我們要跟別人證明的也不是我們的 vision,因?yàn)?vision 是一個(gè)抽象的東西,還是要通過真實(shí)的 deliver 模型和產(chǎn)品。Anthropic 放出 Claude 這些模型之后,馬上就得到了更多的資源。市場是公平的。 海外獨(dú)角獸:從建立產(chǎn)品和公司競爭壁壘的角度,工業(yè)時(shí)代講究規(guī)模效應(yīng),互聯(lián)網(wǎng)時(shí)代講究網(wǎng)絡(luò)效應(yīng),AGI 時(shí)代會(huì)有新范式嗎? 楊植麟:短期是組織方式的變化帶來技術(shù)上的提升 —— 你通過更好的組織帶來更好的技術(shù),然后在產(chǎn)品上直接傳遞出更好的體驗(yàn)。 長期大概率還是網(wǎng)絡(luò)效應(yīng)。問題在于網(wǎng)絡(luò)效應(yīng)的體現(xiàn)方式是什么?比如以前互聯(lián)網(wǎng)的雙邊網(wǎng)絡(luò)可能仍然會(huì)存在,但并不是用戶和創(chuàng)作者雙邊。AI-Native 產(chǎn)品的雙邊網(wǎng)絡(luò)可能體現(xiàn)在個(gè)性化上,用戶和 AI 存在一種共創(chuàng)的關(guān)系。 所以我現(xiàn)在看到值得探索的是兩點(diǎn):模型能力的持續(xù)提升,另一個(gè)是雙邊效應(yīng)。它們會(huì)在新時(shí)代帶來新的范式?,F(xiàn)在 Midjourney 在雙邊效應(yīng)上已經(jīng)爆發(fā)了,Stable Diffusion 作為開源模型就尷尬在單邊太分散,只能依賴 base model 的提升。 海外獨(dú)角獸:從招聘角度,你怎么定義好的人才? 楊植麟:我會(huì)拆成經(jīng)驗(yàn)和學(xué)習(xí)來看。學(xué)習(xí)是一個(gè)通用的能力,不光是 learn,還要 unlearn,特別是以前的成功經(jīng)驗(yàn)。假設(shè)你是從 0 到 1 做了 YouTube,現(xiàn)在做 AI 產(chǎn)品可能比別人更難,因?yàn)橐?unlearn 很多東西。學(xué)習(xí)比經(jīng)驗(yàn)重要??赡茉龠^ 5 年的話, AI 行業(yè)會(huì)培養(yǎng)出來很多所謂的成熟職能。今天我覺得其實(shí)劃分職能沒有什么意義,需要每個(gè)人都很多面。 海外獨(dú)角獸:什么樣的 researcher 才會(huì)有 tech vision? 楊植麟:核心是兩點(diǎn),一個(gè)是抓大放小,一個(gè)是終局思維。我跟很多 researcher 合作過,容易出現(xiàn)的一個(gè)問題就是過分雕花,容易在局部里看到有很多可以優(yōu)化的東西,比如我們發(fā)現(xiàn) transformer 解決了 LSTM 的 context length 問題,但如果再跳出來一層,就會(huì)發(fā)現(xiàn)本質(zhì)上每一代技術(shù)都是在提升 context length。 海外獨(dú)角獸:你覺得月之暗面還需要多少這樣的人才? 楊植麟:客觀上來說,限制我們的肯定還是供給?,F(xiàn)在 AGI 的人才稀缺在于經(jīng)驗(yàn),但其實(shí)擁有學(xué)習(xí)能力的人才還是很多的。 但是需求角度,整個(gè)組織不能太大 —— 把自己活生生又弄成了大廠的話,很多組織優(yōu)勢就丟失了。所以我們肯定還是會(huì)維持一個(gè)精簡高效的組織。我覺得一個(gè)核心判斷是 AGI 不需要那么多人。而且長期來看,真的“拔掉了數(shù)據(jù)”之后,GPT-6 水平之后的模型完全可以自我進(jìn)化,這樣才能突破人類已有能力的邊界。 海外獨(dú)角獸:你怎么看追平 GPT-4 的難度和時(shí)間? 楊植麟:Benchmarking 刷到 GPT-4 非常簡單,但是達(dá)到它的實(shí)際效果肯定有難度的,而且靠的不只是資源,Google 已經(jīng)驗(yàn)證了這一點(diǎn)。其實(shí) GPT-4 的訓(xùn)練成本也沒那么高,大幾千萬美元不是一個(gè)很嚇人的數(shù)字,對我們來說是好事,并且我們已經(jīng)有比較好的進(jìn)展。 最重要的還是底層有 tech vision 去預(yù)判 GPT-5 和 GPT-6 應(yīng)該是什么樣,然后提前去執(zhí)行和積累,不然永遠(yuǎn)都不可能超越 Open AI。OpenAI 的很多紅利也在于提前預(yù)判,它在 2018 年就大概相信自己在探索正確的方向,花了很長時(shí)間積累。 海外獨(dú)角獸:讓你來做圖片生成這種產(chǎn)品的話,你會(huì)怎么做?怎么兼顧語言理解和圖片質(zhì)量? 楊植麟:現(xiàn)在 Midjourney 在圖片生成這個(gè)單一任務(wù)已經(jīng)做得特別好了,我來做的話會(huì)希望它能做很多任務(wù),同時(shí)在其中的一些任務(wù)也能做得很好。這其實(shí)也是 OpenAI 的思路,只是它其實(shí)沒做成功。 AGI 公司應(yīng)該是入口邏輯,讓用戶默認(rèn)用你,此外特定人群會(huì)有一些特殊需求和對極致效果的追求,所以市場里還存在 Midjourney 之類公司的機(jī)會(huì)。但是 AGI 的通用性足夠強(qiáng)大時(shí),很多用戶也會(huì)轉(zhuǎn)移 —— 如果今天我把 Photoshop 整個(gè)軟件都重新封裝成一個(gè) prompt,它變成大家一個(gè)外包的全能設(shè)計(jì)師,那會(huì)有更少的人用 Midjourney。 Midjourney 今天的地位在于它通過先發(fā)優(yōu)勢讓飛輪跑起來了。比較 tricky 的是未來還會(huì)不會(huì)有這種時(shí)間窗口,如果沒時(shí)間窗口,那很可能直接被通用模型碾壓。 海外獨(dú)角獸:沿著入口邏輯的話,你覺得未來會(huì)有幾個(gè)入口? 楊植麟:至少有兩個(gè),一個(gè)是有用的,一個(gè)是好玩的。 信息入口可能不存在了,因?yàn)槲覀兯褜ば畔⒈举|(zhì)上是希望端到端完成一個(gè)任務(wù)。智能的入口以后大概率會(huì)覆蓋搜索引擎這類信息入口。人獲取信息并不是終極需求,它只是一直被強(qiáng)行定義成一種需求。有些時(shí)候我們是希望完成一件事,有些時(shí)候是希望學(xué)習(xí)某個(gè)東西,AGI 的入口應(yīng)該直接幫用戶完成任務(wù),而不是幫他們獲取信息。 海外獨(dú)角獸:從今天到實(shí)現(xiàn)你理想中的 AGI 還需要多少錢? 楊植麟:嚴(yán)格的 AGI 還需要百億美元級(jí)別。但是它不是一步到位,你需要跑起來一個(gè)循環(huán),業(yè)務(wù)能夠自己產(chǎn)出對應(yīng)的資源。這個(gè)百億美元推論的原因是 scale up 的規(guī)模還需要至少 2-3 個(gè)數(shù)量級(jí)。當(dāng)然,過程中會(huì)伴隨著成本的優(yōu)化。 海外獨(dú)角獸:AGI 公司的商業(yè)模式應(yīng)該是什么樣的?還會(huì)是 seat-based 或者 usage-based 嗎? 楊植麟:AGI 幫你完成的每個(gè)任務(wù)對應(yīng)的價(jià)值不一樣。它可能類似一個(gè)外包,按照每個(gè)任務(wù)定價(jià)。除此之外,在任務(wù)解決過程中,廣告肯定還會(huì)扮演重要角色,基于個(gè)性化互動(dòng)和對話的行為,廣告的變現(xiàn)效率可能比現(xiàn)在要高很多。 海外獨(dú)角獸:假如 GPT-4.5、Claude-3、Gemini-2.0 的訓(xùn)練成本是 3 億美元左右,再往后到 2025 年下一代模型的訓(xùn)練成本可能要漲到幾十億美元,那要探索出 AGI 會(huì)是一場千億美元豪賭,你思考過它最終對人類社會(huì)的影響嗎? 楊植麟:相對確定的一點(diǎn)是實(shí)打?qū)嵉纳a(chǎn)力提升?,F(xiàn)在用一個(gè)軟件,其實(shí)對應(yīng) 1000 個(gè)程序員的智能,是固定的,以后我們用的應(yīng)用背后可能對應(yīng) 100 萬個(gè)人的智能,而且每天都在迭代。 看可能性的話,今天的一切都會(huì)變化。這么多語言被訓(xùn)練到一起,對文化、價(jià)值觀都有影響。人的時(shí)間分配可能也會(huì)產(chǎn)生很多變化,真正為了錢工作的人可能會(huì)變少,更多時(shí)間可能花在精神世界里面,最后可能會(huì)有一個(gè)巨大的虛擬的精神空間。要實(shí)現(xiàn) Metaverse,可能其實(shí)是要先實(shí)現(xiàn) AI。 另外,我相信 AGI 最終是全球化的。 海外獨(dú)角獸:但是現(xiàn)在我們判斷領(lǐng)先的模型又強(qiáng)又便宜,會(huì)有很強(qiáng)的馬太效應(yīng),最后格局還是很收斂。 楊植麟:5 年的時(shí)間窗口的話,頭部效應(yīng)還是會(huì)明顯。但是 50 年之后,我相信 AGI 肯定是同質(zhì)化的,跟今天的電沒有什么區(qū)別。 |
|