OpenAI、微軟押注，大模型應用的盡頭是AI Agent ？｜對話面壁智能

精誠至_金石開 2023-11-20 發(fā)布于上海

展開全文

文｜郝鑫

編｜劉雨琦

你見過Agent們“吵架”么？

“這個產品需要具備XX需求，為什么沒有？”，“你提出的需求完全不合理，技術上達不到！”，現(xiàn)場頓時亂作一團，越來越多的“員工”也被卷進了這場大亂斗中。

激烈的爭吵聲越過了屏幕外，面壁智能的測試人員通過后臺日志，發(fā)現(xiàn)Agents正在上演一場“職場大戲”。

這家完全由AI Agents組成的軟件開發(fā)公司，是面壁智能基于其創(chuàng)新研發(fā)的開源框架ChatDev開發(fā)的SaaS產品，產品經理和技術開發(fā)的Agents們“繼承”了現(xiàn)實中的角色，在數(shù)字世界中也“Battle”了起來。

大模型之后，應用層到底駛向何方一直是創(chuàng)業(yè)公司討論的核心話題，在最近，這個問題似乎有了答案。

OpenAI再次成為了“行業(yè)模版”，通過GPTs打造Agent功能一經開放，一天內就涌現(xiàn)了2萬多個GPTs。

而早就發(fā)現(xiàn)Agent確定性機會的面壁智能，也終于不用再煞費苦心地給投資人解釋，究竟何為Agent，以及為什么Agent潛力巨大。

目前，在行業(yè)內關于AI Agent達成一定共識的，主要是來自OpenAI的一篇博文。在里面對AI Agent的定義為：大語言模型作為大腦，Agent有感知、規(guī)劃、記憶、和使用工具的能力，能自動化實現(xiàn)用戶復雜目標，這也奠定了AI Agent的基本框架。

（AI Agent的基本框架）

雖然AI Agent的概念早已有之，今年年初也冒出了一些曇花一現(xiàn)的構想，但因為底層大模型技術能力的不成熟、不完善，所以直到現(xiàn)在才得以爆發(fā)。

從結果來看，AI Agent發(fā)展分為兩個階段，一個是以OpenAI的GPTs為代表的單體智能，發(fā)展到后期，則進入了像面壁智能打造的ChatDev這種多智能體協(xié)作的群體智能階段。

幾乎與國外“斯坦福小鎮(zhèn)”同期，面壁智能直接進入了群體智能的第二階段。

（斯坦福小鎮(zhèn)示意圖）

(面壁智能ChatDev群體智能交流鏈示意圖）

“我們從一開始就從群體智能開始切入，發(fā)布了ChatDev多智能體協(xié)作開發(fā)框架 ”，面壁智能產品負責人告訴光錐智能。

據(jù)了解，面壁智能的核心科研成員來自于今年大模型創(chuàng)業(yè)浪潮中的“半壁江山”——清華大學NLP實驗室，聯(lián)合創(chuàng)始人劉知遠是清華大學計算機系長聘副教授、智源青年科學家，其聯(lián)合創(chuàng)始人、CEO也是知乎的CTO李大海。

那么，選擇了一條比OpenAI還難走的路，在大模型時代，作為國內最早一批深入AI Agent的公司，面壁智能如何思考AI Agent技術，對AI Agent未來發(fā)展又有怎樣的判斷？帶著重重疑惑，光錐智能對話面壁智能，尋找關于AI Agent的答案。

核心觀點如下：

1、AI Agent就是下個時代大模型賦能整個應用場景的一種新模態(tài)。

2、現(xiàn)階段，AI Agent呈現(xiàn)出的更多是一種“擬人化”的形式。它可被定義為“分身”、“員工”和任意“個體”。

3、Copilot和Agent不是同一個概念，Agent實現(xiàn)的是全自動化的決策、運行和反饋。

4、用Agent開發(fā)軟件，能夠把幾萬元的開發(fā)成本降至幾十元，甚至幾元。

5、大模型是Agent的“輸血泵”，賦能Agent原子化能力，決定其干得好不好。

以下為對話實錄：

光錐智能：面壁一詞來源于《三體》中的面壁計劃，面壁智能是一家什么樣的公司？與其他大模型公司相比，面壁智能有什么特殊的地方？

面壁智能：面壁智能是一家集學術研究、技術開源和產品商業(yè)化為一體的公司。

整體上分為三個部分：首先是清華NLP實驗室，與我們共同進行底層前沿的科研探索；其次是開源社區(qū)OpenBMB，我們會把一些前沿的一些技術、科研成果開放給更多的開發(fā)者和行業(yè)；另外就是面壁智能，基于所有的科研沉淀和開源框架，進行應用研發(fā)和整體商業(yè)化落地，由此形成了以面壁智能為樞紐的產學研聯(lián)動“一體兩翼”的架構。

具體到面壁智能這家公司，公司的愿景和理念是“智周萬物”（Internet of Agents)，即讓 AI Agents連接萬物，實現(xiàn)從“萬物互聯(lián)”到“萬物智聯(lián)”。

以前有互聯(lián)網(wǎng)，后面有物聯(lián)網(wǎng)，面壁智能認為在當前這個時代，大模型以及以大模型孵化的AI能力，是下一個時代新的拐點，期望把我們在大模型、AI方面的基礎能力賦能到方方面面，從而讓整個行業(yè)、社會有一個新的提升。

光錐智能：為什么一開始就選擇了AI Agent這個方向？有哪些契機和思考？

面壁智能：大模型想要落地到具體場景，AI Agent是重要路徑，它代表的是比“裸”模型更擬人的使用體驗。我們判斷未來會是Agent的世界，萬物都是Agent。

比如電飯鍋可以是Agent，放入食材后，我們跟它說要熬粥，它就會根據(jù)熬粥的邏輯，去設定相應的加熱方式。冰箱也會是Agent，如果它的冷卻劑漏了，它會跟我們對話，說自己需要維修了，或者它已經打完了維修電話，通知維修師傅上門時間；或者提醒我們上周蔬菜買多了，要趕緊吃掉，否則菜就壞了。

基于此，我們對于未來世界才有了“智周萬物”的設想以及面壁智能的定位：一家基于大模型驅動Agent技術的公司，技術研發(fā)方向從模型基座到Agent技術，再到最終的應用。

光錐智能：在行業(yè)內，對AI Agent的定義都還沒達成共識，面壁智能如何定義AI Agent？

面壁智能：現(xiàn)階段，AI Agent呈現(xiàn)出的更多是一種“擬人化”的形式。它可被定義為“分身”，也可以被定義成某個“員工”，也可以被定義成組織中的一個“個體”，甚至到高階階段，也可以連接“物體”。如果單獨的物體也不是最后的形態(tài)，那它的定義應該是一個完完全全新的東西。

我們認為在一個理想技術路線下，AI Agent至少應該具備以下幾個能力：第一是，應該具備超級高的智商，無論是學習使用工具、規(guī)劃，還是記憶、知識儲備，其實都是智商的一部分；第二是，應該具備超級高的情商，需要其能夠針對不同的場景和不同需求的用戶有較強的自然對話能力和理解能力；第三是自省和成長迭代能力；第四多模態(tài)能力，能夠模擬人的聽、說、看、想，具備跟整個自然世界交流的能力；第五是價值觀對齊能力，AI Agent也需要像人一樣受到社會價值觀和道德取向的約束；第六是可被定義的能力，根據(jù)人的需求和設定，隨時變化出一個特定的形態(tài)。

光錐智能：很多人分不清Copilot與Agent，或者將二者粗略的畫等號，您怎么看？如果有差異，差異在哪？

面壁智能：這還是兩個不同理念的東西。假如說未來你可以去基于Agent搭建一個數(shù)字公司，對這個數(shù)字公司而言，95%的情況下可以自己運轉，但過程中他會反問你，公司的核心目標是什么？期望達到的銷售額是多少？你在公司的投入有多少？在實際運行過程中，遇到難以決策的問題也會尋求你的幫助，你需要把知識、經驗、需求、預期等喂給它，在交互過程中實現(xiàn)自動化的公司經營；這跟基于人設定的邏輯，輔助處理問題的邏輯完全不一樣。類似ChatDev這種群體智能自動化創(chuàng)造的產品、就是奔著Agent自動化運轉的思路去做的實踐。

光錐智能：您認為AI Agent的確定性機會在哪？在這個十分不確定的大模型時代，為什么認為這條路能行得通？

面壁智能：回顧幾次工業(yè)革命變遷，背后都是生產力的躍升。從蒸汽機、電力再到如今的人工智能，生產力的變革帶來了整個社會生產關系、生產工具的重塑。在大模型時代，我們認為AI Agent就是這樣具有生產力性質的技術，其能力強、效率高的特性決定了，它可以在某種程度上模擬一個人、一個組織、一個公司，大幅提升生產效率和交互方式。雖然現(xiàn)在AI Agent發(fā)展仍在早期，但其未來的潛力卻是無窮的，本身的商業(yè)化路徑也十分清晰，從單體智能到群體智能，從技術到產品再到商業(yè)化，由此才堅定了我們確定AI Agent 方向的決心。

未來可能就是工程師去做構思，理解市場需求，然后將需求拆解交付給AI，讓AI去完成一些低水平的重復勞動、以及部分創(chuàng)造性的工作，解放人的生產力。這有助于未來千行百業(yè)都能把AI相關軟件應用起來，進而更好地推行全面數(shù)字化和信息化。

光錐智能：2023年至今，面壁智能在AI Agent這個方向，做了哪些探索？有哪些產品和思考？

面壁智能：基于AI Agent，我們打造了三個引擎，用以連接大模型和現(xiàn)實環(huán)境，它們分別是大模型驅動的AI智能體應用框架XAgent，智能體通用平臺AgentVerse和多智能體協(xié)作開發(fā)框架ChatDev，以上三個引擎也被內部稱為AI Agent“三駕馬車”。

ToB方向AI Agent可能成為企業(yè)內部的不同工種，重塑企業(yè)組織流程，提效的同時，最后實現(xiàn)完全由AI Agent組建、運營起來的公司；ToC方向，AI Agent可能是智能助理等。

（XAgent數(shù)據(jù)分析示意圖）

XAgent大模型驅動的超強AI智能體應用框架

通過大模型打造一個像人一樣，具備一個高智商、情商、記憶力的超級智能體，在真實復雜任務的處理能力已全面超越AutoGPT。

AgentVerse大模型驅動的智能體通用平臺

偏向通用化的Agent開發(fā)平臺，在上面用戶可以自定義構造專屬Agent。

ChatDev大模型驅動的多智能體協(xié)作開發(fā)框架

AI Agent應用的具體開發(fā)框架，目前，已經跑出了落地的ChatDev產品，核心功能是允許用戶使用自然語言開發(fā)軟件。

光錐智能：能否以剛發(fā)布的ChatDev SaaS產品為例，更清晰地拆解面壁智能產品化的思路？

面壁智能：簡單概括就是，讓用戶能夠通過一句話的自然語言，去開發(fā)一款具體的軟件，這將大大降低軟件開發(fā)的門檻。

在這個軟件公司里，會有CEO、CTO、開發(fā)經理、產品經理、測試專員、監(jiān)督員等，只要用戶把明確的需求告訴CEO角色的Agent，這個CEO就會基于用戶的需求，組織整個軟件開發(fā)流程。最后交付給用戶的包含了軟件產品和整個開發(fā)過程中的代碼，并且所有流程都是自動化的。

（ChatDev軟件開發(fā)過程）

這里面留給用戶和開發(fā)者可自定義空間非常大，用戶可以針對已開發(fā)出的軟件提出新需求，也可以改變整個軟件的開發(fā)模式。比如我定義的軟件公司，跟別人默認的軟件公司不一樣，期望多幾個測試，把這款軟件變得更可信一些。那就根據(jù)這個具體的需求，多幾次測試，多增加幾個產品經理執(zhí)行這個想法。

光錐智能：用Agent開發(fā)軟件能夠降低多少成本？

面壁智能：如果讓軟件工程師去開發(fā)，至少需要幾萬塊錢的人工費，時間兩周起步。但使用ChatDev開發(fā)，價格只需要幾元到幾十元，最快幾分鐘就能跑通一個應用。

目前，一些相對簡單的軟件開發(fā)流程已經完全跑通了，一個沒有代碼開發(fā)經驗的小白用戶，60%的場景應用都能完全實現(xiàn)。

光錐智能：怎么去訓練一個ChatDev？

面壁智能：可以把這個事情理解成三步。

第一步是預設協(xié)作流程。在一個公司中，每個人都有固定的角色和分工。在群體智能場景中也需要一個預設的協(xié)作流程，比如在軟件開發(fā)的過程中，就可能涉及產品經理、技術研發(fā)人員、測試人員等，每個人需要在其中發(fā)揮作用，甚至有時還會出現(xiàn)像人一樣互相battle的情況。

第二步是指導和反饋機制。流程設計中有指導角色和執(zhí)行角色，通過2個角色的互動溝通，減少執(zhí)行幻覺的出現(xiàn)；同時任務完成后會有角色之間的反饋機制，類似現(xiàn)實世界中的跟老板匯報，以此來增強運行的準確性。

第三步是大模型賦予Agent原子化能力。所有AI Agent的引擎和應用都長在大模型上，光創(chuàng)建工作的協(xié)作流程還不夠，每個人還得干活兒，可以把大模型理解成“輸血泵”，AI Agent一旦有需求，大模型就把其需要的能力輸送給它。

光錐智能：ChatDev產品反過來對底層的大模型能力提出了哪些調整？

面壁智能：這很大程度取決于上層應用，拆解下來看的話，大致需要幾個基本的能力。

首先是復雜規(guī)劃和指令遵循的能力，基于對話分析項目、拆解需求、提出正確的指令的能力。在一個協(xié)同的組織里，有不同的角色發(fā)布不同的指令特別是在復雜的生產環(huán)境中，指令可能不是簡單的一句話，對于復雜的指令AI Agent能不能夠有一個思維鏈的方法，完成一個個的拆解，并且基于這個拆解去進行實際落地，也是大模型本身要去解決的。

其次是編碼能力，因為最后追求的結果是要能在真實環(huán)境里跑通，反饋、測試、修改的前提都要基于完整的代碼流程。

再次是更長token的輸入窗口能力，以后需要做更復雜的軟件，就需要更復雜的任務理解、Prompt輸入和更復雜的上下文對話能力。

最后還有格式化輸出對接的能力，對知識內容的理解能力、精準的生成表達能力等大模型的綜合能力。

光錐智能：如何理解大模型和AI Agent的關系？就AI Agent而言，面壁智能現(xiàn)在發(fā)展到了哪個階段？

面壁智能：可以把大語言模型想象成一個哆啦A夢的魔法兜，現(xiàn)實中我需要的是怎么從這個兜里拿出東西，跟現(xiàn)實世界的真實需求去連接。我們打造的“AI Agent三駕馬車”，有點像是魔法棒，將大模型的能力轉化成實際的應用。

在具體應用上：ChatDev已經走過了論文研究、開源產品上線的前兩個階段，現(xiàn)在進入了第三個階段——商業(yè)化產品孵化，會面向不同類型的用戶開放使用，以前更多是開發(fā)者討論的聲量，現(xiàn)在的產品開始正式面向普通用戶。同時，基于Agent產品面壁智能也在跟一些B端企業(yè)合作，嘗試去輔助他們完成一些更復雜的工作。

上面提到的“三駕馬車”可以視為未來誕生超級應用的土壤，現(xiàn)在AI Agent的基建已經逐步搭建起來；對于ChatDev產品中的哪些場景或者軟件應用能夠跑出來，我們也希望在用戶使用過程中再去沉淀下來一些垂直的場景需求，探索更多商業(yè)化的空間。

光錐智能：如何看待OpenAI上線的“GPTs”功能？

面壁智能：OpenAI開發(fā)的GPTs，實際上屬于單體智能，OpenAI開放出來的是基礎Agent的構建能力，如說工具調用、基于知識庫文件記憶能力。而ChatDev進化到了群體智能階段，通過多Agent協(xié)同能去實現(xiàn)更復雜、貼近真實需求的應用。

光錐智能：AI Agent的未來應該是怎樣的？

面壁智能：總體上來看，可能是更深層次的智能連接。我們說“智聯(lián)網(wǎng)”發(fā)展到后面也需要把物理連接納入進去，單體智能再往前發(fā)展也會擴展到物的智能、機器人的聯(lián)動。從群體智能角度來看，ToC或許是更大的社區(qū)化的虛擬組織，每個人的Agent都能通過虛擬數(shù)據(jù)連接在一起；ToB則是虛擬的組織、企業(yè)，不同的企業(yè)和員工都能通過智能體納入到網(wǎng)絡當中。發(fā)展至最后，整個社會將變成一個巨大的虛實結合的網(wǎng)絡，形成“智聯(lián)網(wǎng)”——IoA（Internet of Agent）。

通過不同的智能體，提供了更強的生產力，重新塑造整個生產關系，整個社會的產能也會有一個很大的提升。

特別聲明：本文為合作媒體授權DoNews專欄轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，