【原】AI Agent發(fā)展簡(jiǎn)史，從哲學(xué)思想啟蒙到人工智能實(shí)體落地

王吉偉頻道 2023-10-19 發(fā)布于山東

展開全文

AI Agent發(fā)展簡(jiǎn)史，從哲學(xué)思想啟蒙到人工智能實(shí)體落地
想了解AI智能體的發(fā)展歷程？這篇AI Agent發(fā)展簡(jiǎn)史必讀！
終于有人把AI Agent的發(fā)展史講明白了，一定要收藏
AI Agent發(fā)展簡(jiǎn)史，解密AI智能體從哲學(xué)啟蒙到落地人工智能的歷程
全面了解AI智能體發(fā)展歷程，一定要看這篇AI Agent發(fā)展簡(jiǎn)史
你可能想不到，AI Agent最早出現(xiàn)于《道德經(jīng)》和亞里士多德哲學(xué)

文/王吉偉

自AutoGPT火出圈后，業(yè)內(nèi)對(duì)AI Agent的討論從沒停止過。

Lilian Weng在其六千字博文中對(duì)AI Agent的系統(tǒng)介紹，直接對(duì)當(dāng)代基于大語言模型的AI Agent做了全新定義，至此“LLM+記憶+任務(wù)規(guī)劃+工具使用”就成了全新的AI Agent四件套。

搞懂了AI Agent原理，業(yè)內(nèi)外對(duì)于AI Agent探索與交流自然就更多。尤其是經(jīng)歷了一段時(shí)間的“LLM落地難”聲音的洗禮后，現(xiàn)在只要談到AI Agent，創(chuàng)業(yè)者們就會(huì)雙眼放光，投資人們也是熱情高漲，大企業(yè)們更是躍躍欲試。

由此，AI Agent成了繼LLM之后產(chǎn)學(xué)研用各界無人不知的嶄新焦點(diǎn)。

從人人皆談大語言模型，到張口就是AI Agent，意味著大家對(duì)LLM的關(guān)注真正落點(diǎn)到了應(yīng)用層，如何落地也真正成了所有領(lǐng)域探索LLM的壓軸戲。

談到AI Agent，很多人都認(rèn)為它是LLM的產(chǎn)物，畢竟大部分人接觸Agent是從基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等開源Agent程序開始的。

但了解AI Agent的人應(yīng)該知道，Agent概念并不是當(dāng)今的產(chǎn)物，而是伴隨人工智能而出現(xiàn)的智能實(shí)體概念不斷進(jìn)化的結(jié)果。

有人認(rèn)為AI Agent起源于20世紀(jì)80年代Wooldridge等人將Agent引入到人工智能，也有人認(rèn)為最早的Agent概念應(yīng)該是上世紀(jì)50年代阿蘭圖靈把“高度智能有機(jī)體””擴(kuò)展到了人工智能。

也有論文（見復(fù)旦大學(xué)《基于大型語言模型的Agent的興起和潛力：綜述》，文末可獲取），將最早的Agent概念追溯到了丹尼斯·狄德羅的“聰明的鸚鵡”學(xué)說。

如果從哲學(xué)啟迪的角度來看 Agent，大概可以上溯到公元前280年到公元前485年之間的莊子、亞里士多德、老子等思想家的學(xué)說與著作。

從這些觀點(diǎn)、學(xué)說與論文中，沿著哲學(xué)思想到人工智能實(shí)體的發(fā)展方向，大體可以梳理出一個(gè)AI Agent發(fā)展的大體脈絡(luò)。

在此基礎(chǔ)上，王吉頻道總結(jié)了這篇AI Agent發(fā)展簡(jiǎn)史，以讓大家更全面地了解AI Agent。

全文約7000字，文章略長(zhǎng)，建議大家先收藏再閱讀。如果感覺對(duì)你有用，不要忘了點(diǎn)贊、轉(zhuǎn)發(fā)和收藏。

起源：哲學(xué)啟蒙階段

“Agent”是一個(gè)有著悠久歷史的概念，在許多領(lǐng)域都得到了探索和解釋。

關(guān)于AI Agent的最早起源，還要從能夠啟發(fā)人類思考的哲學(xué)領(lǐng)域開始探尋。一些論文將其追溯到公元前350年左右的亞里士多德（Aristotle）時(shí)期，當(dāng)時(shí)的一些哲學(xué)家就曾在哲學(xué)作品描述過一些擁有欲望、信念、意圖和采取行動(dòng)能力的實(shí)體。

若從古代哲學(xué)家的思想著述中尋找Agent蹤跡，還可以把時(shí)間繼續(xù)上溯到公元前485年左右的中國(guó)春秋時(shí)代，老子在其對(duì)后世影響深遠(yuǎn)的思想巨著《道德經(jīng)》中也可以看到智能體的影子。

該書在四十二章寫道：“道生一，一生二，二生三，三生萬物”。用現(xiàn)在計(jì)算科學(xué)眼光來看，它所描繪的”道”或許正是一個(gè)生生不息、包容萬物并且能夠自身演化的實(shí)體，這種實(shí)體小到種子的生發(fā)榮枯，大到宇宙天體的周天運(yùn)轉(zhuǎn)，這是典型的自主智能體。

時(shí)間再晚一些的莊子，在“莊周夢(mèng)蝶”的時(shí)候，他不知道自己是莊子還是蝴蝶，分不清是夢(mèng)境還是現(xiàn)實(shí)。如果用現(xiàn)代計(jì)算科技技術(shù)來看，這個(gè)夢(mèng)可以理解為元宇宙，那么夢(mèng)里的蝴蝶包括所有具備生命的物體，便都如“西部世界小鎮(zhèn)”游戲那樣的生成智能體。

▲ 圖片由必應(yīng)生成，關(guān)鍵詞：莊周夢(mèng)蝶

時(shí)間來到18世紀(jì)，法國(guó)思想啟蒙運(yùn)動(dòng)時(shí)期的丹尼斯·狄德羅（Denis Diderot ）也提出了類似的觀點(diǎn)：如果鸚鵡可以回答每個(gè)問題，它就可以被認(rèn)為是聰明的。雖然狄德羅在著作中寫的是鸚鵡，但誰都能體會(huì)到這里的“鸚鵡”并不是指一只鳥，而是突出了一個(gè)深刻的概念，即高度智能的有機(jī)體可以有著類似于人類的智能。

是不是很有意思，我們認(rèn)為近代人們?cè)诳萍既〉靡欢ㄟM(jìn)展后才設(shè)想的AI Agent，其實(shí)古人早就思考并探索過。

或許正是因?yàn)檫@種思想，造就了人類對(duì)于各種工具的極致追求，誕生了春秋戰(zhàn)國(guó)時(shí)期魯班打造的能飛三天三夜的“木鵲”與墨家打造的機(jī)關(guān)城，三國(guó)時(shí)期的木牛流馬和指南車，唐代“酌酒行觴”的木人“女招待”，以及明朝幫人干活的多種“機(jī)關(guān)轉(zhuǎn)捩”木頭人。

這些人類早期出現(xiàn)的自動(dòng)化工具，并非具備分析及推理能力并能夠采取行動(dòng)的智能體。但自古至今一直存在的這些想法與做法，恰恰也反映了人類數(shù)千年來對(duì)于智能體或者說自動(dòng)化的持續(xù)追求。

當(dāng)然通過這些思想我們也能獲悉，Agent的哲學(xué)概念泛指具有自主性的概念或?qū)嶓w，它可以是人造的物體，可以是植物或動(dòng)物，當(dāng)然也可以是人。

發(fā)展：人工智能實(shí)體化

不管最早的Agent描述出自哪里，這些哲學(xué)思想都不同程度啟發(fā)了近代Agent的發(fā)展。

20世紀(jì)50年代，阿蘭圖靈（Alan Turing）把“高度智能有機(jī)體”概念擴(kuò)展到了人工實(shí)體，并提出了著名的圖靈測(cè)試。這個(gè)測(cè)試是人工智能的基石，旨在探索機(jī)器是否可以顯示與人類相當(dāng)?shù)闹悄苄袨椤?/span>

這些人工智能實(shí)體通常被稱為“Agent”，形成了人工智能系統(tǒng)的基本構(gòu)建塊。至此，人工智能領(lǐng)域提到的Agent，通常是指能夠使用傳感器感知其周圍環(huán)境、做出決策、然后使用致動(dòng)器采取響應(yīng)行動(dòng)的人工實(shí)體。

隨著人工智能的發(fā)展，術(shù)語“Agent”在人工智能研究中找到了自己的位置，用來描述顯示智能行為并具有自主性、反應(yīng)性、主動(dòng)性和社交能力等素質(zhì)的實(shí)體。此后，Agent的探索和技術(shù)進(jìn)步成為人工智能領(lǐng)域的焦點(diǎn)。

50年代末到60年代是人工智能的創(chuàng)造時(shí)期，所出現(xiàn)的編程語言、書籍及電影到現(xiàn)在還在持續(xù)影響更多的人。

在經(jīng)歷第一次人工智能寒冬后，80年代出現(xiàn)了一股人工智能熱潮。這段時(shí)間的各項(xiàng)研究都有所突破，來自政府等機(jī)構(gòu)的投資也開始增多，研究者對(duì)AI Agent的探索也在逐步增加。

但這股熱潮僅維持了7年，到1987年迎來了第二次人工智能寒冬。

這股寒潮延續(xù)了很多年，盡管在這期間大部分機(jī)構(gòu)都缺少資金支持，人工智能還是沿著既有技術(shù)路線剛毅發(fā)展。

其中，AI Agent就在1995年被Wooldridge和Jennings定義為一個(gè)計(jì)算機(jī)系統(tǒng)：它位于某個(gè)環(huán)境中，能夠在這個(gè)環(huán)境中自主行動(dòng)，以實(shí)現(xiàn)其設(shè)計(jì)目標(biāo)。他們還提出AI Agent應(yīng)具有自主性、反應(yīng)性、社會(huì)能力與主動(dòng)性等四個(gè)基本屬性。

而在AI Agent正式被經(jīng)濟(jì)學(xué)接納后，它也被進(jìn)一步定義為具備感知其環(huán)境并采取行動(dòng)以最大限度地提高成功機(jī)會(huì)的系統(tǒng)。根據(jù)這個(gè)定義，能夠解決特定問題的簡(jiǎn)單程序也是“AI Agent”，所以后來能夠在各種棋類游戲中與人類對(duì)弈的機(jī)器人也算是AI Agent的一種。

AI Agent范式將AI研究定義為“智能代理研究”，它研究各種智力，超越了研究人類智能。

在AI Agent被賦予“四種基本屬性”期間，1993年到2011年，出現(xiàn)了很多基于當(dāng)時(shí)AI技術(shù)且令人印象深刻的Agent類項(xiàng)目。

這些項(xiàng)目的出現(xiàn)時(shí)間和簡(jiǎn)介如下：

1997年：深藍(lán)（由IBM開發(fā)）在一場(chǎng)廣為人知的比賽中擊敗了世界國(guó)際象棋冠軍加里·卡斯帕羅夫，成為第一個(gè)擊敗人類國(guó)際象棋冠軍的程序。
1997年：Windows發(fā)布了語音識(shí)別軟件（由Dragon Systems開發(fā)）。
2000年：Cynthia Breazeal教授開發(fā)了第一個(gè)可以用面部模擬人類情感的機(jī)器人，它擁有眼睛、眉毛、耳朵和嘴巴，被稱為Kismet。
2002年：第一個(gè)Roomba被釋放。
2003年：美國(guó)宇航局將兩輛火星車（勇氣號(hào)和機(jī)遇號(hào)）降落在火星上，它們?cè)跊]有人類干預(yù)的情況下在火星表面航行。
2006年：Twitter，F(xiàn)acebook和Netflix等公司開始利用AI作為其廣告和用戶體驗(yàn)（UX）算法的一部分。
2010年：Microsoft推出了Xbox 360 Kinect，這是第一款旨在跟蹤身體運(yùn)動(dòng)并將其轉(zhuǎn)化為游戲方向的游戲硬件。
2011年：一臺(tái)名為Watson（由IBM創(chuàng)建）的NLP計(jì)算機(jī)被編程來回答問題，在電視轉(zhuǎn)播的智力比賽節(jié)目《Jeopardy》中戰(zhàn)勝了兩位前冠軍。
2011年：蘋果發(fā)布了Siri，這是第一個(gè)流行的虛擬助手。

進(jìn)化：AI Agnet的演變

伴隨著AI 技術(shù)的發(fā)展，至2000年左右，Agent已經(jīng)衍生出不少種類。

根據(jù)其感知的智能和能力程度的不同，羅素、諾維格、彼得等人在《Artificial Intelligence: A Modern Approach》一書中將AI Agent分為以下五類：

簡(jiǎn)單反射智能體（SIMPLE REFLEX AGENTS）：一種簡(jiǎn)單的代理類型，它基于當(dāng)前的感知而不是基于感知?dú)v史的其余部分。這種類型的問題包括智力非常有限，對(duì)狀態(tài)的非感知部分一無所知，生成和存儲(chǔ)規(guī)模巨大以及無法適應(yīng)環(huán)境變化。

基于模型的智能體（MODEL-BASED AGENTS）：這種代理利用條件操作規(guī)則，通過查找允許滿足基于當(dāng)前情況的條件的規(guī)則來工作，通常由兩個(gè)重要因素組成，即模型和內(nèi)部狀態(tài)。它可以通過獲取有關(guān)世界如何演變以及代理的操作如何影響世界的信息來更新代理的狀態(tài)。

基于目標(biāo)的智能體（GOAL-BASED AGENTS）：此類型根據(jù)其目標(biāo)或理想情況做出決定，以便它可以選擇可以實(shí)現(xiàn)所需目標(biāo)的操作。這種智能體可以通過搜索以及不同的計(jì)劃，具備思考一長(zhǎng)串可能的行動(dòng)來確認(rèn)其實(shí)現(xiàn)目標(biāo)的能力，使代理具有主動(dòng)性。

基于實(shí)用程序的智能體（UTILITY-BASED AGENTS）：公用事業(yè)代理的最終用途是其構(gòu)建塊，當(dāng)需要從多個(gè)替代方案中采取最佳行動(dòng)和決策時(shí)使用。它考慮了代理的幸福感，并給出了代理由于效用而有多幸福的想法，因此具有最大效用的行動(dòng)。

學(xué)習(xí)型智能體（LEARNING AGENTS）：具有從過去的經(jīng)驗(yàn)中學(xué)習(xí)的能力，并根據(jù)學(xué)習(xí)能力采取行動(dòng)或做出決定。它從過去獲得基礎(chǔ)知識(shí)，并利用這些學(xué)習(xí)來自動(dòng)行動(dòng)和適應(yīng)。一般由四部分組成，分別是學(xué)習(xí)元素、批評(píng)者、性能元素和問題生成器。

從這些分類和基本定義而言，很多AI工具以及早期的智能程序都可以歸類為Agent的一種。包括早期的IBM用于象棋比賽的深藍(lán)以及后文出場(chǎng)的AlphaGO，都算是基于當(dāng)時(shí)最新AI技術(shù)的AI Agent。

當(dāng)代：基于LLM的智能體

在2012年的ImageNet計(jì)算機(jī)視覺挑戰(zhàn)賽中，AlexNet卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型取得了第一名，深度學(xué)習(xí)從此真正在人工智能領(lǐng)域大顯身手。

2016年，AlphaGO（谷歌專門從事圍棋游戲的AI Agent）將擊敗歐洲冠軍（范慧）和世界冠軍（李世石），并很快被自己的兄弟（AlphaGo Zero）打敗。

2017年，谷歌提出transformer。

2018年，谷歌發(fā)布基于Transformer模型的BERT，拉開了大語言模型序幕。

2019年，谷歌AlphaStar在視頻游戲《星際爭(zhēng)霸2》上達(dá)到了Grandmaster，表現(xiàn)優(yōu)于除0.2%以外的所有人類玩家。

2019年，OpenAI發(fā)布GPT-2的自然語言處理模型，并分別在2020年和2022年發(fā)布了GPT-3、DALL·E 2及GPT-3.5，ChatGPT的火爆為AI Agent在大語言模型時(shí)代的發(fā)展與應(yīng)用提供了新的契機(jī)。

從2023年1月開始，全球廠商發(fā)布了多個(gè)LLM，其中包括LLaMA、BLOOM、StableLM、ChatGLM等多個(gè)開源LLM。

與此同時(shí)，全球科技廠商所推出的數(shù)以千計(jì)的LLM，為AI Agent在各領(lǐng)域多元化應(yīng)用提供了更廣泛的基礎(chǔ)。

2023年3月14日，OpenAI發(fā)布GPT-4。3月底，AutoGPT橫空出世，迅速火遍全球。

Auto GPT是Github上由OpenAI推出的一個(gè)免費(fèi)開源項(xiàng)目，結(jié)合了GPT-4和GPT-3.5技術(shù)，通過API創(chuàng)建完整的項(xiàng)目。

與ChatGPT不同的是，用戶不需要不斷對(duì)AI提問以獲得對(duì)應(yīng)回答，在AutoGPT中只需為其提供一個(gè)AI名稱、描述和五個(gè)目標(biāo)，AutoGPT就可以自己完成項(xiàng)目。它可以讀寫文件、瀏覽網(wǎng)頁(yè)、審查自己提示的結(jié)果，以及將其與所說的提示歷史記錄相結(jié)合。

AutoGPT也是OpenAI的一個(gè)實(shí)驗(yàn)性項(xiàng)目，用以展示GPT-4語言模型的強(qiáng)大功能。由此開始，更多人在了解與體驗(yàn)AutoGPT的同時(shí)，也逐漸認(rèn)知到了AI Agent。

由此開始，基于LLM的AI Agent開始雨后春筍般涌現(xiàn)，出現(xiàn)了Generative Agent、GPT-Engineer、BabyAGI、MetaGPT等多個(gè)項(xiàng)目，這些項(xiàng)目的爆發(fā)將LLM的發(fā)展與應(yīng)用帶入了新階段，也將LLM的創(chuàng)業(yè)與落地引向了AI Agent。

5月，OpenAI拿下新一輪3億美元融資后，創(chuàng)始人Sam Altman透露更加關(guān)注如何使用聊天機(jī)器人來創(chuàng)建自主AI Agents，并會(huì)將相關(guān)功能部署到ChatGPT助手中。

6月，扎克伯格在全體員工會(huì)議上宣布了一系列處于不同開發(fā)階段的技術(shù)，其中一個(gè)就是將發(fā)布能為用戶提供幫助或娛樂功能的具備不同個(gè)性和能力的AI Agents。

6月底，OpenAI Safety團(tuán)隊(duì)負(fù)責(zé)人Lilian Weng發(fā)表了一篇名為《LLM Powered Autonomous Agents》的文章，詳細(xì)介紹了基于LLM的AI Agent，并認(rèn)為這將使LLM轉(zhuǎn)為通用問題解決方案的途徑之一。

至此，人們終于對(duì)AI Agent有了全面的了解，AI Agent的神秘面紗終于被揭開。

人工智能領(lǐng)域?qū)τ贏I Agent的探索從未停止，在每個(gè)AI技術(shù)獲得全新突破之后都會(huì)有組織將其探索與應(yīng)用納入新課題。以AlphaGo為代表的深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)嶄露頭角后，就出現(xiàn)了基于深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的Agent，被應(yīng)用于游戲、醫(yī)療等諸多領(lǐng)域。

而近幾年大語言模型獲得突破，在谷歌發(fā)布Bert及OpenAI 發(fā)布GPT-2后，很多組織都開始與其合作開始打造基于LLM的Agent。

我們還在談?wù)揂I Agent的時(shí)候，海外已經(jīng)出現(xiàn)很多AI Agent框架與產(chǎn)品。比如在8月末剛完成1500萬美金融資的Voiceflow，現(xiàn)在已是最受開發(fā)者歡迎的Al Agent構(gòu)建平臺(tái)之一，有超過13萬團(tuán)隊(duì)在這里高效協(xié)同構(gòu)建自己的Al Agent。

從這類AI Agent構(gòu)建平臺(tái)來看，目前已經(jīng)有不少組織正在或者已經(jīng)構(gòu)建自己的AI Agent，且每個(gè)組織都可以面向不同業(yè)務(wù)場(chǎng)景的多個(gè)Agent。

王吉偉頻道也在之前盤點(diǎn)了全球60個(gè)AI Agent項(xiàng)目，目前已經(jīng)提出項(xiàng)目清單1.0，這個(gè)名單將會(huì)不斷迭代，也歡迎已經(jīng)推出AI Agent的團(tuán)隊(duì)或者AI Agent愛好者，共同完善這份清單。（PS：回復(fù)agent+，獲取完整名單圖。）

定義：當(dāng)代AI Agent特性

Lilian Weng在其博文《LLM Powered Autonomous Agents》中，對(duì)基于LLM的AI Agent 做了系統(tǒng)綜述。（PS：嫌麻煩不想找的朋友，后臺(tái)回復(fù)agent+獲取該文及翻譯。）

原文地址：https://lilianweng./posts/2023-06-23-agent/

她將Agents定義為L(zhǎng)LM、記憶（Memory）、任務(wù)規(guī)劃（Planning Skills）以及工具使用（Tool Use）的集合，其中 LLM 是核心大腦，Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵組件，并對(duì)每個(gè)模塊下實(shí)現(xiàn)路徑進(jìn)行了細(xì)致的梳理和說明。

▲ Agent系統(tǒng)架構(gòu)圖，出自博文《LLM Powered Autonomous Agents》

從文章中不難看出，目前我們所說的AI Agent本質(zhì)是一個(gè)控制LLM來解決問題的代理系統(tǒng)。LLM的核心能力是意圖理解與文本生成，如果能讓LLM學(xué)會(huì)使用工具，那么LLM本身的能力也將大大拓展。AI Agent系統(tǒng)就是這樣一種解決方案，可以讓LLM“超級(jí)大腦”真正有可能成為人類的“全能助手”。

在AI發(fā)展到大語言模型時(shí)代，很多AI工具看起來已經(jīng)具備了初步的Agent能力。雖然AI工具包括機(jī)器人和Agent都是旨在自動(dòng)化任務(wù)的軟件程序，但特定的關(guān)鍵特征將AI智能體區(qū)分為更復(fù)雜的AI 軟件。

業(yè)內(nèi)認(rèn)為，當(dāng)AI工具具備以下特征時(shí)，就可以將該工具視為AI Agent：

自治（Autonomy）：AI 虛擬智能體能夠獨(dú)立執(zhí)行任務(wù)，而無需人工干預(yù)或輸入。
知覺（Perception）：智能體功能通過各種傳感器（如攝像頭或麥克風(fēng)）感知和解釋它們所處的環(huán)境。
反應(yīng)（Reactivity）：AI 智能體可以評(píng)估環(huán)境并做出相應(yīng)的響應(yīng)以實(shí)現(xiàn)其目標(biāo)。
推理和決策（Reasoning and decision-making）：AI 智能體是智能工具，可以分析數(shù)據(jù)并做出決策以實(shí)現(xiàn)目標(biāo)。他們使用推理技術(shù)和算法來處理信息并采取適當(dāng)?shù)男袆?dòng)。
學(xué)習(xí)（Learning）：可以通過機(jī)器、深度和強(qiáng)化學(xué)習(xí)元素和技術(shù)來學(xué)習(xí)和提高他們的表現(xiàn)。
通信（Communication）：AI 智能體可以使用不同的方法與其他智能體或人類進(jìn)行通信，例如理解和響應(yīng)自然語言、識(shí)別語音以及通過文本交換消息。
以目標(biāo)為導(dǎo)向（Goal-oriented）：它們旨在實(shí)現(xiàn)特定目標(biāo)，這些目標(biāo)可以通過與環(huán)境的交互來預(yù)定義或?qū)W習(xí)。

在這個(gè)更為廣義的特征之下，今后AI Agent存在的環(huán)境將更加寬泛，種類也將更加繁多。

與此同時(shí)，在大語言模型的加持之下，AI Agent也逐步衍生出了自主智能體（Autonomous Agent）和生成智能體（Generative Agent）。

自主智能體如AutoGPT，能夠根據(jù)人們通過自然語言提出的需求，自動(dòng)執(zhí)行任務(wù)并實(shí)現(xiàn)預(yù)期結(jié)果。在這種合作模式下，自主智能體主要是為人類服務(wù)，更像是一個(gè)高效的工具。

大家目前所聊的智能體多數(shù)是基于LLM自主智能體，它已被認(rèn)為是通向通用人工智能（AGI）最有希望的道路。

如果說AutoGPT拉開了自主智能體的帷幕，今年4月份斯坦福和谷歌的研究者共同創(chuàng)建的“西部世界小鎮(zhèn)（Westworld simulation）”則開啟了生成智能體之路。小鎮(zhèn)里的25個(gè)AI Agent，每天都在樂此不疲地散步、約會(huì)、聊天、用餐以及分享當(dāng)天的新聞。

▲ 生成智能體Westworld simulation運(yùn)行截圖

生成智能體基于GPT-3 、BERT等LLM構(gòu)建，以自然語言存儲(chǔ)代理體驗(yàn)的完整記錄。生成智能體體系結(jié)構(gòu)包括三個(gè)主要組件：觀察、規(guī)劃和反思。這些組件協(xié)同工作，使生成代理能夠生成反映其個(gè)性、偏好、技能和目標(biāo)的現(xiàn)實(shí)且一致的行為。此外，此體系結(jié)構(gòu)允許用戶、代理和其他代理之間進(jìn)行自然語言通信。

簡(jiǎn)單的講，生成智能體就像美劇《西部世界》中的人形機(jī)器人以及《失控玩家》中的智能NPC，它們?cè)谕画h(huán)境中生活，擁有自己的記憶和目標(biāo)，不僅與人類交往，還會(huì)與其他機(jī)器人互動(dòng)。

未來：AI Agent無處不在

Agent的核心在于LLM，可以說大語言模型的能力決定了AI Agent的能力半徑，所以目前基于GPT-4的Agent表現(xiàn)得更加智能。未來隨著更多大語言模型的完善、迭代與優(yōu)化，基于這些LLM構(gòu)建的Agent自然能力也會(huì)更強(qiáng)。

以后的AI Agnet，將主要呈現(xiàn)以下幾種特征：

更加智能、自主并擁有更強(qiáng)適應(yīng)性。將能夠?qū)W習(xí)和改進(jìn)自己的行為，根據(jù)不同的情境和用戶做出最優(yōu)的決策，以及處理不確定性和復(fù)雜性。
更加人性化、友好和可信賴。能夠理解和表達(dá)情感，建立和維持與用戶的關(guān)系，以及遵守道德和社會(huì)準(zhǔn)則。
更加多樣化、專業(yè)化和協(xié)作化。能夠針對(duì)不同的領(lǐng)域和任務(wù)提供專業(yè)的服務(wù)或幫助，以及與其他AI Agent或人類進(jìn)行有效的協(xié)作和協(xié)調(diào)。

Agent將會(huì)成為大模型在各行業(yè)及領(lǐng)域應(yīng)用的主體形式，未來LLM的開發(fā)與應(yīng)用的都將圍繞Agent以工具或者助手的形式呈現(xiàn)。隨著Agent以標(biāo)準(zhǔn)化產(chǎn)品形態(tài)出現(xiàn)，廣大組織引入與應(yīng)用AI Agent將變得更加簡(jiǎn)單。

相關(guān)企業(yè)與組織也可以基于引入的大語言模型或者垂直領(lǐng)域模型構(gòu)建面向領(lǐng)域的Agent，以幫助客戶高效釋放LLM的能力。也可以構(gòu)建內(nèi)部或者面向客戶的AI Agent平臺(tái)及社區(qū)，方便自身及客戶運(yùn)營(yíng)中隨時(shí)構(gòu)建所需的Agent。

更多的AI Agent構(gòu)建平臺(tái)，也將促使大量Agent的出現(xiàn)，個(gè)人構(gòu)建與應(yīng)用Agent也將更加容易。未來只要大家愿意，隨時(shí)都可以通過各種Agent平臺(tái)打造適合自己的個(gè)性化Agent，通過更加個(gè)性化的功能與服務(wù)增強(qiáng)溝通和協(xié)作、拓展知識(shí)和技能等。

甚至還能在不同業(yè)務(wù)場(chǎng)景構(gòu)建多個(gè)不同的Agent，并讓這些Agent協(xié)同工作，多Agent系統(tǒng)協(xié)同可以輸出更加準(zhǔn)確的結(jié)果以及完成更加復(fù)雜的任務(wù)。

AI Agent無視行業(yè)與業(yè)務(wù)場(chǎng)景，只要能應(yīng)用LLM的地方都可以構(gòu)建相應(yīng)的Agent。它可以應(yīng)用于各行業(yè)，例如教育、醫(yī)療、金融、制造、娛樂等，幫助提高效率、降低成本、創(chuàng)造價(jià)值。

未來，AI Agent可能會(huì)更加智能、自適應(yīng)、多樣化，能夠處理更復(fù)雜的問題和場(chǎng)景，與人類形成更緊密的合作和共生。

如Lilian Weng在博文中所說，AI Agent可以讓LLM從“超級(jí)大腦”進(jìn)化為人類的“全能助手”，這意味著基于LLM的Agent助手以后將會(huì)服務(wù)更多的人與組織。

隨著AI Agent的廣泛應(yīng)用，大語言模型時(shí)代的人機(jī)交互也將升級(jí)人類與AI Agent的自動(dòng)化合作體系。這種新型人機(jī)合作可以稱之為人機(jī)智能體，它將推動(dòng)人類社會(huì)的生產(chǎn)結(jié)構(gòu)進(jìn)一步升級(jí)，進(jìn)而影響社會(huì)的各個(gè)方面。

同時(shí)，一個(gè)具備交流能力并能自主/自動(dòng)執(zhí)行任務(wù)的智能網(wǎng)絡(luò)將是互聯(lián)網(wǎng)的下一階段，AI Agent將是人類與之交互和執(zhí)行任務(wù)的智能工具。

未來的趨勢(shì)，AI agent大概率會(huì)出現(xiàn)在人類工作、學(xué)習(xí)、生活、娛樂的各個(gè)場(chǎng)景中，人人都將配備一個(gè)基于AI agent系統(tǒng)的智能助手，《鋼鐵俠》《星際穿越》《星球大戰(zhàn)》等電影中人機(jī)協(xié)同的場(chǎng)景將會(huì)真正變成現(xiàn)實(shí)。

這，又將是一個(gè)多大量級(jí)的市場(chǎng)。

寫在最后：本來還想在這篇文章中探討“Agent游戲的進(jìn)化”與“人類與智能體的界限”這兩個(gè)話題。限于篇幅以及這兩個(gè)話題與本文的相關(guān)性，只能在新的選題中與大家探討了。對(duì)這些感興趣的朋友，可以與我交流。

參考資料：復(fù)旦大學(xué)NLP團(tuán)隊(duì)論文《基于大型語言模型的Agent的興起和潛力：綜述》

全文完

【王吉偉頻道，關(guān)注AIGC與IoT，專注數(shù)字化轉(zhuǎn)型、業(yè)務(wù)流程自動(dòng)化與RPA，歡迎關(guān)注與交流?！?/span>