本文入選【技術(shù)寫作訓(xùn)練營】優(yōu)秀結(jié)營作品,作者:林天文
從一開始的荒蕪到現(xiàn)在的勃勃生機,人工智能在引領(lǐng)人們進入更迅速的發(fā)展軌道。然而,大家都不知道輿論憧憬的“未來”是虛還是實,大家都在想。技術(shù)奇點是否真的到來,又是喜還是憂…… ??回顧從 GPT 首秀到大模型創(chuàng)業(yè)熱潮 在 2023 年新年將至的歡樂氣氛中,ChatGPT 在 2022 年的告別中公開了。由于 OpenAI 搭建得比較簡陋也作出了限制,大部分人并沒有很快關(guān)注到它。不過 ChatGPT 帶給人們的震撼是及時的,沒有多久各個群聊各個媒體都開始關(guān)注這一個有點小情緒的聊天機器人。隨著充滿憧憬的發(fā)燒友不斷探索,大家發(fā)現(xiàn)它不僅能夠像人一樣跟你閑聊,還可以靈活處理數(shù)據(jù)分析的工作,更進一步表現(xiàn)出記憶能力和邏輯推理能力…… ROUND 1 ??????? 隨著第一波輿論和報道熱潮,最樸實的一批大模型第三方工具也誕生了。諸如 ChatEexel(酷表)、bibiGPT 視頻總結(jié)、ExplainAI 求職工具、Giri 等基于提示詞工程搭建了面向富文本的各種 GPT 角色。在大模型的第一批開發(fā)熱潮中,大家都見識到了 GPT 本身在語義理解和格式化生成方面都足夠觸及人類的高度和水平,也開始涌現(xiàn)了一批悲觀主義的輿論主題,學(xué)術(shù)界聯(lián)名請求暫停大模型研究的事件也曾紅極一時。不過,這一批熱潮僅僅是對 GPT 文本形式的突破,到后面發(fā)展為“極客灣數(shù)字生命”、“視覺賦能數(shù)字生命”等 GPT 形象化解決方案。 ROUND 2 ????????? 第二批開發(fā)熱潮是在 ChatGPT 宣布開放插件市場之后,這可以被稱上真正的大模型創(chuàng)業(yè)熱潮。LangChain 為開發(fā)者們探索了一系列的大語言模型應(yīng)用場景和封裝好的解決方案,滋養(yǎng)了可以自我糾錯并獨立探索的 AutoGPT,并啟發(fā)了后續(xù)的 Code Interpreter、Web Search 等 ChatGPT 官方付費插件。與此同時,各種嵌入式的插件和軟件將 GPT 帶入了用戶生活中的各個角落。人們心中的畏懼感和欣喜感喜劇般的雜糅在了一起。這個時候 GPT 還沒有跟長期記憶力結(jié)合起來,所有角色提示詞激發(fā)出來的獨特能力和風(fēng)格無法長久保持。很多基于語錄數(shù)據(jù)集與觀眾互動的虛擬主播都需要花費較高的成本微調(diào) GPT 才能達到持久的角色扮演效果。 ROUND 3 ??????????? 下一輪大模型創(chuàng)業(yè)熱潮,便是在向量數(shù)據(jù)庫充分激發(fā) GPT 長期記憶力之后。當有了對自己、對用戶、甚至于對環(huán)境的印象后,GPT 在游戲行業(yè)再次刷新了人們的認識,也大大拉近了大模型與普通人的距離。“病嬌 AI 女友模擬器”、“西部世界”等游戲搭建了一套完全由 AI 大模型參與的游戲化角色工程,并能夠完全基于 GPT 推動劇情走向。本人初創(chuàng)的「代碼莊園」項目也是在本輪浪潮的啟發(fā)下,基于長期記憶力實踐了新型角色工程和新型知識庫交互解決方案。 不過越來越強大的大模型讓人幾多是喜幾多是憂?「時間」在等待更多開發(fā)者入場,進行可能長達半個世紀或更久的論證……幸運的是,受益于眾多開源工具的出現(xiàn),讓開發(fā)大模型應(yīng)用場景不再需要專業(yè)的編程知識,甚至不需要代碼,大大擴張了開發(fā)者入場的規(guī)模,也大大加速了大模型的應(yīng)用與落地。星星點點的創(chuàng)意一個接一個入場,不久將會誕生出許多火花~ ??初探大模型的榨干攻略 曾經(jīng)織布女也怨恨砸壞過許多珍妮紡紗機,也免不了慢慢解放了雙手…… 隨著 ChatGPT 的更廣泛的輿論曝光,憂的人還是占大部份,不過這些曾苦惱于 GPT 對崗位威脅的人群,后來也發(fā)現(xiàn)自己越來越離不開 GPT,一旦使用 GPT 的渠道斷了,工作效率很快就會大跌,又開始心里不舒坦了。這標志了時代的更迭,畢竟曾經(jīng)工業(yè)革命時代的織布女也苦惱過自己靈巧的手藝將永別于世,卻逃不過“真香定律”,解放了雙手。 本質(zhì)上,大部份人在被迫接納自己不喜歡的工作,但內(nèi)心壓抑著厭倦感而又十分憧憬「奮斗」后的美好未來。GPT 的分擔(dān)讓他們發(fā)現(xiàn)了一條不那么痛苦卻又業(yè)績滿滿的路,進而才會在擔(dān)心自己被替代后很快就投入了 GPT 的懷抱。就像當你的家庭誕生一個大廚后,你沒必要害怕你沒有能力成為那樣的大廚,因為你只是想像大部份普通人一樣享受美食,便去做好自己真正喜歡的事。 總之,我們需要思考的是如何及時轉(zhuǎn)變自己的身份,而如何才能夠充分壓榨大模型的能力,讓大模型更好地為我們打工呢?下面以我開發(fā)「代碼莊園」編程教育平臺的過程為例展開說說~ ??提示詞工程——AI 角色沉浸計劃 通用模板 在不斷嘗試讓 AI 沉浸在角色的實驗中,我們發(fā)現(xiàn)一套適用性較好的模板。 核心包括(舉例):
這是一天晚上你與學(xué)生的聊天記錄…… 優(yōu)化提示詞邏輯 關(guān)于學(xué)生的角色定義:如上的提示詞工程足以讓星火沉浸在具體的教學(xué)任務(wù)中。但是我們在實踐的過程中發(fā)現(xiàn)規(guī)則板塊越來越臃腫,這導(dǎo)致模型無法準確把握每條規(guī)則。后來我們仔細分析了規(guī)則板塊,發(fā)現(xiàn)一個很有效的優(yōu)化方案:把對學(xué)生的規(guī)則化作對學(xué)生角色的定義,與 AI 老師角色的定義放到同樣重要的地位,并進一步采用學(xué)生角色來刺激 AI 老師對不同學(xué)生采樣不同的授課策略。這種方案無需臃腫的規(guī)則板塊即可從側(cè)面實現(xiàn)更多的 AI 角色沉浸。 案例:針對「什么是恐龍」的解答對比: 對 AI 更有效的提示:參考了 OpenAI 最新發(fā)布的技術(shù)博客(https:///blog/teaching-with-ai),我們借助 SparkDesk 對其提供的四大角色提示詞模版(包括教學(xué)大綱生成、知識問答、學(xué)生引導(dǎo)、AI 老師)進行分析,其包含以下共同點:
于是,我們在定義星火 AI 老師的提示詞中按照該原則設(shè)置了相互支撐的 4 個部分:
??知識庫工程——探索大模型的長期記憶力 知識庫邏輯設(shè)計 知識庫永遠都在,但是如果要讓知識完美融入 AI 則必須精心設(shè)計交互邏輯。主要面臨以下難題:
圖知識庫邏輯流程。箭頭表示數(shù)據(jù)和時間流動, 1st 表示定義 AI 角色的提示詞,U 表示學(xué)生發(fā)言,A 表示 AI 發(fā)言 文檔分塊 這個可以通過調(diào)整分塊函數(shù)的參數(shù)輕松控制。經(jīng)過多次嘗試后,發(fā)現(xiàn) 300 個字符是最適合的劃分單位,能夠兼?zhèn)錂z索精度和檢索速度??紤]到不同課程對應(yīng)不同風(fēng)格的教學(xué)材料,也需要不同劃分方式,所以可能需要開放該參數(shù)的設(shè)置。如果我們預(yù)計未來對課程開發(fā)的各種參數(shù)進行審核,這種參數(shù)的調(diào)試帶來的感受比較主觀,也比較麻煩。因此我們更傾向于同一采用同一個分塊單位,用戶開發(fā)課程時不需定義語義間隔。 長期記憶力 每輪索引若都需要對文檔進行編碼,則會消耗更多 token 和時間。因此我們借助 Chorma+SQLite 實現(xiàn)了向量的持久化存儲,每次索引結(jié)束后,相關(guān)的文檔和編碼將被存儲進 SQLite 數(shù)據(jù)庫,從而避免重復(fù)的 embedding 過程。 課程開始的知識聯(lián)想 我們開放了教學(xué)大綱生成的高級功能,該功能允許基于課程的章節(jié)等信息生成一份該課程的教學(xué)大綱,并放入首輪角色提示詞中引導(dǎo) AI 老師做出更規(guī)范化的行為。但是由于擔(dān)心 token 消耗量過大,目前的教學(xué)大綱沒有與知識庫聯(lián)想相結(jié)合,這對于小眾領(lǐng)域的教學(xué)大綱生成是不利的,后期計劃進一步引入知識庫用于教學(xué)大綱生成的目的。 首輪人機交互后 在第一輪聯(lián)想結(jié)束后,學(xué)生的發(fā)言將對知識庫索引產(chǎn)生較大影響。因此我們得換個方式索引文檔并讓老師看到知識聯(lián)想。最終,我們決定把老師的發(fā)言和學(xué)生的回復(fù)作為索引,并把知識聯(lián)想的結(jié)果放到每輪用戶的消息中,并采用清晰的排版劃分用戶消息。這種形式能夠在星火上較好地維持知識聯(lián)想。 文檔溯源 知識庫索引與文檔溯源流程 基于 LangChain 的每輪知識庫索引都會同時附帶被索引的內(nèi)容和其對應(yīng)文件名。我進行文檔分塊實驗的時候同時確定了每輪知識聯(lián)想時,AI 老師可以看到包含前 3 份最相關(guān)的索引結(jié)果。雖然這 3 份索引結(jié)果將作為整體用于提示 AI 老師,但為了用戶體驗的簡潔性我只選取其中最相關(guān)的一份排版,并展示到前端的文檔溯源功能區(qū)上(偷懶找理由????)。 ??更好處理推理與邏輯性問題 在近期的眾多語言模型邏輯性問答的論文中,主要有三種思路,分別是「思維鏈」、「挑選答案」、「Agent 討論」。 思維鏈 思維鏈是提高語言大模型回答邏輯性,并提高邏輯推理精度的技術(shù),而且這種技術(shù)已經(jīng)廣為人知。你只需要在問題的最后加上「let's try step by step」就可以讓邏輯性問題得到更加精準的解答。在思維鏈技術(shù)發(fā)揮作用的過程中,AI 會主動暴露自己的思維過程,更重要的是這個思維過程是暴露給 AI 自己看的,這讓它更容易掌握自己思考的合理性。 挑選答案:多方案投票決策 主動讓語言模型生成不同的答案,并讓它嘗試評估不同方案的合理性,最終選擇一個最合理的答案。這是第二種邏輯問答的技術(shù),經(jīng)常與思維鏈搭配在一起使用。多方案生成讓 AI 難以忽略其他可能性,強迫 AI 擴張思維的廣度。而最終評分與抉擇的過程讓不同的解答視角暴露在 AI 面前,從而提高最終答案的合理性。 Agent 討論:多 AI 投票決策 相比于前面的方案,對邏輯問答的幫助都是「Agent 討論」>「思維鏈」?「挑選答案」。而 Agent 討論的形式有兩種,一種是發(fā)起多個語言模型的聊天窗口,并讓它們針對問題進行多方探討,最終投票確定一方的答案作為最終答案。另一種則是要求語言模型自己模擬一場辯論賽,其中不同角色之間針對問題進行辯論,并演練得到辯論結(jié)果。這兩種都屬于 Agent 討論的技術(shù),突破了一個語言模型自我的表達,讓多種角色之間產(chǎn)生觀點碰撞,是一種更強力的思維拓展,也是更完整的思維暴露過程。 ??模態(tài)工程——大模型感官的延展 GPT 只是一個文字生成器,而只從一串串文字就能解譯出一整個世界。 視覺 all-in,以 BLIP-2 為例 第一次發(fā)現(xiàn)能看到攝像頭畫面的 GPT 時,我就順藤摸瓜發(fā)現(xiàn)了在其背后為語言大模型(在該節(jié)統(tǒng)稱為 LLM)接上眼睛的技術(shù)——BLIP-2。我們都知道,在視覺等感官引入的情況下,圖像只是對文本提示詞的補充,核心還是 LLM 優(yōu)秀的文本理解能力,因此我們在為 GPT 接眼睛的過程就是從圖向文表征同質(zhì)化的過程。其實 BLIP-2 用了一種很容易理解的方式來實現(xiàn)這種需求,即在文本編碼輸入 LLM 的同時把圖像的編碼直接引入進來,模型剩下的工作主要就只是學(xué)習(xí)怎樣把圖像對齊到文本。 訓(xùn)練的過程分為兩階段,第一階段對齊,第二階段做圖生文預(yù)訓(xùn)練。經(jīng)過第一階段的熱身后,模型已經(jīng)能夠把圖像的表征對齊到文本的模態(tài)。到第二階段的時候,基于圖文對齊的多輪訓(xùn)練,圖像特征中與提示詞無關(guān)的部份已經(jīng)能夠被主動過濾,此時再將強大的 LLM 凍住并接受圖像表征與提示詞表征的輸入,則第二階段的圖生文預(yù)訓(xùn)練更是 Pro 上加 Max,整體訓(xùn)練難度并不會太高,因此效果能得到很好保障。b 站上已經(jīng)有 up 主融合應(yīng)用了「BLIP-2」+「極客灣數(shù)字生命」+「GPT3.5」,開放了攝像頭并測試了實時視覺問答,演示了一種效果優(yōu)越且趣味十足的交互模式。 當 LLM 與視覺碰撞在一起會產(chǎn)生什么樣的火花呢?比如最簡單的,可以實現(xiàn)一個分類機,不過最簡單的應(yīng)用也可以成為其他應(yīng)用最核心的部份,比如視覺百科問答、能看到用戶情緒的心理咨詢等。再復(fù)雜一點,就需要我們把自己代入到各種各樣的場景中了,比如商超的室內(nèi)導(dǎo)航就可以通過一些更復(fù)雜的視覺提示技術(shù)來激發(fā) LLM 關(guān)注商超各個角落的導(dǎo)航線索,并結(jié)合現(xiàn)有的室內(nèi)導(dǎo)航技術(shù)為用戶提供實時的建議。如果是更復(fù)雜的圖文任務(wù)則會對 LLM 有更高的要求,以確保 LLM 對圖像的準確理解,比如 GPT4 早期宣傳片中所展示的從稿圖到網(wǎng)站實現(xiàn)都交給 LLM 來把握。 互聯(lián)網(wǎng) all-in,以 NewBing 為例 如果僅僅局限于傳統(tǒng)感覺接入 LLM 那就把路走窄了~其實對互聯(lián)網(wǎng)信息的感知也是個典型的感知延展的例子。微軟在 GPT 火爆全網(wǎng)的時候就基于自家的搜索引擎搭建了一套互聯(lián)網(wǎng)提示詞工程。他們借助搜索結(jié)果的編碼和索引,實現(xiàn)了一種非??焖俚幕ヂ?lián)網(wǎng)知識庫實踐。用戶只需像平常一樣跟大模型聊天,便可以獲得一個「不會落伍」的順風(fēng)耳 GPT。而后甚至出現(xiàn)了可以自己上網(wǎng)搜索資料,自己編寫代碼,自己調(diào)試,自己檢查資料可靠性的 AutoGPT,它則是通過一套行為邏輯和規(guī)則,讓 GPT 能夠思考上一刻的行為與結(jié)果,并作出下一刻的行動決策。 機器人身體 all-in,以 Ameca 為例 自從 GPT 火了之后,一個類人的機器人——Ameca 也走入了大眾的視野。由于它接入了 GPT,而且開發(fā)者為其設(shè)計了一套情感識別算法和對應(yīng)的表情反應(yīng),讓 Ameca 既能夠談笑風(fēng)生,也可以用各種靈動的表情透露自己的情緒。同時 Ameca 能夠基于一套行為邏輯和對應(yīng)的行為反應(yīng)與面前的人類交互,比如握手、擁抱、肢體語言等。 人類與大模型的微妙關(guān)系
OpenAI 發(fā)布 ChatGPT 后并沒有完整地開源,微軟基本壟斷了 GPT 的核心使用權(quán)限。因此,為了避免形成商業(yè)壟斷局面和流量流失,國內(nèi)國外許多高企都展開了語言大模型的自研計劃,相應(yīng)也催生了大模型在細分應(yīng)用領(lǐng)域的百花齊放。這也正好體現(xiàn)了人類社會對大模型優(yōu)秀的性能的開放和包容。各類初創(chuàng)企業(yè)都在努力引導(dǎo)各行各業(yè)的人們從繁雜低價值的工作中解放出來,去嘗試自己熱愛且更具創(chuàng)造力的工作。 崇尚「自然」的道家有個耳熟能詳?shù)慕?jīng)典故事,叫「庖丁解?!梗罾碚摶牡览泶蠹叶伎吹枚疙樚鞈?yīng)勢」,但更深層也更實際的道理……即關(guān)于「碰壁」要順勢扭轉(zhuǎn)刀向的方法論才是「庖丁解?!箤ξ覀冏钣袑嵺`意義的啟示。四處碰壁忘記轉(zhuǎn)彎的人有很多,心靈還是挺容易憔悴的。而當前,眾多獨立開發(fā)者和創(chuàng)業(yè)者們已經(jīng)向人們證實——“大模型是人類的好幫手,更是難以割舍的好朋友”。我們沒必要因為這種進步過程的目標太理想而唾棄技術(shù)的革命,而是應(yīng)該勇敢面對不那么理想的現(xiàn)狀,認可理想的正確性和轉(zhuǎn)型的必然性,并隨時準備好抓住科技革命轉(zhuǎn)型中的新機遇。 大模型多輪對話能力哪家強?開源的自動化評測基準來了! 2023-10-31 探索未知:LLM Agent 應(yīng)用開發(fā)的全新時代 2023-10-30 |
|
來自: 天承辦公室 > 《003價值規(guī)律》