離線多智能體強化學習(MARL)是一個新興領域,目標是在從預先收集的數(shù)據(jù)集中學習最佳的多智能體策略。相比于單智能體情況,多智能體環(huán)境涉及到大規(guī)模的聯(lián)合狀態(tài)-動作空間和多智能體間的耦合行為,這給離線策略優(yōu)化帶來了額外的復雜性。隨著人工智能技術的發(fā)展,多智能體系統(tǒng)在諸如自動駕駛、智能家居和機器人協(xié)作等方面展現(xiàn)了巨大的應用潛力。但是離線MARL較單智能體情況下更加復雜,其涉及龐大的聯(lián)合狀態(tài)-動作空間和多智能體間的復雜互動行為,這使得離線策略優(yōu)化成為一項艱巨的任務。 離線MARL面臨的主要挑戰(zhàn)包括:一是如何有效應對分布偏移問題,即在策略評估過程中,分布外(OOD)樣本可能導致誤差積累;二是在多智能體環(huán)境下,協(xié)調多個智能體的行為顯得尤為困難?,F(xiàn)有的離線MARL方法盡管取得了一些進展,但仍存在不協(xié)調行為和分布外聯(lián)合動作的問題。為了應對這些挑戰(zhàn),來自中山大學、美團的聯(lián)合團隊提出了一種新穎的離線MARL算法——樣本內順序策略優(yōu)化(In-Sample Sequential Policy Optimization, InSPO),該方法通過順序更新每個智能體的策略,避免選擇OOD聯(lián)合動作,同時增強了智能體之間的協(xié)調。 12月 11 日,arXiv發(fā)表了他們的技術論文《Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization》。研究團隊的主要貢獻在于提出了InSPO算法,該算法不僅避免了OOD聯(lián)合動作,還通過探索行為策略中的低概率動作,解決了提前收斂到次優(yōu)解的問題。理論上InSPO保證了策略的單調改進,并收斂到量化響應均衡(QRE)。實驗結果表明,InSPO在多個離線MARL任務中表現(xiàn)出了顯著的效果,與當前最先進的方法相比具有明顯的優(yōu)勢。 研究團隊成員又來自中山大學計算機科學與工程學院的Zongkai Liu, Qian Lin, Chao Yu和Xiawei Wu、上海創(chuàng)新研究院的Zongkai Liu和美團的Yile Liang, Donghui Li和Xuetao Ding,涵蓋了學術界和工業(yè)界的專家,致力于多智能體強化學習和行為優(yōu)化等領域的研究。 合作型馬爾可夫游戲 在理解離線多智能體強化學習(MARL)中的樣本內順序策略優(yōu)化之前,首先需要了解合作型馬爾可夫游戲的基本概念和框架。 圖1:XOR游戲。(a) 是聯(lián)合行動的獎勵矩陣。(b) 是數(shù)據(jù)集的分布。 定義與基本概念 合作型馬爾可夫游戲是一種多智能體系統(tǒng)的建模方法,它能夠有效地描述多個智能體在同一環(huán)境中進行交互的過程。這個游戲模型定義為 IGM原則與值分解 在多智能體系統(tǒng)中,直接計算聯(lián)合Q函數(shù)是一個極其復雜的問題,因為狀態(tài)-動作空間會隨著智能體數(shù)量的增加而指數(shù)級增長。值分解方法通過將聯(lián)合Q函數(shù)分解為每個智能體的個體Q函數(shù),極大地簡化了這個計算過程。具體來說,聯(lián)合Q函數(shù) 圖2:M-NE游戲。(a) 是聯(lián)合行動的獎勵矩陣。(b) 是數(shù)據(jù)集的分布。 離線MARL中的行為正則化馬爾可夫游戲 為了有效應對離線MARL中的分布偏移問題,行為正則化馬爾可夫游戲引入了一個與數(shù)據(jù)相關的正則化項。這個正則化項通過在獎勵函數(shù)中加入額外的懲罰,迫使學習到的策略盡量接近行為策略,從而避免選擇分布外的動作。在這個框架中,策略的目標是最大化期望折扣回報,同時減去正則化項,以此平衡策略的探索和利用。這樣不僅提高了策略的穩(wěn)定性,還能防止其收斂到局部最優(yōu)解。 通過引入這些基礎概念和原理,合作型馬爾可夫游戲為多智能體系統(tǒng)的行為建模和優(yōu)化提供了一個強大的工具。尤其在離線環(huán)境中,結合行為正則化和值分解方法,可以有效解決多智能體間的協(xié)調問題,并提高策略的整體表現(xiàn)。 樣本內順序策略優(yōu)化 在離線多智能體強化學習(MARL)中,策略的優(yōu)化往往面臨著分布外(OOD)聯(lián)合動作和局部最優(yōu)解問題。為了應對這些挑戰(zhàn),研究團隊提出了一種創(chuàng)新的方法——樣本內順序策略優(yōu)化(In-Sample Sequential Policy Optimization, InSPO)。該方法在行為正則化馬爾可夫游戲框架下進行,結合了逆KL散度和最大熵正則化,旨在通過順序更新每個智能體的策略,避免選擇OOD聯(lián)合動作,同時增強智能體之間的協(xié)調。 樣本內順序策略優(yōu)化的數(shù)學推導 InSPO方法的核心在于通過逆KL散度進行行為正則化,從而確保學習到的策略與行為策略共享相同的支持集,避免選擇分布外的動作。具體來說,目標函數(shù)中的逆KL散度項可以分解為各個智能體的獨立項,這使得順序更新每個智能體的策略成為可能。數(shù)學上通過使用Karush-Kuhn-Tucker(KKT)條件,推導出目標函數(shù)的閉式解,從而實現(xiàn)樣本內學習。最終的優(yōu)化目標為最小化KL散度,以確保策略更新的有效性和一致性。 最大熵行為正則化馬爾可夫游戲 為了進一步增強探索性,防止策略過早收斂到局部最優(yōu)解,InSPO引入了最大熵行為正則化馬爾可夫游戲(MEBR-MG)框架。在這個框架中,策略優(yōu)化的目標函數(shù)不僅包含逆KL散度項,還引入了策略熵項。通過這種方式,優(yōu)化目標能夠促使策略在高概率動作和低概率動作之間保持平衡,鼓勵充分探索低概率動作,從而避免局部最優(yōu)解。理論上,最大熵行為正則化還能夠確保策略收斂到量化響應均衡(QRE),即在面對擾動獎勵時,策略仍能維持穩(wěn)定的性能。 通過上述方法,樣本內順序策略優(yōu)化不僅有效解決了離線MARL中的OOD聯(lián)合動作問題,還通過策略熵的引入,顯著提高了策略的探索能力和全局最優(yōu)解的發(fā)現(xiàn)概率。 算法細節(jié) 算法 1: InSPO 的步驟 InSPO算法的核心在于通過順序更新的方式,逐步優(yōu)化每個智能體的策略,最終實現(xiàn)全局最優(yōu)。具體步驟如下:
策略評估是InSPO算法中的一個關鍵步驟。根據(jù)更新的Q函數(shù),計算當前策略的期望回報。在多智能體環(huán)境中,由于聯(lián)合動作空間的龐大,研究團隊采用了局部Q函數(shù)來進行近似。在策略評估過程中,需要順序地更新每個智能體的局部Q函數(shù),使其能反映最新的策略信息。具體的目標函數(shù)包括一個權重項,用于平衡策略的探索和利用。此外,為了降低重要性采樣比率的高方差,InSPO采用了重要性重采樣技術,通過概率比例重采樣構建新的數(shù)據(jù)集,從而穩(wěn)定算法的訓練效果。 策略改進 在獲得優(yōu)化的局部Q函數(shù)后,接下來就是策略改進步驟。通過最小化KL散度,InSPO能夠在保持行為策略特性的同時,逐步優(yōu)化每個智能體的策略。在具體操作中,使用推導出的目標函數(shù)來指導每個智能體的策略更新,這一過程確保了策略的收斂性和改進性。 實際應用及實現(xiàn)細節(jié) 在實際應用中,InSPO不僅需要在理論上保證策略的有效性,還需要在大規(guī)模狀態(tài)-動作空間中保持高效的計算性能。為了實現(xiàn)這一點,我們對算法進行了多方面的優(yōu)化: 局部Q函數(shù)的優(yōu)化:為了避免聯(lián)合動作空間的指數(shù)級增長,我們使用局部Q函數(shù)來近似全局Q函數(shù),并通過順序更新的方法逐步優(yōu)化每個智能體的局部Q函數(shù)。 重要性重采樣:通過重要性重采樣技術,構建新的數(shù)據(jù)集,降低采樣比率的方差,提高訓練的穩(wěn)定性。 自動調節(jié)溫度參數(shù)α:為了找到合適的保守程度,我們實現(xiàn)了自動調節(jié)α的機制,根據(jù)目標值進行動態(tài)調整,從而進一步提高性能。 這些優(yōu)化措施使得InSPO在處理復雜的多智能體任務時,能夠保持高效的性能和良好的收斂性。通過這些實際應用和實現(xiàn)細節(jié),InSPO展現(xiàn)了其在離線MARL中的巨大潛力和應用價值。 實驗驗證 在M-NE游戲中,研究團隊評估了InSPO對局部最優(yōu)收斂問題的緩解能力。實驗使用兩個數(shù)據(jù)集:一個是由均勻策略收集的平衡數(shù)據(jù)集,另一個是由接近局部最優(yōu)的策略收集的不平衡數(shù)據(jù)集。結果顯示,在平衡數(shù)據(jù)集上,大多數(shù)算法都能找到全局最優(yōu)解,而在不平衡數(shù)據(jù)集上,只有InSPO正確識別出全局最優(yōu)解。這表明,在存在多個局部最優(yōu)解的環(huán)境中,數(shù)據(jù)集分布對算法收斂性有顯著影響。InSPO通過全面探索數(shù)據(jù)集,避免了次優(yōu)解的影響,展現(xiàn)了其強大的全局最優(yōu)解識別能力。 橋游戲的實驗結果 橋游戲是一個類似于時間版本XOR游戲的網(wǎng)格世界馬爾可夫游戲。在這個實驗中,我們使用了兩個數(shù)據(jù)集:optimal數(shù)據(jù)集和mixed數(shù)據(jù)集。optimal數(shù)據(jù)集包含了由最優(yōu)確定性策略生成的500條軌跡,而mixed數(shù)據(jù)集則包括optimal數(shù)據(jù)集和由均勻隨機策略生成的額外500條軌跡。實驗結果表明,只有InSPO和AlberDICE在這兩個數(shù)據(jù)集上都達到了近乎最優(yōu)的性能。相比之下,值分解方法未能收斂,并產(chǎn)生了不理想的結果。這進一步證明了InSPO在復雜多智能體任務中的有效性。 圖3:數(shù)據(jù)集XOR博弈的最終聯(lián)合策略(b)。 星際爭霸II微操作基準測試的實驗結果 為了進一步驗證InSPO的性能,研究團隊將研究擴展到星際爭霸II微操作基準測試,這是一個高維復雜的環(huán)境。實驗使用了四個代表性地圖,并采用了四個不同的數(shù)據(jù)集:medium、expert、medium-replay和mixed。在這些實驗中,盡管值分解方法在該環(huán)境中表現(xiàn)出色,InSPO依然展示了其競爭力,在大多數(shù)任務中取得了最先進的結果。實驗結果證明了InSPO在高維復雜環(huán)境中的應用潛力。 表1-4:星際爭霸II微管理的平均測試獲勝率。 圖4:開始時的橋。 消融研究 為了評估InSPO中不同組件的影響,研究團隊進行了消融研究。首先他們在不平衡數(shù)據(jù)集上的M-NE游戲中測試了去除熵項的InSPO,結果顯示沒有熵擾動的InSPO無法逃離局部最優(yōu)。他們在XOR游戲中測試了同時更新而非順序更新的InSPO,由于更新方向的沖突,未能學習到最優(yōu)策略,并面臨OOD聯(lián)合動作問題。此外,研究團隊還評估了溫度參數(shù)α對策略保守程度的影響,結果表明自動調節(jié)的α能夠找到合適的值,進一步提升性能。 圖5:熵消融和順序更新方案。(a) 對于不平衡數(shù)據(jù)集,在M-NE博弈中沒有熵的InSPO。(b) 是數(shù)據(jù)集(b)XOR游戲上InSPO的同步更新版本。 通過這些實驗驗證,InSPO展現(xiàn)了其在解決離線MARL中的局部最優(yōu)收斂問題、增強策略探索能力和提高全局最優(yōu)解識別能力方面的優(yōu)勢。實驗結果不僅證明了InSPO的理論可行性,還展示了其在實際應用中的強大潛力。 結論 在本研究中,研究團隊提出了一種新穎的離線多智能體強化學習(MARL)算法——樣本內順序策略優(yōu)化(In-Sample Sequential Policy Optimization, InSPO)。通過引入逆KL散度和策略熵,他們有效地解決了離線MARL中的分布外(OOD)聯(lián)合動作和局部最優(yōu)解問題。理論分析和實驗驗證表明,InSPO不僅能夠實現(xiàn)策略的單調改進,并最終收斂到量化響應均衡(QRE),還在多個基準測試中展示了優(yōu)越的性能。與現(xiàn)有的離線MARL方法相比,InSPO在應對復雜多智能體任務、提高策略穩(wěn)定性和探索能力方面具有顯著優(yōu)勢。 盡管InSPO在離線MARL領域取得了突破性的進展,但仍有許多值得進一步探索的方向。 算法擴展與優(yōu)化:未來可以考慮將InSPO與其他先進的MARL算法相結合,進一步提升策略優(yōu)化的效果。同時,研究如何在更大規(guī)模、更復雜的環(huán)境中實現(xiàn)高效的策略優(yōu)化,也是一個重要的方向。 數(shù)據(jù)集增強與生成:在離線MARL中,數(shù)據(jù)集的質量和分布對算法性能有著直接影響。未來可以探索通過生成對抗網(wǎng)絡(GANs)等技術生成高質量的數(shù)據(jù)集,從而改善策略學習的效果。 多模態(tài)獎勵景觀的應對:在存在多個局部最優(yōu)解的環(huán)境中,如何更有效地識別和收斂到全局最優(yōu)解,仍是一個具有挑戰(zhàn)性的問題。研究新的正則化方法和優(yōu)化策略,能夠進一步提升InSPO的魯棒性。 實際應用與驗證:將InSPO應用到更多實際場景中,如智能交通系統(tǒng)、自動駕駛和智能制造等,驗證其在真實環(huán)境中的性能和穩(wěn)定性,將是未來的重要研究方向。 通過這些方向的深入研究與探索,我們有望進一步提升離線MARL算法的性能和應用價值,推動人工智能技術在多智能體系統(tǒng)中的廣泛應用。(END) 參考資料:https:///abs/2412.07639 波動世界(PoppleWorld)是噬元獸數(shù)字容器的一款AI應用,基于意識科學和情緒價值的理論基礎,通過AI技術驅動幫助用戶進行情緒管理的工具和傳遞情緒價值的社交產(chǎn)品,波動世界將人的意識和情緒作為研究和應用的對象,探索人的意識機制和特征,培養(yǎng)人的意識技能和習慣,滿足人的意識體驗和意義,提高人的自我意識、自我管理、自我調節(jié)、自我表達和自我實現(xiàn)的能力,讓人獲得真正的自由快樂和內在的力量。波動世界將建立一個指導我們的情緒和反應的價值體系。這是一款針對普通人的基于人類認知和行為模式的情感管理Dapp應用程序。 加入AI交流群請掃碼加微信 |
|