中山大學、美團聯(lián)合團隊推出行為正則化與順序策略優(yōu)化結合的離線多智能體學習算法

天承辦公室 2024-12-15

展開全文

離線多智能體強化學習（MARL）是一個新興領域，目標是在從預先收集的數(shù)據(jù)集中學習最佳的多智能體策略。相比于單智能體情況，多智能體環(huán)境涉及到大規(guī)模的聯(lián)合狀態(tài)-動作空間和多智能體間的耦合行為，這給離線策略優(yōu)化帶來了額外的復雜性。隨著人工智能技術的發(fā)展，多智能體系統(tǒng)在諸如自動駕駛、智能家居和機器人協(xié)作等方面展現(xiàn)了巨大的應用潛力。但是離線MARL較單智能體情況下更加復雜，其涉及龐大的聯(lián)合狀態(tài)-動作空間和多智能體間的復雜互動行為，這使得離線策略優(yōu)化成為一項艱巨的任務。

離線MARL面臨的主要挑戰(zhàn)包括：一是如何有效應對分布偏移問題，即在策略評估過程中，分布外（OOD）樣本可能導致誤差積累；二是在多智能體環(huán)境下，協(xié)調多個智能體的行為顯得尤為困難?，F(xiàn)有的離線MARL方法盡管取得了一些進展，但仍存在不協(xié)調行為和分布外聯(lián)合動作的問題。為了應對這些挑戰(zhàn)，來自中山大學、美團的聯(lián)合團隊提出了一種新穎的離線MARL算法——樣本內順序策略優(yōu)化（In-Sample Sequential Policy Optimization, InSPO），該方法通過順序更新每個智能體的策略，避免選擇OOD聯(lián)合動作，同時增強了智能體之間的協(xié)調。

12月 11 日，arXiv發(fā)表了他們的技術論文《Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization》。研究團隊的主要貢獻在于提出了InSPO算法，該算法不僅避免了OOD聯(lián)合動作，還通過探索行為策略中的低概率動作，解決了提前收斂到次優(yōu)解的問題。理論上InSPO保證了策略的單調改進，并收斂到量化響應均衡（QRE）。實驗結果表明，InSPO在多個離線MARL任務中表現(xiàn)出了顯著的效果，與當前最先進的方法相比具有明顯的優(yōu)勢。

研究團隊成員又來自中山大學計算機科學與工程學院的Zongkai Liu, Qian Lin, Chao Yu和Xiawei Wu、上海創(chuàng)新研究院的Zongkai Liu和美團的Yile Liang, Donghui Li和Xuetao Ding，涵蓋了學術界和工業(yè)界的專家，致力于多智能體強化學習和行為優(yōu)化等領域的研究。

合作型馬爾可夫游戲

在理解離線多智能體強化學習（MARL）中的樣本內順序策略優(yōu)化之前，首先需要了解合作型馬爾可夫游戲的基本概念和框架。

圖1:XOR游戲。（a）是聯(lián)合行動的獎勵矩陣。（b）是數(shù)據(jù)集的分布。

定義與基本概念

合作型馬爾可夫游戲是一種多智能體系統(tǒng)的建模方法，它能夠有效地描述多個智能體在同一環(huán)境中進行交互的過程。這個游戲模型定義為G=?N,S,A,P,r,γ,d?G = \langle N, S, A, P, r, \gamma, d \rangle。其中，NN是智能體的集合，SS是有限的狀態(tài)空間，AA是聯(lián)合動作空間，包含了所有智能體的動作集合。轉移概率函數(shù)PP描述了從一個狀態(tài)到另一個狀態(tài)的轉移可能性，公共獎勵函數(shù)rr則為所有智能體提供統(tǒng)一的獎勵反饋。折扣因子γ\gamma和初始狀態(tài)分布dd分別影響未來獎勵的權重和初始狀態(tài)的選擇。在每一個時間步tt，每個智能體ii在狀態(tài)sts_t選擇動作aita_i^t，并依次移動到下一個狀態(tài)st+1s_{t+1}，同時根據(jù)聯(lián)合動作接收獎勵。

IGM原則與值分解

在多智能體系統(tǒng)中，直接計算聯(lián)合Q函數(shù)是一個極其復雜的問題，因為狀態(tài)-動作空間會隨著智能體數(shù)量的增加而指數(shù)級增長。值分解方法通過將聯(lián)合Q函數(shù)分解為每個智能體的個體Q函數(shù)，極大地簡化了這個計算過程。具體來說，聯(lián)合Q函數(shù)Q(s,a)Q(s, a)被表示為每個智能體Q函數(shù)QiQ_i的組合。這種分解方式依賴于個體-全局-最大化（IGM）原則，即最優(yōu)聯(lián)合動作可以通過每個智能體的貪婪動作來識別。然而，這種方法在處理環(huán)境中存在多模態(tài)獎勵景觀時可能會遇到困難，因為IGM假設往往會被破壞。

圖2:M-NE游戲。（a）是聯(lián)合行動的獎勵矩陣。（b）是數(shù)據(jù)集的分布。

離線MARL中的行為正則化馬爾可夫游戲

為了有效應對離線MARL中的分布偏移問題，行為正則化馬爾可夫游戲引入了一個與數(shù)據(jù)相關的正則化項。這個正則化項通過在獎勵函數(shù)中加入額外的懲罰，迫使學習到的策略盡量接近行為策略，從而避免選擇分布外的動作。在這個框架中，策略的目標是最大化期望折扣回報，同時減去正則化項，以此平衡策略的探索和利用。這樣不僅提高了策略的穩(wěn)定性，還能防止其收斂到局部最優(yōu)解。

通過引入這些基礎概念和原理，合作型馬爾可夫游戲為多智能體系統(tǒng)的行為建模和優(yōu)化提供了一個強大的工具。尤其在離線環(huán)境中，結合行為正則化和值分解方法，可以有效解決多智能體間的協(xié)調問題，并提高策略的整體表現(xiàn)。

樣本內順序策略優(yōu)化

在離線多智能體強化學習（MARL）中，策略的優(yōu)化往往面臨著分布外（OOD）聯(lián)合動作和局部最優(yōu)解問題。為了應對這些挑戰(zhàn)，研究團隊提出了一種創(chuàng)新的方法——樣本內順序策略優(yōu)化（In-Sample Sequential Policy Optimization, InSPO）。該方法在行為正則化馬爾可夫游戲框架下進行，結合了逆KL散度和最大熵正則化，旨在通過順序更新每個智能體的策略，避免選擇OOD聯(lián)合動作，同時增強智能體之間的協(xié)調。

樣本內順序策略優(yōu)化的數(shù)學推導

InSPO方法的核心在于通過逆KL散度進行行為正則化，從而確保學習到的策略與行為策略共享相同的支持集，避免選擇分布外的動作。具體來說，目標函數(shù)中的逆KL散度項可以分解為各個智能體的獨立項，這使得順序更新每個智能體的策略成為可能。數(shù)學上通過使用Karush-Kuhn-Tucker（KKT）條件，推導出目標函數(shù)的閉式解，從而實現(xiàn)樣本內學習。最終的優(yōu)化目標為最小化KL散度，以確保策略更新的有效性和一致性。

最大熵行為正則化馬爾可夫游戲

為了進一步增強探索性，防止策略過早收斂到局部最優(yōu)解，InSPO引入了最大熵行為正則化馬爾可夫游戲（MEBR-MG）框架。在這個框架中，策略優(yōu)化的目標函數(shù)不僅包含逆KL散度項，還引入了策略熵項。通過這種方式，優(yōu)化目標能夠促使策略在高概率動作和低概率動作之間保持平衡，鼓勵充分探索低概率動作，從而避免局部最優(yōu)解。理論上，最大熵行為正則化還能夠確保策略收斂到量化響應均衡（QRE），即在面對擾動獎勵時，策略仍能維持穩(wěn)定的性能。

通過上述方法，樣本內順序策略優(yōu)化不僅有效解決了離線MARL中的OOD聯(lián)合動作問題，還通過策略熵的引入，顯著提高了策略的探索能力和全局最優(yōu)解的發(fā)現(xiàn)概率。

算法細節(jié)

算法 1: InSPO 的步驟

InSPO算法的核心在于通過順序更新的方式，逐步優(yōu)化每個智能體的策略，最終實現(xiàn)全局最優(yōu)。具體步驟如下：

輸入：離線數(shù)據(jù)集 DD、初始策略 π0\pi_0 和初始Q函數(shù) Q0Q_0。
輸出：最終策略 πK\pi_K。
首先，通過簡單的行為克隆方法計算出行為策略 μ\mu。
接下來，開始迭代優(yōu)化。在每一輪迭代中，先計算出當前Q函數(shù) QkQ_k。
隨機抽取一個智能體的排列 i1:Ni_{1:N}，并依次更新每個智能體的策略。
對于每個智能體，使用推導出的目標函數(shù)進行策略更新。
重復上述過程，直到達到預定的迭代次數(shù) KK。

這種順序更新的策略，確保了每一步的策略優(yōu)化都是在樣本內進行的，避免了分布外動作的選擇，提高了策略的穩(wěn)定性和有效性。

策略評估

策略評估是InSPO算法中的一個關鍵步驟。根據(jù)更新的Q函數(shù)，計算當前策略的期望回報。在多智能體環(huán)境中，由于聯(lián)合動作空間的龐大，研究團隊采用了局部Q函數(shù)來進行近似。在策略評估過程中，需要順序地更新每個智能體的局部Q函數(shù)，使其能反映最新的策略信息。具體的目標函數(shù)包括一個權重項，用于平衡策略的探索和利用。此外，為了降低重要性采樣比率的高方差，InSPO采用了重要性重采樣技術，通過概率比例重采樣構建新的數(shù)據(jù)集，從而穩(wěn)定算法的訓練效果。

策略改進

在獲得優(yōu)化的局部Q函數(shù)后，接下來就是策略改進步驟。通過最小化KL散度，InSPO能夠在保持行為策略特性的同時，逐步優(yōu)化每個智能體的策略。在具體操作中，使用推導出的目標函數(shù)來指導每個智能體的策略更新，這一過程確保了策略的收斂性和改進性。

實際應用及實現(xiàn)細節(jié)

在實際應用中，InSPO不僅需要在理論上保證策略的有效性，還需要在大規(guī)模狀態(tài)-動作空間中保持高效的計算性能。為了實現(xiàn)這一點，我們對算法進行了多方面的優(yōu)化：

局部Q函數(shù)的優(yōu)化：為了避免聯(lián)合動作空間的指數(shù)級增長，我們使用局部Q函數(shù)來近似全局Q函數(shù)，并通過順序更新的方法逐步優(yōu)化每個智能體的局部Q函數(shù)。

重要性重采樣：通過重要性重采樣技術，構建新的數(shù)據(jù)集，降低采樣比率的方差，提高訓練的穩(wěn)定性。

自動調節(jié)溫度參數(shù)α：為了找到合適的保守程度，我們實現(xiàn)了自動調節(jié)α的機制，根據(jù)目標值進行動態(tài)調整，從而進一步提高性能。

這些優(yōu)化措施使得InSPO在處理復雜的多智能體任務時，能夠保持高效的性能和良好的收斂性。通過這些實際應用和實現(xiàn)細節(jié)，InSPO展現(xiàn)了其在離線MARL中的巨大潛力和應用價值。

實驗驗證

在M-NE游戲中，研究團隊評估了InSPO對局部最優(yōu)收斂問題的緩解能力。實驗使用兩個數(shù)據(jù)集：一個是由均勻策略收集的平衡數(shù)據(jù)集，另一個是由接近局部最優(yōu)的策略收集的不平衡數(shù)據(jù)集。結果顯示，在平衡數(shù)據(jù)集上，大多數(shù)算法都能找到全局最優(yōu)解，而在不平衡數(shù)據(jù)集上，只有InSPO正確識別出全局最優(yōu)解。這表明，在存在多個局部最優(yōu)解的環(huán)境中，數(shù)據(jù)集分布對算法收斂性有顯著影響。InSPO通過全面探索數(shù)據(jù)集，避免了次優(yōu)解的影響，展現(xiàn)了其強大的全局最優(yōu)解識別能力。

橋游戲的實驗結果

橋游戲是一個類似于時間版本XOR游戲的網(wǎng)格世界馬爾可夫游戲。在這個實驗中，我們使用了兩個數(shù)據(jù)集：optimal數(shù)據(jù)集和mixed數(shù)據(jù)集。optimal數(shù)據(jù)集包含了由最優(yōu)確定性策略生成的500條軌跡，而mixed數(shù)據(jù)集則包括optimal數(shù)據(jù)集和由均勻隨機策略生成的額外500條軌跡。實驗結果表明，只有InSPO和AlberDICE在這兩個數(shù)據(jù)集上都達到了近乎最優(yōu)的性能。相比之下，值分解方法未能收斂，并產(chǎn)生了不理想的結果。這進一步證明了InSPO在復雜多智能體任務中的有效性。

圖3：數(shù)據(jù)集XOR博弈的最終聯(lián)合策略（b）。

星際爭霸II微操作基準測試的實驗結果

為了進一步驗證InSPO的性能，研究團隊將研究擴展到星際爭霸II微操作基準測試，這是一個高維復雜的環(huán)境。實驗使用了四個代表性地圖，并采用了四個不同的數(shù)據(jù)集：medium、expert、medium-replay和mixed。在這些實驗中，盡管值分解方法在該環(huán)境中表現(xiàn)出色，InSPO依然展示了其競爭力，在大多數(shù)任務中取得了最先進的結果。實驗結果證明了InSPO在高維復雜環(huán)境中的應用潛力。

表1-4：星際爭霸II微管理的平均測試獲勝率。

圖4：開始時的橋。

消融研究

為了評估InSPO中不同組件的影響，研究團隊進行了消融研究。首先他們在不平衡數(shù)據(jù)集上的M-NE游戲中測試了去除熵項的InSPO，結果顯示沒有熵擾動的InSPO無法逃離局部最優(yōu)。他們在XOR游戲中測試了同時更新而非順序更新的InSPO，由于更新方向的沖突，未能學習到最優(yōu)策略，并面臨OOD聯(lián)合動作問題。此外，研究團隊還評估了溫度參數(shù)α對策略保守程度的影響，結果表明自動調節(jié)的α能夠找到合適的值，進一步提升性能。

圖5：熵消融和順序更新方案。（a）對于不平衡數(shù)據(jù)集，在M-NE博弈中沒有熵的InSPO。（b）是數(shù)據(jù)集（b）XOR游戲上InSPO的同步更新版本。

通過這些實驗驗證，InSPO展現(xiàn)了其在解決離線MARL中的局部最優(yōu)收斂問題、增強策略探索能力和提高全局最優(yōu)解識別能力方面的優(yōu)勢。實驗結果不僅證明了InSPO的理論可行性，還展示了其在實際應用中的強大潛力。

結論

在本研究中，研究團隊提出了一種新穎的離線多智能體強化學習（MARL）算法——樣本內順序策略優(yōu)化（In-Sample Sequential Policy Optimization, InSPO）。通過引入逆KL散度和策略熵，他們有效地解決了離線MARL中的分布外（OOD）聯(lián)合動作和局部最優(yōu)解問題。理論分析和實驗驗證表明，InSPO不僅能夠實現(xiàn)策略的單調改進，并最終收斂到量化響應均衡（QRE），還在多個基準測試中展示了優(yōu)越的性能。與現(xiàn)有的離線MARL方法相比，InSPO在應對復雜多智能體任務、提高策略穩(wěn)定性和探索能力方面具有顯著優(yōu)勢。

盡管InSPO在離線MARL領域取得了突破性的進展，但仍有許多值得進一步探索的方向。

算法擴展與優(yōu)化：未來可以考慮將InSPO與其他先進的MARL算法相結合，進一步提升策略優(yōu)化的效果。同時，研究如何在更大規(guī)模、更復雜的環(huán)境中實現(xiàn)高效的策略優(yōu)化，也是一個重要的方向。

數(shù)據(jù)集增強與生成：在離線MARL中，數(shù)據(jù)集的質量和分布對算法性能有著直接影響。未來可以探索通過生成對抗網(wǎng)絡（GANs）等技術生成高質量的數(shù)據(jù)集，從而改善策略學習的效果。

多模態(tài)獎勵景觀的應對：在存在多個局部最優(yōu)解的環(huán)境中，如何更有效地識別和收斂到全局最優(yōu)解，仍是一個具有挑戰(zhàn)性的問題。研究新的正則化方法和優(yōu)化策略，能夠進一步提升InSPO的魯棒性。

實際應用與驗證：將InSPO應用到更多實際場景中，如智能交通系統(tǒng)、自動駕駛和智能制造等，驗證其在真實環(huán)境中的性能和穩(wěn)定性，將是未來的重要研究方向。

通過這些方向的深入研究與探索，我們有望進一步提升離線MARL算法的性能和應用價值，推動人工智能技術在多智能體系統(tǒng)中的廣泛應用。（END）

參考資料：https:///abs/2412.07639

波動世界（PoppleWorld)是噬元獸數(shù)字容器的一款AI應用，基于意識科學和情緒價值的理論基礎，通過AI技術驅動幫助用戶進行情緒管理的工具和傳遞情緒價值的社交產(chǎn)品，波動世界將人的意識和情緒作為研究和應用的對象，探索人的意識機制和特征，培養(yǎng)人的意識技能和習慣，滿足人的意識體驗和意義，提高人的自我意識、自我管理、自我調節(jié)、自我表達和自我實現(xiàn)的能力，讓人獲得真正的自由快樂和內在的力量。波動世界將建立一個指導我們的情緒和反應的價值體系。這是一款針對普通人的基于人類認知和行為模式的情感管理Dapp應用程序。

加入AI交流群請掃碼加微信