一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

中山大學、美團聯(lián)合團隊推出行為正則化與順序策略優(yōu)化結合的離線多智能體學習算法

 天承辦公室 2024-12-15

圖片

離線多智能體強化學習(MARL)是一個新興領域,目標是在從預先收集的數(shù)據(jù)集中學習最佳的多智能體策略。相比于單智能體情況,多智能體環(huán)境涉及到大規(guī)模的聯(lián)合狀態(tài)-動作空間和多智能體間的耦合行為,這給離線策略優(yōu)化帶來了額外的復雜性。隨著人工智能技術的發(fā)展,多智能體系統(tǒng)在諸如自動駕駛、智能家居和機器人協(xié)作等方面展現(xiàn)了巨大的應用潛力。但是離線MARL較單智能體情況下更加復雜,其涉及龐大的聯(lián)合狀態(tài)-動作空間和多智能體間的復雜互動行為,這使得離線策略優(yōu)化成為一項艱巨的任務。

離線MARL面臨的主要挑戰(zhàn)包括:一是如何有效應對分布偏移問題,即在策略評估過程中,分布外(OOD)樣本可能導致誤差積累;二是在多智能體環(huán)境下,協(xié)調多個智能體的行為顯得尤為困難?,F(xiàn)有的離線MARL方法盡管取得了一些進展,但仍存在不協(xié)調行為和分布外聯(lián)合動作的問題。為了應對這些挑戰(zhàn),來自中山大學、美團的聯(lián)合團隊提出了一種新穎的離線MARL算法——樣本內順序策略優(yōu)化(In-Sample Sequential Policy Optimization, InSPO),該方法通過順序更新每個智能體的策略,避免選擇OOD聯(lián)合動作,同時增強了智能體之間的協(xié)調。

12月 11 日,arXiv發(fā)表了他們的技術論文《Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization》。研究團隊的主要貢獻在于提出了InSPO算法,該算法不僅避免了OOD聯(lián)合動作,還通過探索行為策略中的低概率動作,解決了提前收斂到次優(yōu)解的問題。理論上InSPO保證了策略的單調改進,并收斂到量化響應均衡(QRE)。實驗結果表明,InSPO在多個離線MARL任務中表現(xiàn)出了顯著的效果,與當前最先進的方法相比具有明顯的優(yōu)勢。

研究團隊成員又來自中山大學計算機科學與工程學院的Zongkai Liu, Qian Lin, Chao Yu和Xiawei Wu、上海創(chuàng)新研究院的Zongkai Liu和美團的Yile Liang, Donghui Li和Xuetao Ding,涵蓋了學術界和工業(yè)界的專家,致力于多智能體強化學習和行為優(yōu)化等領域的研究。

合作型馬爾可夫游戲

在理解離線多智能體強化學習(MARL)中的樣本內順序策略優(yōu)化之前,首先需要了解合作型馬爾可夫游戲的基本概念和框架。

圖片

圖1:XOR游戲。(a) 是聯(lián)合行動的獎勵矩陣。(b) 是數(shù)據(jù)集的分布。

定義與基本概念

合作型馬爾可夫游戲是一種多智能體系統(tǒng)的建模方法,它能夠有效地描述多個智能體在同一環(huán)境中進行交互的過程。這個游戲模型定義為G=?N,S,A,P,r,γ,d?G = \langle N, S, A, P, r, \gamma, d \rangle。其中,NN是智能體的集合,SS是有限的狀態(tài)空間,AA是聯(lián)合動作空間,包含了所有智能體的動作集合。轉移概率函數(shù)PP描述了從一個狀態(tài)到另一個狀態(tài)的轉移可能性,公共獎勵函數(shù)rr則為所有智能體提供統(tǒng)一的獎勵反饋。折扣因子γ\gamma和初始狀態(tài)分布dd分別影響未來獎勵的權重和初始狀態(tài)的選擇。在每一個時間步tt,每個智能體ii在狀態(tài)sts_t選擇動作aita_i^t,并依次移動到下一個狀態(tài)st+1s_{t+1},同時根據(jù)聯(lián)合動作接收獎勵。

IGM原則與值分解

在多智能體系統(tǒng)中,直接計算聯(lián)合Q函數(shù)是一個極其復雜的問題,因為狀態(tài)-動作空間會隨著智能體數(shù)量的增加而指數(shù)級增長。值分解方法通過將聯(lián)合Q函數(shù)分解為每個智能體的個體Q函數(shù),極大地簡化了這個計算過程。具體來說,聯(lián)合Q函數(shù)Q(s,a)Q(s, a)被表示為每個智能體Q函數(shù)QiQ_i的組合。這種分解方式依賴于個體-全局-最大化(IGM)原則,即最優(yōu)聯(lián)合動作可以通過每個智能體的貪婪動作來識別。然而,這種方法在處理環(huán)境中存在多模態(tài)獎勵景觀時可能會遇到困難,因為IGM假設往往會被破壞。

圖片

圖2:M-NE游戲。(a) 是聯(lián)合行動的獎勵矩陣。(b) 是數(shù)據(jù)集的分布。

離線MARL中的行為正則化馬爾可夫游戲

為了有效應對離線MARL中的分布偏移問題,行為正則化馬爾可夫游戲引入了一個與數(shù)據(jù)相關的正則化項。這個正則化項通過在獎勵函數(shù)中加入額外的懲罰,迫使學習到的策略盡量接近行為策略,從而避免選擇分布外的動作。在這個框架中,策略的目標是最大化期望折扣回報,同時減去正則化項,以此平衡策略的探索和利用。這樣不僅提高了策略的穩(wěn)定性,還能防止其收斂到局部最優(yōu)解。

通過引入這些基礎概念和原理,合作型馬爾可夫游戲為多智能體系統(tǒng)的行為建模和優(yōu)化提供了一個強大的工具。尤其在離線環(huán)境中,結合行為正則化和值分解方法,可以有效解決多智能體間的協(xié)調問題,并提高策略的整體表現(xiàn)。

樣本內順序策略優(yōu)化

在離線多智能體強化學習(MARL)中,策略的優(yōu)化往往面臨著分布外(OOD)聯(lián)合動作和局部最優(yōu)解問題。為了應對這些挑戰(zhàn),研究團隊提出了一種創(chuàng)新的方法——樣本內順序策略優(yōu)化(In-Sample Sequential Policy Optimization, InSPO)。該方法在行為正則化馬爾可夫游戲框架下進行,結合了逆KL散度和最大熵正則化,旨在通過順序更新每個智能體的策略,避免選擇OOD聯(lián)合動作,同時增強智能體之間的協(xié)調。

樣本內順序策略優(yōu)化的數(shù)學推導

InSPO方法的核心在于通過逆KL散度進行行為正則化,從而確保學習到的策略與行為策略共享相同的支持集,避免選擇分布外的動作。具體來說,目標函數(shù)中的逆KL散度項可以分解為各個智能體的獨立項,這使得順序更新每個智能體的策略成為可能。數(shù)學上通過使用Karush-Kuhn-Tucker(KKT)條件,推導出目標函數(shù)的閉式解,從而實現(xiàn)樣本內學習。最終的優(yōu)化目標為最小化KL散度,以確保策略更新的有效性和一致性。

最大熵行為正則化馬爾可夫游戲

為了進一步增強探索性,防止策略過早收斂到局部最優(yōu)解,InSPO引入了最大熵行為正則化馬爾可夫游戲(MEBR-MG)框架。在這個框架中,策略優(yōu)化的目標函數(shù)不僅包含逆KL散度項,還引入了策略熵項。通過這種方式,優(yōu)化目標能夠促使策略在高概率動作和低概率動作之間保持平衡,鼓勵充分探索低概率動作,從而避免局部最優(yōu)解。理論上,最大熵行為正則化還能夠確保策略收斂到量化響應均衡(QRE),即在面對擾動獎勵時,策略仍能維持穩(wěn)定的性能。

通過上述方法,樣本內順序策略優(yōu)化不僅有效解決了離線MARL中的OOD聯(lián)合動作問題,還通過策略熵的引入,顯著提高了策略的探索能力和全局最優(yōu)解的發(fā)現(xiàn)概率。

算法細節(jié)

算法 1: InSPO 的步驟

InSPO算法的核心在于通過順序更新的方式,逐步優(yōu)化每個智能體的策略,最終實現(xiàn)全局最優(yōu)。具體步驟如下:

  1. 輸入:離線數(shù)據(jù)集 DD、初始策略 π0\pi_0 和初始Q函數(shù) Q0Q_0
  2. 輸出:最終策略 πK\pi_K。
  3. 首先,通過簡單的行為克隆方法計算出行為策略 μ\mu。
  4. 接下來,開始迭代優(yōu)化。在每一輪迭代中,先計算出當前Q函數(shù) QkQ_k。
  5. 隨機抽取一個智能體的排列 i1:Ni_{1:N},并依次更新每個智能體的策略。
  6. 對于每個智能體,使用推導出的目標函數(shù)進行策略更新。
  7. 重復上述過程,直到達到預定的迭代次數(shù) KK。
這種順序更新的策略,確保了每一步的策略優(yōu)化都是在樣本內進行的,避免了分布外動作的選擇,提高了策略的穩(wěn)定性和有效性。
策略評估

策略評估是InSPO算法中的一個關鍵步驟。根據(jù)更新的Q函數(shù),計算當前策略的期望回報。在多智能體環(huán)境中,由于聯(lián)合動作空間的龐大,研究團隊采用了局部Q函數(shù)來進行近似。在策略評估過程中,需要順序地更新每個智能體的局部Q函數(shù),使其能反映最新的策略信息。具體的目標函數(shù)包括一個權重項,用于平衡策略的探索和利用。此外,為了降低重要性采樣比率的高方差,InSPO采用了重要性重采樣技術,通過概率比例重采樣構建新的數(shù)據(jù)集,從而穩(wěn)定算法的訓練效果。

策略改進

在獲得優(yōu)化的局部Q函數(shù)后,接下來就是策略改進步驟。通過最小化KL散度,InSPO能夠在保持行為策略特性的同時,逐步優(yōu)化每個智能體的策略。在具體操作中,使用推導出的目標函數(shù)來指導每個智能體的策略更新,這一過程確保了策略的收斂性和改進性。

實際應用及實現(xiàn)細節(jié)

在實際應用中,InSPO不僅需要在理論上保證策略的有效性,還需要在大規(guī)模狀態(tài)-動作空間中保持高效的計算性能。為了實現(xiàn)這一點,我們對算法進行了多方面的優(yōu)化:

局部Q函數(shù)的優(yōu)化:為了避免聯(lián)合動作空間的指數(shù)級增長,我們使用局部Q函數(shù)來近似全局Q函數(shù),并通過順序更新的方法逐步優(yōu)化每個智能體的局部Q函數(shù)。

重要性重采樣:通過重要性重采樣技術,構建新的數(shù)據(jù)集,降低采樣比率的方差,提高訓練的穩(wěn)定性。

自動調節(jié)溫度參數(shù)α:為了找到合適的保守程度,我們實現(xiàn)了自動調節(jié)α的機制,根據(jù)目標值進行動態(tài)調整,從而進一步提高性能。

這些優(yōu)化措施使得InSPO在處理復雜的多智能體任務時,能夠保持高效的性能和良好的收斂性。通過這些實際應用和實現(xiàn)細節(jié),InSPO展現(xiàn)了其在離線MARL中的巨大潛力和應用價值。

實驗驗證

在M-NE游戲中,研究團隊評估了InSPO對局部最優(yōu)收斂問題的緩解能力。實驗使用兩個數(shù)據(jù)集:一個是由均勻策略收集的平衡數(shù)據(jù)集,另一個是由接近局部最優(yōu)的策略收集的不平衡數(shù)據(jù)集。結果顯示,在平衡數(shù)據(jù)集上,大多數(shù)算法都能找到全局最優(yōu)解,而在不平衡數(shù)據(jù)集上,只有InSPO正確識別出全局最優(yōu)解。這表明,在存在多個局部最優(yōu)解的環(huán)境中,數(shù)據(jù)集分布對算法收斂性有顯著影響。InSPO通過全面探索數(shù)據(jù)集,避免了次優(yōu)解的影響,展現(xiàn)了其強大的全局最優(yōu)解識別能力。

橋游戲的實驗結果

橋游戲是一個類似于時間版本XOR游戲的網(wǎng)格世界馬爾可夫游戲。在這個實驗中,我們使用了兩個數(shù)據(jù)集:optimal數(shù)據(jù)集和mixed數(shù)據(jù)集。optimal數(shù)據(jù)集包含了由最優(yōu)確定性策略生成的500條軌跡,而mixed數(shù)據(jù)集則包括optimal數(shù)據(jù)集和由均勻隨機策略生成的額外500條軌跡。實驗結果表明,只有InSPO和AlberDICE在這兩個數(shù)據(jù)集上都達到了近乎最優(yōu)的性能。相比之下,值分解方法未能收斂,并產(chǎn)生了不理想的結果。這進一步證明了InSPO在復雜多智能體任務中的有效性。

圖片

圖3:數(shù)據(jù)集XOR博弈的最終聯(lián)合策略(b)。

星際爭霸II微操作基準測試的實驗結果

為了進一步驗證InSPO的性能,研究團隊將研究擴展到星際爭霸II微操作基準測試,這是一個高維復雜的環(huán)境。實驗使用了四個代表性地圖,并采用了四個不同的數(shù)據(jù)集:medium、expert、medium-replay和mixed。在這些實驗中,盡管值分解方法在該環(huán)境中表現(xiàn)出色,InSPO依然展示了其競爭力,在大多數(shù)任務中取得了最先進的結果。實驗結果證明了InSPO在高維復雜環(huán)境中的應用潛力。

圖片

表1-4:星際爭霸II微管理的平均測試獲勝率。

圖片

圖4:開始時的橋。

消融研究

為了評估InSPO中不同組件的影響,研究團隊進行了消融研究。首先他們在不平衡數(shù)據(jù)集上的M-NE游戲中測試了去除熵項的InSPO,結果顯示沒有熵擾動的InSPO無法逃離局部最優(yōu)。他們在XOR游戲中測試了同時更新而非順序更新的InSPO,由于更新方向的沖突,未能學習到最優(yōu)策略,并面臨OOD聯(lián)合動作問題。此外,研究團隊還評估了溫度參數(shù)α對策略保守程度的影響,結果表明自動調節(jié)的α能夠找到合適的值,進一步提升性能。

圖片

圖5:熵消融和順序更新方案。(a) 對于不平衡數(shù)據(jù)集,在M-NE博弈中沒有熵的InSPO。(b) 是數(shù)據(jù)集(b)XOR游戲上InSPO的同步更新版本。

通過這些實驗驗證,InSPO展現(xiàn)了其在解決離線MARL中的局部最優(yōu)收斂問題、增強策略探索能力和提高全局最優(yōu)解識別能力方面的優(yōu)勢。實驗結果不僅證明了InSPO的理論可行性,還展示了其在實際應用中的強大潛力。

結論

在本研究中,研究團隊提出了一種新穎的離線多智能體強化學習(MARL)算法——樣本內順序策略優(yōu)化(In-Sample Sequential Policy Optimization, InSPO)。通過引入逆KL散度和策略熵,他們有效地解決了離線MARL中的分布外(OOD)聯(lián)合動作和局部最優(yōu)解問題。理論分析和實驗驗證表明,InSPO不僅能夠實現(xiàn)策略的單調改進,并最終收斂到量化響應均衡(QRE),還在多個基準測試中展示了優(yōu)越的性能。與現(xiàn)有的離線MARL方法相比,InSPO在應對復雜多智能體任務、提高策略穩(wěn)定性和探索能力方面具有顯著優(yōu)勢。

盡管InSPO在離線MARL領域取得了突破性的進展,但仍有許多值得進一步探索的方向。

算法擴展與優(yōu)化:未來可以考慮將InSPO與其他先進的MARL算法相結合,進一步提升策略優(yōu)化的效果。同時,研究如何在更大規(guī)模、更復雜的環(huán)境中實現(xiàn)高效的策略優(yōu)化,也是一個重要的方向。

數(shù)據(jù)集增強與生成:在離線MARL中,數(shù)據(jù)集的質量和分布對算法性能有著直接影響。未來可以探索通過生成對抗網(wǎng)絡(GANs)等技術生成高質量的數(shù)據(jù)集,從而改善策略學習的效果。

多模態(tài)獎勵景觀的應對:在存在多個局部最優(yōu)解的環(huán)境中,如何更有效地識別和收斂到全局最優(yōu)解,仍是一個具有挑戰(zhàn)性的問題。研究新的正則化方法和優(yōu)化策略,能夠進一步提升InSPO的魯棒性。

實際應用與驗證:將InSPO應用到更多實際場景中,如智能交通系統(tǒng)、自動駕駛和智能制造等,驗證其在真實環(huán)境中的性能和穩(wěn)定性,將是未來的重要研究方向。

通過這些方向的深入研究與探索,我們有望進一步提升離線MARL算法的性能和應用價值,推動人工智能技術在多智能體系統(tǒng)中的廣泛應用。(END)

參考資料:https:///abs/2412.07639

圖片

波動世界(PoppleWorld)是噬元獸數(shù)字容器的一款AI應用,基于意識科學和情緒價值的理論基礎,通過AI技術驅動幫助用戶進行情緒管理的工具和傳遞情緒價值的社交產(chǎn)品,波動世界將人的意識和情緒作為研究和應用的對象,探索人的意識機制和特征,培養(yǎng)人的意識技能和習慣,滿足人的意識體驗和意義,提高人的自我意識、自我管理、自我調節(jié)、自我表達和自我實現(xiàn)的能力,讓人獲得真正的自由快樂和內在的力量。波動世界將建立一個指導我們的情緒和反應的價值體系。這是一款針對普通人的基于人類認知和行為模式的情感管理Dapp應用程序。

加入AI交流群請掃碼加微信

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美日韩亚洲精品在线观看| 国产精品一区二区高潮| 少妇丰满a一区二区三区| 欧美国产日本高清在线| 又大又紧又硬又湿又爽又猛| 日韩成人免费性生活视频| 日本午夜乱色视频在线观看| 精品人妻少妇二区三区| 午夜传媒视频免费在线观看| 中文字幕一区二区熟女| 中国一区二区三区不卡| 日本熟妇五十一区二区三区| 东京热男人的天堂久久综合| 国产精品一区二区有码| 国产精品流白浆无遮挡| 国产三级不卡在线观看视频| 日韩18一区二区三区| 欧美成人欧美一级乱黄| 国产又猛又黄又粗又爽无遮挡| 白白操白白在线免费观看| 国产精品香蕉在线的人| 女人精品内射国产99| 福利视频一区二区在线| 国产又大又黄又粗的黄色| 中文字幕乱码一区二区三区四区| 国产又粗又猛又黄又爽视频免费| 久久99青青精品免费| 一级欧美一级欧美在线播| 久久综合狠狠综合久久综合| 亚洲精品中文字幕无限乱码| 国产精品一区二区三区激情| 日本和亚洲的香蕉视频| 在线观看免费午夜福利| 亚洲熟女诱惑一区二区| 成人午夜免费观看视频| 国产亚洲精品久久99| 成人午夜免费观看视频| 国产精品日韩精品一区| 乱女午夜精品一区二区三区 | 少妇人妻中出中文字幕| 最近的中文字幕一区二区|