https://www.toutiao.com/a6559079340892488199/ 圖源:pixabay 原文來(lái)源:arXiv 作者:Arbaaz Khan、Clark Zhang、Daniel D. Lee、Vijay Kumar、Alejandro Ribeiro 「雷克世界」編譯:嗯~是阿童木呀、KABUDA 導(dǎo)語(yǔ):可以這樣說(shuō),大多數(shù)現(xiàn)有的深度多智能體強(qiáng)化學(xué)習(xí)方法只考慮具有少數(shù)智能體的情況。而當(dāng)智能體的數(shù)量增加時(shí),這些方法不能很好地進(jìn)行擴(kuò)展,從而不能很好地解決多智能問(wèn)題。最近,賓夕法尼亞大學(xué)GRASP實(shí)驗(yàn)室的科學(xué)家們提出,通過(guò)策略梯度進(jìn)行可擴(kuò)展的集中式深度多智能體強(qiáng)化學(xué)習(xí)。經(jīng)過(guò)一系列的實(shí)驗(yàn)結(jié)果表明,隨著智能體數(shù)量的增長(zhǎng),本文提出的算法,在性能方面優(yōu)于當(dāng)前最先進(jìn)的多智能體深度強(qiáng)化學(xué)習(xí)算法。 在本文中,我們將探索使用深度強(qiáng)化學(xué)習(xí)來(lái)解決多智能體問(wèn)題??梢赃@樣說(shuō),大多數(shù)現(xiàn)有的深度多智能體強(qiáng)化學(xué)習(xí)方法只考慮少數(shù)的智能體。當(dāng)智能體的數(shù)量增加時(shí),輸入和控制空間的維度也會(huì)增加,而這些方法不能很好地進(jìn)行擴(kuò)展。為了解決這個(gè)問(wèn)題,我們提出將多智能體強(qiáng)化學(xué)習(xí)問(wèn)題視作分布式優(yōu)化問(wèn)題。我們的算法假設(shè)在多智能體環(huán)境設(shè)置中,給定群體中個(gè)體智能體的策略在參數(shù)空間中彼此靠近,并且可以通過(guò)單一策略進(jìn)行近似。通過(guò)這個(gè)簡(jiǎn)單的假設(shè),我們展示了我們的算法對(duì)于多智能體環(huán)境中的強(qiáng)化學(xué)習(xí)來(lái)說(shuō)非常有效。我們?cè)诤献餍院透?jìng)爭(zhēng)性任務(wù)中,將該算法與現(xiàn)有的可比較方法進(jìn)行比較并展示了其有效性。 充分利用強(qiáng)化學(xué)習(xí)(RL)中深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大力量已經(jīng)成為設(shè)計(jì)策略的成功方法,這些策略可以對(duì)傳感器輸入進(jìn)行映射以控制復(fù)雜任務(wù)的輸出。其中,這些任務(wù)包括但不限于學(xué)習(xí)玩視頻游戲、學(xué)習(xí)機(jī)器人任務(wù)的復(fù)雜控制策略、學(xué)習(xí)僅使用感官信息進(jìn)行規(guī)劃等。雖然這些結(jié)果令人印象深刻,但其中大多數(shù)方法僅考慮單一智能體環(huán)境設(shè)置。 圖1:分布式學(xué)習(xí)的多智能體框架 在現(xiàn)實(shí)世界中,許多應(yīng)用程序,特別是機(jī)器人和通信領(lǐng)域,需要多個(gè)智能體在合作性或競(jìng)爭(zhēng)性環(huán)境中進(jìn)行彼此交互。例如具有機(jī)器人團(tuán)隊(duì)的倉(cāng)庫(kù)管理、多機(jī)器人家具設(shè)備組裝、以及機(jī)器人團(tuán)隊(duì)的并發(fā)控制和通信等。傳統(tǒng)上,這些問(wèn)題可以通過(guò)最小化一個(gè)由機(jī)器人和環(huán)境動(dòng)力學(xué)所約束的精心設(shè)置的優(yōu)化問(wèn)題來(lái)解決。通常情況下,當(dāng)向問(wèn)題添加簡(jiǎn)單的約束條件或簡(jiǎn)單地增加智能體數(shù)量時(shí),這些問(wèn)題就會(huì)變得更為棘手。在本文中,我們?cè)噲D通過(guò)將多智能體問(wèn)題定義為多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)問(wèn)題從而解決這一多智能體問(wèn)題,并利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大力量。在MARL中,從智能體的角度來(lái)看,環(huán)境并不是很穩(wěn)定。這是因?yàn)槠渌悄荏w也在改變他們的策略(由于學(xué)習(xí))。諸如Q-learning這樣傳統(tǒng)的強(qiáng)化學(xué)習(xí)范例不適合這種不穩(wěn)定的環(huán)境。 最近,有幾項(xiàng)研究成果提出了使用分散的演員中心化評(píng)論家模型(actor-centralized critic models)。當(dāng)被考慮的智能體的數(shù)量很小時(shí),這些已被證明是行之有效的。建立大量演員網(wǎng)絡(luò)從計(jì)算上來(lái)看并不是資源高效的。此外,評(píng)論家網(wǎng)絡(luò)的輸入空間也會(huì)隨著智能體數(shù)量的增長(zhǎng)而迅速增長(zhǎng)。而且,在去中心化的框架中,每個(gè)智能體都必須對(duì)其他智能體進(jìn)行估計(jì)和追蹤。即使只有一個(gè)智能體,大多數(shù)深度強(qiáng)化學(xué)習(xí)算法都是樣本效率低下的。正如我們將要證明的那樣,試圖在去中心化框架中學(xué)習(xí)多個(gè)智能體的個(gè)體策略變得非常低效。因此,試圖通過(guò)使用去中心化框架,使用有限的交互來(lái)學(xué)習(xí)多策略往往是不可行的。 圖2:用于測(cè)試的多智能體環(huán)境:我們既考慮協(xié)作環(huán)境,也考慮競(jìng)爭(zhēng)環(huán)境。左:協(xié)作導(dǎo)航(帶有3個(gè)智能體);中心左側(cè):10個(gè)智能體的協(xié)作導(dǎo)航;中心右側(cè):捕食者—獵物;右:與許多(630)智能體一起生存。 相反,我們提出使用中心化模型(centralized model)。在這里,所有的智能體都能夠意識(shí)到其他智能體的行為,這減輕了非平穩(wěn)性的情況。要使用MARL的中心化框架,我們必須要從單個(gè)智能體那里收集經(jīng)驗(yàn),然后學(xué)習(xí)將這些經(jīng)驗(yàn)結(jié)合起來(lái),從而為所有智能體輸出行為。一種選擇是使用像神經(jīng)網(wǎng)絡(luò)這樣的高容量模型來(lái)學(xué)習(xí)策略,而這種策略可以將所有智能體的聯(lián)合觀察映射到所有智能體的聯(lián)合行為中。這種簡(jiǎn)單的方法適用于智能體數(shù)量較少的情況,但在智能體的數(shù)量增加時(shí)則會(huì)受到維度的限制。另一種可能性是為一個(gè)智能體學(xué)習(xí)策略,并在所有智能體中對(duì)其進(jìn)行微調(diào),但這也被證明是不切實(shí)際的。為了緩解規(guī)模和有限交互的問(wèn)題,我們提出使用用于MARL問(wèn)題的分布式優(yōu)化框架。其關(guān)鍵思想是,當(dāng)多個(gè)智能體進(jìn)行交互時(shí),為所有展現(xiàn)緊急行為的智能體學(xué)習(xí)一種策略。這種類(lèi)型的策略已被證明在自然界以及群體機(jī)器人中都有所使用。在本文中,目標(biāo)是通過(guò)強(qiáng)化學(xué)習(xí)從原始觀察和獎(jiǎng)勵(lì)中學(xué)習(xí)這些策略。 圖3:協(xié)作導(dǎo)航中的最小獎(jiǎng)勵(lì)VS事件的數(shù)量 對(duì)一個(gè)跨所有智能體的策略進(jìn)行優(yōu)化是很困難的,并且有時(shí)候還難以控制(特別是當(dāng)智能體的數(shù)量很大時(shí))。相反,我們采用分布式方法,其中每個(gè)智能體通過(guò)其局部觀察來(lái)改進(jìn)中心策略。然后,中心控制器將這些改進(jìn)結(jié)合起來(lái),從而改進(jìn)整體策略。這可以被看作是對(duì)一個(gè)原始問(wèn)題的重塑,由對(duì)一個(gè)策略進(jìn)行優(yōu)化重塑為對(duì)若干個(gè)策略進(jìn)行優(yōu)化,而這若干個(gè)策略受限于它們是相同的。訓(xùn)練結(jié)束后,所有智能體只能使用一個(gè)策略。這是一種優(yōu)化技術(shù),之前已經(jīng)在分布式環(huán)境設(shè)置中取得了成功。因此,本文的主要貢獻(xiàn)是: 1.提出一種使用分布式優(yōu)化解決MARL問(wèn)題的新算法。 2.在使用分布式優(yōu)化解決MARL問(wèn)題時(shí),提出策略梯度公式。 相關(guān)研究 多智能體強(qiáng)化學(xué)習(xí)(MARL)一直是強(qiáng)化學(xué)習(xí)領(lǐng)域中,備受積極探索的分支。許多初始方法都基于表格法(tabular methods)來(lái)計(jì)算Markov博弈總體的Q值。過(guò)去的另一種方法是將每個(gè)事件(episode)都作為一個(gè)迭代博弈來(lái)處理,從而消除MARL中的非平穩(wěn)性,在此期間,其他智能體保持不變。在這一博弈中,所提出的算法尋求納什均衡(Nash equilibrium)。當(dāng)然,對(duì)于含有多智能體的復(fù)雜競(jìng)爭(zhēng)或協(xié)作任務(wù)而言,找到納什均衡是非常重要的?;谧罱疃葟?qiáng)化學(xué)習(xí)方法的成功,人們對(duì)使用神經(jīng)網(wǎng)絡(luò)等高容量模型來(lái)解決MARL問(wèn)題產(chǎn)生了新的興趣。然而,這一過(guò)程并不簡(jiǎn)單,并且很難擴(kuò)展至智能體數(shù)量超過(guò)2個(gè)的博弈中。 當(dāng)使用深度神經(jīng)網(wǎng)絡(luò)解決MARL問(wèn)題時(shí),一種過(guò)去運(yùn)行良好的一種方法是,對(duì)每個(gè)智能體使用去中心化的演員,并在智能體間使用參數(shù)共享的中心化評(píng)論家。雖然這在智能體數(shù)量很少時(shí)運(yùn)行良好,但是它效率不高,而且經(jīng)常在環(huán)境中智能體數(shù)量增加時(shí),訓(xùn)練會(huì)變得不穩(wěn)定。 在我們的研究中,我們推導(dǎo)出了用于多個(gè)智能體的策略梯度派生。這種派生與元學(xué)習(xí)(meta-learning)中的策略梯度非常相似,而元學(xué)習(xí)可以用來(lái)解決連續(xù)的任務(wù)適應(yīng)。在以往的研究中,專(zhuān)家提出了一種元學(xué)習(xí)算法,試圖通過(guò)將非平穩(wěn)性任務(wù)視為一系列固定任務(wù)來(lái)緩解非平穩(wěn)性問(wèn)題,并訓(xùn)練智能體利用連續(xù)任務(wù)之間的依賴(lài)關(guān)系,從而使其能夠在執(zhí)行任務(wù)期間處理類(lèi)似的非平穩(wěn)任務(wù)。這與我們的研究形成了鮮明的對(duì)比,其中,我們專(zhuān)注于MARL問(wèn)題。在MARL中,通常很少有可以利用的任務(wù)之間(在MARL設(shè)置中對(duì)應(yīng)于智能體之間)依賴(lài)關(guān)系。相反,我們聚焦于使用分布式學(xué)習(xí)來(lái)學(xué)習(xí)策略。 因此,在本次研究工作中,我們提出了一種用于多智能體強(qiáng)化學(xué)習(xí)的分布式優(yōu)化方案,以學(xué)習(xí)如何將來(lái)自所有智能體的信息,整合至一個(gè)適用于大型群體的策略中。實(shí)驗(yàn)結(jié)果表明,隨著智能體數(shù)量的增長(zhǎng),本文提出的算法,在性能方面優(yōu)于當(dāng)前最先進(jìn)的多智能體深度強(qiáng)化學(xué)習(xí)算法。 我們?cè)谘芯窟^(guò)程中所面臨的瓶頸,是計(jì)算梯度更新的二階導(dǎo)數(shù)時(shí),會(huì)涉及大量計(jì)算成本。因此,在實(shí)際應(yīng)用中,我們對(duì)二階導(dǎo)數(shù)進(jìn)行了近似處理,并且僅限于簡(jiǎn)單的前饋神經(jīng)網(wǎng)絡(luò)。在更具挑戰(zhàn)性的任務(wù)中,嘗試使用循環(huán)神經(jīng)網(wǎng)絡(luò)并研究計(jì)算快速梯度的方法,或許是一個(gè)好的選擇。我們將這留作今后的工作。 原文鏈接:https:///pdf/1805.08776.pdf |
|
來(lái)自: 山峰云繞 > 《人工智能信息科學(xué)仿生等新奇技術(shù)》