編輯:陳萍、杜偉
在很多學(xué)者看來(lái),具身智能是通往 AGI 的一個(gè)非常有前途的方向,而 ChatGPT 的成功也離不開(kāi)以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的 RLHF 技術(shù)。DeepMind vs. OpenAI,究竟誰(shuí)能率先實(shí)現(xiàn) AGI,答案似乎還未揭曉。 我們知道,創(chuàng)建通用的具身智能(即以敏捷、靈巧的方式在物理世界采取行動(dòng)并像動(dòng)物或人類(lèi)一樣進(jìn)行理解的智能體)是 AI 研究者和機(jī)器人專(zhuān)家的長(zhǎng)期目標(biāo)之一。從時(shí)間上來(lái)看,創(chuàng)建具有復(fù)雜運(yùn)動(dòng)能力的智能具身智能體可以追溯到很多年前,無(wú)論是在模擬還是真實(shí)世界中。 近年來(lái)進(jìn)展速度大大加快,其中基于學(xué)習(xí)的方法發(fā)揮了重大作用。例如深度強(qiáng)化學(xué)習(xí)已被證明能夠解決模擬角色的復(fù)雜運(yùn)動(dòng)控制問(wèn)題,包括復(fù)雜、感知驅(qū)動(dòng)的全身控制或多智能體行為。同時(shí),深度強(qiáng)化學(xué)習(xí)越來(lái)越多地應(yīng)用于物理機(jī)器人。尤其是廣泛使用的高質(zhì)量四足機(jī)器人,它們已經(jīng)成為了通過(guò)學(xué)習(xí)生成一系列穩(wěn)健運(yùn)動(dòng)行為的演示目標(biāo)。 不過(guò),靜態(tài)環(huán)境中的運(yùn)動(dòng)只是動(dòng)物與人類(lèi)部署其身體與世界交互的眾多方式的一部分,這種運(yùn)動(dòng)形態(tài)已在很多研究全身控制和運(yùn)動(dòng)操縱的工作中得到驗(yàn)證,尤其是四足機(jī)器人。相關(guān)運(yùn)動(dòng)示例包括攀爬、運(yùn)球或接球等足球技巧,以及使用腿進(jìn)行簡(jiǎn)單操作。 其中對(duì)于足球運(yùn)動(dòng)來(lái)說(shuō),它展示了人類(lèi)感覺(jué)運(yùn)動(dòng)智能的很多特征。足球的復(fù)雜性要求各種高敏捷和動(dòng)態(tài)動(dòng)作,包括跑動(dòng)、轉(zhuǎn)身、回避、踢球、傳球、跌倒爬起等。這些動(dòng)作需要以多種方式進(jìn)行組合。球員則需要對(duì)球、隊(duì)友和對(duì)方球員做出預(yù)測(cè),并根據(jù)比賽環(huán)境調(diào)整動(dòng)作。這種挑戰(zhàn)的多樣性已在機(jī)器人和 AI 社區(qū)中得到認(rèn)可,并誕生了機(jī)器人世界杯 RoboCup。 不過(guò)應(yīng)看到,踢好足球所需要的敏捷、靈活和迅速反應(yīng)以及這些要素之間的平滑過(guò)渡對(duì)于手動(dòng)設(shè)計(jì)機(jī)器人來(lái)說(shuō)挑戰(zhàn)很大且耗費(fèi)時(shí)間。近日,DeepMind(現(xiàn)已與谷歌大腦團(tuán)隊(duì)合并為 Google DeepMind)的新論文探討了利用深度強(qiáng)化學(xué)習(xí)為雙足機(jī)器人學(xué)習(xí)敏捷的足球技巧。 論文地址:https:///pdf/2304.13653.pdf 項(xiàng)目主頁(yè):https://sites.google.com/view/op3-soccer 在這篇論文中,研究者研究了動(dòng)態(tài)多智能體環(huán)境中小型類(lèi)人機(jī)器人的全身控制和對(duì)象交互。他們考慮了整個(gè)足球問(wèn)題的一個(gè)子集,訓(xùn)練了一個(gè)具有 20 個(gè)可控關(guān)節(jié)的低成本微型類(lèi)人機(jī)器人來(lái)玩 1 v1 足球比賽,并觀察本體感覺(jué)和比賽狀態(tài)特征。通過(guò)內(nèi)置的控制器,機(jī)器人緩慢笨拙地移動(dòng)。不過(guò),研究者使用深度強(qiáng)化學(xué)習(xí)將智能體以自然流暢方式組合起來(lái)的動(dòng)態(tài)敏捷的上下文自適應(yīng)運(yùn)動(dòng)技巧(如走、跑、轉(zhuǎn)身以及踢球和跌倒爬起)合成為了復(fù)雜的長(zhǎng)期行為。 在實(shí)驗(yàn)中,智能體學(xué)會(huì)了預(yù)測(cè)球的運(yùn)動(dòng)、定位、阻攻以及利用反彈球等。智能體在多智能體環(huán)境中出現(xiàn)這些行為得益于技能復(fù)用、端到端訓(xùn)練和簡(jiǎn)單獎(jiǎng)勵(lì)的組合。研究者在模擬中訓(xùn)練智能體并將它們遷移到物理機(jī)器人中,證明了即使對(duì)于低成本機(jī)器人而言,模擬到真實(shí)的遷移也是可能的。 用數(shù)據(jù)說(shuō)話,機(jī)器人的行走速度提升了 156%,起身的時(shí)間減少了 63%,踢球的速度也比基線提升了 24%。 在進(jìn)入技術(shù)解讀之前,我們先看一些機(jī)器人在 1v1 足球比賽中的精彩瞬間。比如射門(mén): 罰點(diǎn)球: 轉(zhuǎn)向、盤(pán)帶和踢球,一氣呵成: 阻攻: 實(shí)驗(yàn)設(shè)置 想要讓機(jī)器人學(xué)會(huì)踢足球,首先需要一些基本設(shè)置。 環(huán)境方面,DeepMind 首先在自定義的足球環(huán)境中模擬訓(xùn)練智能體,然后將策略遷移到相應(yīng)的真實(shí)環(huán)境中,如圖 1 所示。環(huán)境包括一個(gè)長(zhǎng) 5 米、寬 4 米的足球場(chǎng),以及兩個(gè)球門(mén),每個(gè)球門(mén)的開(kāi)口寬度均為 0.8 米。在模擬和真實(shí)環(huán)境中,球場(chǎng)都以坡道為界,從而確保球在界內(nèi)。真正的球場(chǎng)上鋪有橡膠地磚,以減少摔倒損壞機(jī)器人的風(fēng)險(xiǎn)并增加地面摩擦力。 環(huán)境設(shè)置好后,接著就是硬件和動(dòng)作捕捉的設(shè)置。DeepMind 采用 Robotis OP3 機(jī)器人,它身高 51 厘米,重 3.5 kg,由 20 個(gè)伺服電機(jī)驅(qū)動(dòng)。該機(jī)器人沒(méi)有 GPU 或其他專(zhuān)用加速器,因此所有神經(jīng)網(wǎng)絡(luò)計(jì)算都在 CPU 上運(yùn)行。機(jī)器人的頭部是羅技 C920 網(wǎng)絡(luò)攝像頭,它可以選擇以每秒 30 幀的速度提供 RGB 視頻流。 方法 DeepMind 的目標(biāo)是訓(xùn)練可以行走、踢球、起身、防守、懂得如何得分的智能體,然后再將這些功能遷移到真正的機(jī)器人身上。DeepMind 將訓(xùn)練分成兩個(gè)階段來(lái)進(jìn)行,如圖 3 所示。
訓(xùn)練 首先是教師訓(xùn)練。教師需要接受盡可能多的進(jìn)球訓(xùn)練。當(dāng)智能體摔倒、出界、進(jìn)入禁區(qū) (圖 1 中用紅色標(biāo)記) 或?qū)κ值梅謺r(shí),這一回合(Episodes)終止。在每一回合的開(kāi)始,對(duì)智能體、另一方和球在球場(chǎng)上的隨機(jī)位置和方向進(jìn)行初始化。雙方都初始化為默認(rèn)站姿。對(duì)手使用未經(jīng)訓(xùn)練的策略進(jìn)行初始化,因此,智能體在這個(gè)階段學(xué)會(huì)避開(kāi)對(duì)手,但不會(huì)發(fā)生進(jìn)一步復(fù)雜的互動(dòng)。此外,每個(gè)訓(xùn)練階段的獎(jiǎng)勵(lì)及其權(quán)重如表 2 所示。 接著智能體與越來(lái)越強(qiáng)大的對(duì)手競(jìng)爭(zhēng),同時(shí)將其行為規(guī)范到教師策略。這樣一來(lái)智能體能夠掌握一系列足球技能:行走、踢球、起身、得分和防守。當(dāng)智能體出界或在球門(mén)禁區(qū)內(nèi)時(shí),它會(huì)在每個(gè)時(shí)間步受到固定的懲罰。 智能體訓(xùn)練好后,接下來(lái)就是將訓(xùn)練好的踢球策略零樣本遷移到真實(shí)機(jī)器人。為了提高零樣本遷移成功率,DeepMind 通過(guò)簡(jiǎn)單的系統(tǒng)識(shí)別減少了模擬智能體與真實(shí)機(jī)器人的差距,通過(guò)訓(xùn)練期間的領(lǐng)域隨機(jī)化和擾動(dòng)提高了策略的魯棒性,以及包括塑造獎(jiǎng)勵(lì)策略以獲得不太可能損害機(jī)器人的行為。 實(shí)驗(yàn) 1v1 比賽:足球智能體可以處理多種緊急行為,包括靈活的運(yùn)動(dòng)技能,例如從地面起身、快速?gòu)牡怪谢謴?fù)、奔跑和轉(zhuǎn)身。游戲過(guò)程中,智能體以流暢的方式在所有這些技能之間轉(zhuǎn)換。 下表 3 為定量分析結(jié)果。從結(jié)果可以看出強(qiáng)化學(xué)習(xí)策略比專(zhuān)門(mén)的人工設(shè)計(jì)的技能表現(xiàn)更好,智能體的行走速度快了 156%,起身時(shí)間少了 63%。 下圖為智能體的行走軌跡,相比之下,由學(xué)習(xí)策略產(chǎn)生的智能體軌跡結(jié)構(gòu)更加豐富: 為了評(píng)估學(xué)習(xí)策略的可靠性,DeepMind 設(shè)計(jì)了點(diǎn)球和起跳射門(mén)定位球,并在模擬環(huán)境和真實(shí)環(huán)境中實(shí)現(xiàn)。初始配置如圖 7 所示。 在真實(shí)環(huán)境中,機(jī)器人在罰點(diǎn)球任務(wù)中 10 次中了 7 次 (70%),在起射任務(wù)中 10 次中了 8 次 (80%)。而在模擬實(shí)驗(yàn)中,智能體在這兩項(xiàng)任務(wù)中的得分更加一致,這表明智能體的訓(xùn)練策略遷移到真實(shí)環(huán)境(包括真實(shí)機(jī)器人、球、地板表面等),性能略有下降,行為差異有所增加,但機(jī)器人仍然能夠可靠地起身、踢球和得分。結(jié)果如圖 7 和表 3 所示。 |
|
來(lái)自: 天承辦公室 > 《022機(jī)器之心》