DeepMind為何缺席GPT盛宴？原來(lái)在教小機(jī)器人踢足球

天承辦公室 2023-04-29 發(fā)布于江蘇

展開(kāi)全文

機(jī)器之心報(bào)道

編輯：陳萍、杜偉

最近，整個(gè) AI 社區(qū)都沉浸在 ChatGPT 帶來(lái)的狂歡中，OpenAI 也一躍成為全球最受矚目的科技公司。然而，同樣把「通用人工智能」作為終極目標(biāo)的 DeepMind 卻缺席了這場(chǎng)狂歡。大眾不免好奇：DeepMind 最近在忙什么？剛剛，DeepMind 似乎回應(yīng)了這個(gè)問(wèn)題：他們把一直以來(lái)堅(jiān)持的強(qiáng)化學(xué)習(xí)帶到了物理世界，做出了一些可以自己學(xué)習(xí)踢足球的具身智能體小機(jī)器人。

在很多學(xué)者看來(lái)，具身智能是通往 AGI 的一個(gè)非常有前途的方向，而 ChatGPT 的成功也離不開(kāi)以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的 RLHF 技術(shù)。DeepMind vs. OpenAI，究竟誰(shuí)能率先實(shí)現(xiàn) AGI，答案似乎還未揭曉。

我們知道，創(chuàng)建通用的具身智能（即以敏捷、靈巧的方式在物理世界采取行動(dòng)并像動(dòng)物或人類(lèi)一樣進(jìn)行理解的智能體）是 AI 研究者和機(jī)器人專(zhuān)家的長(zhǎng)期目標(biāo)之一。從時(shí)間上來(lái)看，創(chuàng)建具有復(fù)雜運(yùn)動(dòng)能力的智能具身智能體可以追溯到很多年前，無(wú)論是在模擬還是真實(shí)世界中。

近年來(lái)進(jìn)展速度大大加快，其中基于學(xué)習(xí)的方法發(fā)揮了重大作用。例如深度強(qiáng)化學(xué)習(xí)已被證明能夠解決模擬角色的復(fù)雜運(yùn)動(dòng)控制問(wèn)題，包括復(fù)雜、感知驅(qū)動(dòng)的全身控制或多智能體行為。同時(shí)，深度強(qiáng)化學(xué)習(xí)越來(lái)越多地應(yīng)用于物理機(jī)器人。尤其是廣泛使用的高質(zhì)量四足機(jī)器人，它們已經(jīng)成為了通過(guò)學(xué)習(xí)生成一系列穩(wěn)健運(yùn)動(dòng)行為的演示目標(biāo)。

不過(guò)，靜態(tài)環(huán)境中的運(yùn)動(dòng)只是動(dòng)物與人類(lèi)部署其身體與世界交互的眾多方式的一部分，這種運(yùn)動(dòng)形態(tài)已在很多研究全身控制和運(yùn)動(dòng)操縱的工作中得到驗(yàn)證，尤其是四足機(jī)器人。相關(guān)運(yùn)動(dòng)示例包括攀爬、運(yùn)球或接球等足球技巧，以及使用腿進(jìn)行簡(jiǎn)單操作。

其中對(duì)于足球運(yùn)動(dòng)來(lái)說(shuō)，它展示了人類(lèi)感覺(jué)運(yùn)動(dòng)智能的很多特征。足球的復(fù)雜性要求各種高敏捷和動(dòng)態(tài)動(dòng)作，包括跑動(dòng)、轉(zhuǎn)身、回避、踢球、傳球、跌倒爬起等。這些動(dòng)作需要以多種方式進(jìn)行組合。球員則需要對(duì)球、隊(duì)友和對(duì)方球員做出預(yù)測(cè)，并根據(jù)比賽環(huán)境調(diào)整動(dòng)作。這種挑戰(zhàn)的多樣性已在機(jī)器人和 AI 社區(qū)中得到認(rèn)可，并誕生了機(jī)器人世界杯 RoboCup。

不過(guò)應(yīng)看到，踢好足球所需要的敏捷、靈活和迅速反應(yīng)以及這些要素之間的平滑過(guò)渡對(duì)于手動(dòng)設(shè)計(jì)機(jī)器人來(lái)說(shuō)挑戰(zhàn)很大且耗費(fèi)時(shí)間。近日，DeepMind（現(xiàn)已與谷歌大腦團(tuán)隊(duì)合并為 Google DeepMind）的新論文探討了利用深度強(qiáng)化學(xué)習(xí)為雙足機(jī)器人學(xué)習(xí)敏捷的足球技巧。

論文地址：https:///pdf/2304.13653.pdf

項(xiàng)目主頁(yè)：https://sites.google.com/view/op3-soccer

在這篇論文中，研究者研究了動(dòng)態(tài)多智能體環(huán)境中小型類(lèi)人機(jī)器人的全身控制和對(duì)象交互。他們考慮了整個(gè)足球問(wèn)題的一個(gè)子集，訓(xùn)練了一個(gè)具有 20 個(gè)可控關(guān)節(jié)的低成本微型類(lèi)人機(jī)器人來(lái)玩 1 v1 足球比賽，并觀察本體感覺(jué)和比賽狀態(tài)特征。通過(guò)內(nèi)置的控制器，機(jī)器人緩慢笨拙地移動(dòng)。不過(guò)，研究者使用深度強(qiáng)化學(xué)習(xí)將智能體以自然流暢方式組合起來(lái)的動(dòng)態(tài)敏捷的上下文自適應(yīng)運(yùn)動(dòng)技巧（如走、跑、轉(zhuǎn)身以及踢球和跌倒爬起）合成為了復(fù)雜的長(zhǎng)期行為。

在實(shí)驗(yàn)中，智能體學(xué)會(huì)了預(yù)測(cè)球的運(yùn)動(dòng)、定位、阻攻以及利用反彈球等。智能體在多智能體環(huán)境中出現(xiàn)這些行為得益于技能復(fù)用、端到端訓(xùn)練和簡(jiǎn)單獎(jiǎng)勵(lì)的組合。研究者在模擬中訓(xùn)練智能體并將它們遷移到物理機(jī)器人中，證明了即使對(duì)于低成本機(jī)器人而言，模擬到真實(shí)的遷移也是可能的。

用數(shù)據(jù)說(shuō)話，機(jī)器人的行走速度提升了 156%，起身的時(shí)間減少了 63%，踢球的速度也比基線提升了 24%。

在進(jìn)入技術(shù)解讀之前，我們先看一些機(jī)器人在 1v1 足球比賽中的精彩瞬間。比如射門(mén)：

罰點(diǎn)球：

轉(zhuǎn)向、盤(pán)帶和踢球，一氣呵成：

阻攻：

實(shí)驗(yàn)設(shè)置

想要讓機(jī)器人學(xué)會(huì)踢足球，首先需要一些基本設(shè)置。

環(huán)境方面，DeepMind 首先在自定義的足球環(huán)境中模擬訓(xùn)練智能體，然后將策略遷移到相應(yīng)的真實(shí)環(huán)境中，如圖 1 所示。環(huán)境包括一個(gè)長(zhǎng) 5 米、寬 4 米的足球場(chǎng)，以及兩個(gè)球門(mén)，每個(gè)球門(mén)的開(kāi)口寬度均為 0.8 米。在模擬和真實(shí)環(huán)境中，球場(chǎng)都以坡道為界，從而確保球在界內(nèi)。真正的球場(chǎng)上鋪有橡膠地磚，以減少摔倒損壞機(jī)器人的風(fēng)險(xiǎn)并增加地面摩擦力。

環(huán)境設(shè)置好后，接著就是硬件和動(dòng)作捕捉的設(shè)置。DeepMind 采用 Robotis OP3 機(jī)器人，它身高 51 厘米，重 3.5 kg，由 20 個(gè)伺服電機(jī)驅(qū)動(dòng)。該機(jī)器人沒(méi)有 GPU 或其他專(zhuān)用加速器，因此所有神經(jīng)網(wǎng)絡(luò)計(jì)算都在 CPU 上運(yùn)行。機(jī)器人的頭部是羅技 C920 網(wǎng)絡(luò)攝像頭，它可以選擇以每秒 30 幀的速度提供 RGB 視頻流。

方法

DeepMind 的目標(biāo)是訓(xùn)練可以行走、踢球、起身、防守、懂得如何得分的智能體，然后再將這些功能遷移到真正的機(jī)器人身上。DeepMind 將訓(xùn)練分成兩個(gè)階段來(lái)進(jìn)行，如圖 3 所示。

在第一階段，DeepMind 針對(duì)兩種特定技能訓(xùn)練教師策略，這兩種技能包括智能體從地面上站起來(lái)和進(jìn)球得分。
在第二階段，第一階段的教師策略被用來(lái)規(guī)范智能體，同時(shí)智能體學(xué)會(huì)有效地對(duì)抗越來(lái)越強(qiáng)大的對(duì)手。

訓(xùn)練

首先是教師訓(xùn)練。教師需要接受盡可能多的進(jìn)球訓(xùn)練。當(dāng)智能體摔倒、出界、進(jìn)入禁區(qū) (圖 1 中用紅色標(biāo)記) 或?qū)κ值梅謺r(shí)，這一回合（Episodes）終止。在每一回合的開(kāi)始，對(duì)智能體、另一方和球在球場(chǎng)上的隨機(jī)位置和方向進(jìn)行初始化。雙方都初始化為默認(rèn)站姿。對(duì)手使用未經(jīng)訓(xùn)練的策略進(jìn)行初始化，因此，智能體在這個(gè)階段學(xué)會(huì)避開(kāi)對(duì)手，但不會(huì)發(fā)生進(jìn)一步復(fù)雜的互動(dòng)。此外，每個(gè)訓(xùn)練階段的獎(jiǎng)勵(lì)及其權(quán)重如表 2 所示。

接著智能體與越來(lái)越強(qiáng)大的對(duì)手競(jìng)爭(zhēng)，同時(shí)將其行為規(guī)范到教師策略。這樣一來(lái)智能體能夠掌握一系列足球技能：行走、踢球、起身、得分和防守。當(dāng)智能體出界或在球門(mén)禁區(qū)內(nèi)時(shí)，它會(huì)在每個(gè)時(shí)間步受到固定的懲罰。

智能體訓(xùn)練好后，接下來(lái)就是將訓(xùn)練好的踢球策略零樣本遷移到真實(shí)機(jī)器人。為了提高零樣本遷移成功率，DeepMind 通過(guò)簡(jiǎn)單的系統(tǒng)識(shí)別減少了模擬智能體與真實(shí)機(jī)器人的差距，通過(guò)訓(xùn)練期間的領(lǐng)域隨機(jī)化和擾動(dòng)提高了策略的魯棒性，以及包括塑造獎(jiǎng)勵(lì)策略以獲得不太可能損害機(jī)器人的行為。

實(shí)驗(yàn)

1v1 比賽：足球智能體可以處理多種緊急行為，包括靈活的運(yùn)動(dòng)技能，例如從地面起身、快速?gòu)牡怪谢謴?fù)、奔跑和轉(zhuǎn)身。游戲過(guò)程中，智能體以流暢的方式在所有這些技能之間轉(zhuǎn)換。

下表 3 為定量分析結(jié)果。從結(jié)果可以看出強(qiáng)化學(xué)習(xí)策略比專(zhuān)門(mén)的人工設(shè)計(jì)的技能表現(xiàn)更好，智能體的行走速度快了 156%，起身時(shí)間少了 63%。

下圖為智能體的行走軌跡，相比之下，由學(xué)習(xí)策略產(chǎn)生的智能體軌跡結(jié)構(gòu)更加豐富：

為了評(píng)估學(xué)習(xí)策略的可靠性，DeepMind 設(shè)計(jì)了點(diǎn)球和起跳射門(mén)定位球，并在模擬環(huán)境和真實(shí)環(huán)境中實(shí)現(xiàn)。初始配置如圖 7 所示。

在真實(shí)環(huán)境中，機(jī)器人在罰點(diǎn)球任務(wù)中 10 次中了 7 次 (70%)，在起射任務(wù)中 10 次中了 8 次 (80%)。而在模擬實(shí)驗(yàn)中，智能體在這兩項(xiàng)任務(wù)中的得分更加一致，這表明智能體的訓(xùn)練策略遷移到真實(shí)環(huán)境（包括真實(shí)機(jī)器人、球、地板表面等），性能略有下降，行為差異有所增加，但機(jī)器人仍然能夠可靠地起身、踢球和得分。結(jié)果如圖 7 和表 3 所示。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)