一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

DeepMind為何缺席GPT盛宴?原來(lái)在教小機(jī)器人踢足球

 天承辦公室 2023-04-29 發(fā)布于江蘇
機(jī)器之心報(bào)道

編輯:陳萍、杜偉

最近,整個(gè) AI 社區(qū)都沉浸在 ChatGPT 帶來(lái)的狂歡中,OpenAI 也一躍成為全球最受矚目的科技公司。然而,同樣把「通用人工智能」作為終極目標(biāo)的 DeepMind 卻缺席了這場(chǎng)狂歡。大眾不免好奇:DeepMind 最近在忙什么?剛剛,DeepMind 似乎回應(yīng)了這個(gè)問(wèn)題:他們把一直以來(lái)堅(jiān)持的強(qiáng)化學(xué)習(xí)帶到了物理世界,做出了一些可以自己學(xué)習(xí)踢足球的具身智能體小機(jī)器人。

在很多學(xué)者看來(lái),具身智能是通往 AGI 的一個(gè)非常有前途的方向,而 ChatGPT 的成功也離不開(kāi)以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的 RLHF 技術(shù)。DeepMind vs. OpenAI,究竟誰(shuí)能率先實(shí)現(xiàn) AGI,答案似乎還未揭曉。

我們知道,創(chuàng)建通用的具身智能(即以敏捷、靈巧的方式在物理世界采取行動(dòng)并像動(dòng)物或人類(lèi)一樣進(jìn)行理解的智能體)是 AI 研究者和機(jī)器人專(zhuān)家的長(zhǎng)期目標(biāo)之一。從時(shí)間上來(lái)看,創(chuàng)建具有復(fù)雜運(yùn)動(dòng)能力的智能具身智能體可以追溯到很多年前,無(wú)論是在模擬還是真實(shí)世界中。

近年來(lái)進(jìn)展速度大大加快,其中基于學(xué)習(xí)的方法發(fā)揮了重大作用。例如深度強(qiáng)化學(xué)習(xí)已被證明能夠解決模擬角色的復(fù)雜運(yùn)動(dòng)控制問(wèn)題,包括復(fù)雜、感知驅(qū)動(dòng)的全身控制或多智能體行為。同時(shí),深度強(qiáng)化學(xué)習(xí)越來(lái)越多地應(yīng)用于物理機(jī)器人。尤其是廣泛使用的高質(zhì)量四足機(jī)器人,它們已經(jīng)成為了通過(guò)學(xué)習(xí)生成一系列穩(wěn)健運(yùn)動(dòng)行為的演示目標(biāo)。

不過(guò),靜態(tài)環(huán)境中的運(yùn)動(dòng)只是動(dòng)物與人類(lèi)部署其身體與世界交互的眾多方式的一部分,這種運(yùn)動(dòng)形態(tài)已在很多研究全身控制和運(yùn)動(dòng)操縱的工作中得到驗(yàn)證,尤其是四足機(jī)器人。相關(guān)運(yùn)動(dòng)示例包括攀爬、運(yùn)球或接球等足球技巧,以及使用腿進(jìn)行簡(jiǎn)單操作。

其中對(duì)于足球運(yùn)動(dòng)來(lái)說(shuō),它展示了人類(lèi)感覺(jué)運(yùn)動(dòng)智能的很多特征。足球的復(fù)雜性要求各種高敏捷和動(dòng)態(tài)動(dòng)作,包括跑動(dòng)、轉(zhuǎn)身、回避、踢球、傳球、跌倒爬起等。這些動(dòng)作需要以多種方式進(jìn)行組合。球員則需要對(duì)球、隊(duì)友和對(duì)方球員做出預(yù)測(cè),并根據(jù)比賽環(huán)境調(diào)整動(dòng)作。這種挑戰(zhàn)的多樣性已在機(jī)器人和 AI 社區(qū)中得到認(rèn)可,并誕生了機(jī)器人世界杯 RoboCup。

不過(guò)應(yīng)看到,踢好足球所需要的敏捷、靈活和迅速反應(yīng)以及這些要素之間的平滑過(guò)渡對(duì)于手動(dòng)設(shè)計(jì)機(jī)器人來(lái)說(shuō)挑戰(zhàn)很大且耗費(fèi)時(shí)間。近日,DeepMind(現(xiàn)已與谷歌大腦團(tuán)隊(duì)合并為 Google DeepMind)的新論文探討了利用深度強(qiáng)化學(xué)習(xí)為雙足機(jī)器人學(xué)習(xí)敏捷的足球技巧。

Image

論文地址:https:///pdf/2304.13653.pdf

項(xiàng)目主頁(yè):https://sites.google.com/view/op3-soccer

在這篇論文中,研究者研究了動(dòng)態(tài)多智能體環(huán)境中小型類(lèi)人機(jī)器人的全身控制和對(duì)象交互。他們考慮了整個(gè)足球問(wèn)題的一個(gè)子集,訓(xùn)練了一個(gè)具有 20 個(gè)可控關(guān)節(jié)的低成本微型類(lèi)人機(jī)器人來(lái)玩 1 v1 足球比賽,并觀察本體感覺(jué)和比賽狀態(tài)特征。通過(guò)內(nèi)置的控制器,機(jī)器人緩慢笨拙地移動(dòng)。不過(guò),研究者使用深度強(qiáng)化學(xué)習(xí)將智能體以自然流暢方式組合起來(lái)的動(dòng)態(tài)敏捷的上下文自適應(yīng)運(yùn)動(dòng)技巧(如走、跑、轉(zhuǎn)身以及踢球和跌倒爬起)合成為了復(fù)雜的長(zhǎng)期行為。

在實(shí)驗(yàn)中,智能體學(xué)會(huì)了預(yù)測(cè)球的運(yùn)動(dòng)、定位、阻攻以及利用反彈球等。智能體在多智能體環(huán)境中出現(xiàn)這些行為得益于技能復(fù)用、端到端訓(xùn)練和簡(jiǎn)單獎(jiǎng)勵(lì)的組合。研究者在模擬中訓(xùn)練智能體并將它們遷移到物理機(jī)器人中,證明了即使對(duì)于低成本機(jī)器人而言,模擬到真實(shí)的遷移也是可能的。

用數(shù)據(jù)說(shuō)話,機(jī)器人的行走速度提升了 156%,起身的時(shí)間減少了 63%,踢球的速度也比基線提升了 24%。

在進(jìn)入技術(shù)解讀之前,我們先看一些機(jī)器人在 1v1 足球比賽中的精彩瞬間。比如射門(mén):

Image

罰點(diǎn)球:

Image

轉(zhuǎn)向、盤(pán)帶和踢球,一氣呵成:

Image

阻攻:

Image

實(shí)驗(yàn)設(shè)置

想要讓機(jī)器人學(xué)會(huì)踢足球,首先需要一些基本設(shè)置。

環(huán)境方面,DeepMind 首先在自定義的足球環(huán)境中模擬訓(xùn)練智能體,然后將策略遷移到相應(yīng)的真實(shí)環(huán)境中,如圖 1 所示。環(huán)境包括一個(gè)長(zhǎng) 5 米、寬 4 米的足球場(chǎng),以及兩個(gè)球門(mén),每個(gè)球門(mén)的開(kāi)口寬度均為 0.8 米。在模擬和真實(shí)環(huán)境中,球場(chǎng)都以坡道為界,從而確保球在界內(nèi)。真正的球場(chǎng)上鋪有橡膠地磚,以減少摔倒損壞機(jī)器人的風(fēng)險(xiǎn)并增加地面摩擦力。

Image

環(huán)境設(shè)置好后,接著就是硬件和動(dòng)作捕捉的設(shè)置。DeepMind 采用 Robotis OP3 機(jī)器人,它身高 51 厘米,重 3.5 kg,由 20 個(gè)伺服電機(jī)驅(qū)動(dòng)。該機(jī)器人沒(méi)有 GPU 或其他專(zhuān)用加速器,因此所有神經(jīng)網(wǎng)絡(luò)計(jì)算都在 CPU 上運(yùn)行。機(jī)器人的頭部是羅技 C920 網(wǎng)絡(luò)攝像頭,它可以選擇以每秒 30 幀的速度提供 RGB 視頻流。

Image

方法

DeepMind 的目標(biāo)是訓(xùn)練可以行走、踢球、起身、防守、懂得如何得分的智能體,然后再將這些功能遷移到真正的機(jī)器人身上。DeepMind 將訓(xùn)練分成兩個(gè)階段來(lái)進(jìn)行,如圖 3 所示。

  • 在第一階段,DeepMind 針對(duì)兩種特定技能訓(xùn)練教師策略,這兩種技能包括智能體從地面上站起來(lái)和進(jìn)球得分。

  • 在第二階段,第一階段的教師策略被用來(lái)規(guī)范智能體,同時(shí)智能體學(xué)會(huì)有效地對(duì)抗越來(lái)越強(qiáng)大的對(duì)手。

Image

訓(xùn)練

首先是教師訓(xùn)練。教師需要接受盡可能多的進(jìn)球訓(xùn)練。當(dāng)智能體摔倒、出界、進(jìn)入禁區(qū) (圖 1 中用紅色標(biāo)記) 或?qū)κ值梅謺r(shí),這一回合(Episodes)終止。在每一回合的開(kāi)始,對(duì)智能體、另一方和球在球場(chǎng)上的隨機(jī)位置和方向進(jìn)行初始化。雙方都初始化為默認(rèn)站姿。對(duì)手使用未經(jīng)訓(xùn)練的策略進(jìn)行初始化,因此,智能體在這個(gè)階段學(xué)會(huì)避開(kāi)對(duì)手,但不會(huì)發(fā)生進(jìn)一步復(fù)雜的互動(dòng)。此外,每個(gè)訓(xùn)練階段的獎(jiǎng)勵(lì)及其權(quán)重如表 2 所示。

Image

接著智能體與越來(lái)越強(qiáng)大的對(duì)手競(jìng)爭(zhēng),同時(shí)將其行為規(guī)范到教師策略。這樣一來(lái)智能體能夠掌握一系列足球技能:行走、踢球、起身、得分和防守。當(dāng)智能體出界或在球門(mén)禁區(qū)內(nèi)時(shí),它會(huì)在每個(gè)時(shí)間步受到固定的懲罰。

智能體訓(xùn)練好后,接下來(lái)就是將訓(xùn)練好的踢球策略零樣本遷移到真實(shí)機(jī)器人。為了提高零樣本遷移成功率,DeepMind 通過(guò)簡(jiǎn)單的系統(tǒng)識(shí)別減少了模擬智能體與真實(shí)機(jī)器人的差距,通過(guò)訓(xùn)練期間的領(lǐng)域隨機(jī)化和擾動(dòng)提高了策略的魯棒性,以及包括塑造獎(jiǎng)勵(lì)策略以獲得不太可能損害機(jī)器人的行為。

實(shí)驗(yàn)

1v1 比賽:足球智能體可以處理多種緊急行為,包括靈活的運(yùn)動(dòng)技能,例如從地面起身、快速?gòu)牡怪谢謴?fù)、奔跑和轉(zhuǎn)身。游戲過(guò)程中,智能體以流暢的方式在所有這些技能之間轉(zhuǎn)換。

Image

下表 3 為定量分析結(jié)果。從結(jié)果可以看出強(qiáng)化學(xué)習(xí)策略比專(zhuān)門(mén)的人工設(shè)計(jì)的技能表現(xiàn)更好,智能體的行走速度快了 156%,起身時(shí)間少了 63%。

Image

下圖為智能體的行走軌跡,相比之下,由學(xué)習(xí)策略產(chǎn)生的智能體軌跡結(jié)構(gòu)更加豐富:

Image

為了評(píng)估學(xué)習(xí)策略的可靠性,DeepMind 設(shè)計(jì)了點(diǎn)球和起跳射門(mén)定位球,并在模擬環(huán)境和真實(shí)環(huán)境中實(shí)現(xiàn)。初始配置如圖 7 所示。

Image

在真實(shí)環(huán)境中,機(jī)器人在罰點(diǎn)球任務(wù)中 10 次中了 7 次 (70%),在起射任務(wù)中 10 次中了 8 次 (80%)。而在模擬實(shí)驗(yàn)中,智能體在這兩項(xiàng)任務(wù)中的得分更加一致,這表明智能體的訓(xùn)練策略遷移到真實(shí)環(huán)境(包括真實(shí)機(jī)器人、球、地板表面等),性能略有下降,行為差異有所增加,但機(jī)器人仍然能夠可靠地起身、踢球和得分。結(jié)果如圖 7 和表 3 所示。

Image

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多

    国产精品人妻熟女毛片av久久| 国产亚洲中文日韩欧美综合网| 自拍偷女厕所拍偷区亚洲综合| 欧美成人久久久免费播放| 国产又粗又猛又大爽又黄同志| 国内外激情免费在线视频| 成人精品欧美一级乱黄| 激情视频在线视频在线视频| 日韩欧美国产精品自拍| 国产日韩熟女中文字幕| 久久久精品日韩欧美丰满| 国产精品福利一二三区| 国产传媒高清视频在线| 国产一区二区三区午夜精品| 成人午夜视频精品一区| 丝袜人妻夜夜爽一区二区三区| 日本午夜免费观看视频| 91麻豆视频国产一区二区| 高清亚洲精品中文字幕乱码| 亚洲一区二区三区国产| 亚洲高清中文字幕一区二三区| 欧美日韩国产成人高潮| 国产视频在线一区二区| 久久精品中文字幕人妻中文| 国产欧美日产久久婷婷| 搡老妇女老熟女一区二区| 国产性情片一区二区三区| 免费午夜福利不卡片在线 视频| 人妻内射精品一区二区| 国产一区日韩二区欧美| 精品国产日韩一区三区| 福利一区二区视频在线| 欧美日韩黑人免费观看| 伊人久久青草地婷婷综合| 精品欧美在线观看国产| 午夜精品福利视频观看| 成人精品欧美一级乱黄| 九九热精彩视频在线播放| 日本加勒比中文在线观看| 日韩在线精品视频观看| 大伊香蕉一区二区三区|