一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

DeepMind的機(jī)器人技術(shù)

 智藥邦 2022-05-27 發(fā)布于上海

DeepMind以其在深度強(qiáng)化學(xué)習(xí)方面的工作而聞名,尤其是在掌握復(fù)雜游戲和預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面。

如今,DeepMind向機(jī)器人技術(shù)邁出了一步。

2021年10月18日,DeepMind收購了物理模擬器MuJoCo,并宣布它將免費(fèi)提供,以支持全球各地的研究。

2022年5月23日,DeepMind宣布MuJoCo的開源已經(jīng)完成,可以在GitHub上訪問其全部源代碼。

DeepMind在機(jī)器人領(lǐng)域的進(jìn)展


近年來,DeepMind在機(jī)器人領(lǐng)域已有諸多探索和研究進(jìn)展,具體介紹如下。

MuJoCo模擬器:機(jī)器人研究的關(guān)鍵工具

模擬器創(chuàng)造了有效復(fù)制“現(xiàn)實(shí)世界”物理特性的虛擬世界,是現(xiàn)代機(jī)器人研究中的關(guān)鍵工具,讓研究人員以一種安全和廉價(jià)的方式開發(fā)和測(cè)試算法。研究人員可以創(chuàng)建一個(gè)數(shù)字機(jī)器人,將其放置在模擬器中,讓它學(xué)習(xí)如何無風(fēng)險(xiǎn)地在世界中行走。這種訓(xùn)練方法也比讓機(jī)器人直接在現(xiàn)實(shí)世界中學(xué)習(xí)要快得多,因?yàn)樵谀M器中能夠快速進(jìn)入更廣泛的環(huán)境,并運(yùn)行數(shù)千次。 

物理模擬器通常分為兩類。第一類是閉源的商業(yè)軟件。對(duì)用戶來說是不透明的,雖然有時(shí)可以免費(fèi)使用,但無法修改且難以理解。第二類是開源軟件,通常在學(xué)術(shù)界創(chuàng)建,但通常用戶群較小,其開發(fā)人員和維護(hù)人員的工作可能會(huì)受到影響。

MuJoCo是多關(guān)節(jié)接觸動(dòng)力學(xué) (Multi-Joint Dynamics with Contact) 的縮寫,由華盛頓大學(xué)教授Emo Todorov為Roboti LLC開發(fā),并于2015年至2021年作為商業(yè)產(chǎn)品提供。MuJoCo結(jié)合了廣義坐標(biāo)模擬和優(yōu)化后的接觸動(dòng)力學(xué),這使它能夠模擬完整的物理運(yùn)動(dòng)。由于其接觸模型豐富而高效,MuJoCo成為了機(jī)器人研究人員的首選。

DeepMind稱,盡管模擬器對(duì)AI機(jī)器人的開發(fā)很重要,但工程師可用的大多數(shù)機(jī)器人模擬器都存在重大缺陷。而MuJoCo是少數(shù)幾個(gè)全功能模擬器之一,它是真正開源的,將幫助工程師訓(xùn)練可以控制先進(jìn)機(jī)器人的人工智能。

深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人

2016年10月,DeepMind的研究人員發(fā)表文章《具有異步離策略更新的機(jī)器人操作的深度強(qiáng)化學(xué)習(xí)》,展示了深度強(qiáng)化學(xué)習(xí)如何訓(xùn)練真正的物理機(jī)器人。該論文表明,基于深度Q函數(shù)的強(qiáng)化學(xué)習(xí)算法可以擴(kuò)展到復(fù)雜的3D操作任務(wù),并有效地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)策略,以在真實(shí)的物理機(jī)器人上進(jìn)行訓(xùn)練。研究進(jìn)一步表明,通過多個(gè)機(jī)器人的算法并行化可以進(jìn)一步減少訓(xùn)練機(jī)器人的時(shí)間。

在模擬環(huán)境中產(chǎn)生靈活的行為

真正的運(yùn)動(dòng)智能需要學(xué)習(xí)如何控制和協(xié)調(diào)靈活的身體來解決一系列復(fù)雜環(huán)境中的任務(wù)。2017年7月,DeepMind發(fā)表了3篇文章,探索產(chǎn)生靈活自然的行為的方法,這些行為可以被重新利用來解決任務(wù)。

強(qiáng)化學(xué)習(xí)用于描述和解決智能體 (agent) 在與環(huán)境的交互過程中,通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。第一篇文章《豐富環(huán)境中運(yùn)動(dòng)行為的出現(xiàn)》探討了一種使用策略梯度強(qiáng)化學(xué)習(xí)的新的可擴(kuò)展方法,讓智能體可以根據(jù)環(huán)境的需要學(xué)習(xí)奔跑、跳躍、蹲伏和轉(zhuǎn)彎,而無需明確的基于獎(jiǎng)勵(lì)的指導(dǎo)。

不過,使用帶有簡單獎(jiǎng)勵(lì)函數(shù)的純強(qiáng)化學(xué)習(xí)的方法,往往會(huì)產(chǎn)生非人類且過于刻板的運(yùn)動(dòng)行為。第二篇文章《通過對(duì)抗性模仿從動(dòng)作捕捉中學(xué)習(xí)人類行為》展示了一種生成對(duì)抗模仿學(xué)習(xí),使通用神經(jīng)網(wǎng)絡(luò)策略的訓(xùn)練能夠從有限的演示中產(chǎn)生類似人類的運(yùn)動(dòng)模式。

該策略網(wǎng)絡(luò)模仿人類的動(dòng)作數(shù)據(jù)來預(yù)學(xué)習(xí)走路、從地上爬起來、轉(zhuǎn)身和跑步等技能。在產(chǎn)生了看起來像人類的行為之后,可以調(diào)整并重新利用這些行為來解決其他任務(wù),比如爬樓梯和在有圍墻的走廊中前進(jìn)。

深度生成模型在模仿運(yùn)動(dòng)控制中顯示出巨大的前景。第三篇文章《多種行為的穩(wěn)健模仿》提出了一種基于最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)架構(gòu),這種架構(gòu)能夠?qū)W習(xí)不同行為之間的關(guān)系并模仿特定動(dòng)作。

訓(xùn)練后,系統(tǒng)可以對(duì)單個(gè)觀察到的動(dòng)作進(jìn)行編碼,并根據(jù)演示創(chuàng)建一個(gè)新的新穎動(dòng)作。盡管從未見過它們之間的轉(zhuǎn)換,但它也可以在不同類型的行為之間切換,例如在行走方式之間切換。   

擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)

2019年9月,DeepMind在文章《利用reward sketching和批量強(qiáng)化學(xué)習(xí)擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)》中展示了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人架構(gòu),該架構(gòu)使用了記錄機(jī)器人經(jīng)驗(yàn)的大型數(shù)據(jù)集,使用學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)將其擴(kuò)展到多個(gè)任務(wù)。該架構(gòu)可用于在真實(shí)機(jī)器人平臺(tái)上完成三種不同的對(duì)象操作任務(wù)。

研究人員使用一種特殊形式的人工注釋作為監(jiān)督來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),這樣就可以處理無法直接獲取獎(jiǎng)勵(lì)信號(hào)的現(xiàn)實(shí)任務(wù)。使用該方法有可能訓(xùn)練機(jī)器人執(zhí)行各種具有挑戰(zhàn)性的操縱任務(wù),例如堆疊剛性物體。

更通用的機(jī)器人

在教機(jī)器人如何執(zhí)行任務(wù)之前,它們首先需要學(xué)習(xí)如何與范圍更廣的物體進(jìn)行交互。這是DeepMind使命的一部分,也是朝著制造更通用和更有用的機(jī)器人邁出的一步。

在一篇作為OpenReview預(yù)印本提供的論文《超越取放:處理不同形狀的機(jī)器人堆疊》中,DeepMind介紹了RGB-Stacking作為基于視覺的機(jī)器人操作的新基準(zhǔn)。在這個(gè)基準(zhǔn)測(cè)試中,機(jī)器人必須學(xué)習(xí)如何抓住不同的物體并將它們相互平衡。

結(jié)果表明,模擬和現(xiàn)實(shí)世界數(shù)據(jù)的組合可用于學(xué)習(xí)復(fù)雜的多對(duì)象操作,并為泛化到新對(duì)象的開放問題提供強(qiáng)有力的基準(zhǔn)。

該研究被認(rèn)為是DeepMind致力于制造通用且有用的機(jī)器人的一項(xiàng)重大進(jìn)展。RGB-Stacking基準(zhǔn)測(cè)試已與用于構(gòu)建真實(shí)機(jī)器人RGB堆疊環(huán)境、RGB對(duì)象模型和3D打印信息的設(shè)計(jì)一起開源。

機(jī)器人-AI范式的挑戰(zhàn)

機(jī)器人技術(shù)是革命性的,與具體行業(yè)結(jié)合,有實(shí)現(xiàn)行業(yè)自治的潛力。

世界各地的許多開發(fā)人員和研究人員嘗試將AI嵌入機(jī)器人技術(shù)中,以將機(jī)器人行業(yè)推向一個(gè)新的水平。而隨著系統(tǒng)的決策和預(yù)測(cè)能力、機(jī)器人技術(shù)和AI的融合,前所未見的革命性發(fā)展是可能的。

不過,機(jī)器人-AI范式仍然面臨艱巨的挑戰(zhàn)和長期的問題。

災(zāi)難性遺忘

當(dāng)人工智能學(xué)習(xí)一項(xiàng)新任務(wù)時(shí),它傾向于忘記所有舊任務(wù)。災(zāi)難性遺忘 (Catastrophic forgetting,指AI在學(xué)習(xí)新任務(wù)或適應(yīng)新環(huán)境時(shí),忘記或喪失了以前學(xué)習(xí)的一些能力) 不僅是機(jī)器人技術(shù)的問題,也是整個(gè)人工智能技術(shù)的問題。事實(shí)上,有效的“忘記”本身就是一種訓(xùn)練。

例如一個(gè)用于貓或狗圖像分類的神經(jīng)網(wǎng)絡(luò),訓(xùn)練它來區(qū)分公共汽車和汽車時(shí),它之前的所有訓(xùn)練都將毫無用處。它響應(yīng)車輛圖像的輸出首先是隨機(jī)的。但隨著它的訓(xùn)練,它會(huì)重新調(diào)整其連接并逐漸變得有效。它最終將能夠非常準(zhǔn)確地對(duì)公共汽車和汽車進(jìn)行分類。但是,此時(shí),如果你給它看一張狗的照片,所有的節(jié)點(diǎn)都會(huì)被重新加權(quán),它會(huì)“忘記”它之前學(xué)到的一切。

有人提出了一種被稱為“彈性權(quán)重合并 (elastic weight consolidation.)”的方法來應(yīng)對(duì)災(zāi)難性遺忘。在學(xué)習(xí)了一項(xiàng)任務(wù)后,神經(jīng)網(wǎng)絡(luò)將評(píng)估神經(jīng)元節(jié)點(diǎn)之間的哪些突觸狀連接對(duì)該任務(wù)最重要,并將部分凍結(jié)它們的權(quán)重。這種處理有一個(gè)明顯的副作用:每次神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一項(xiàng)任務(wù)時(shí),更多的神經(jīng)元將變得缺乏彈性。

自2018年以來,DeepMind團(tuán)隊(duì)在研究一種名為“進(jìn)度和壓縮 (progress and compress)”的技術(shù)。此外,漸進(jìn)式神經(jīng)網(wǎng)絡(luò) (Progressive neural networks) 是避免災(zāi)難性遺忘的直接方法。

通用智能AI機(jī)器人的挑戰(zhàn)

另一個(gè)根本問題仍然存在。如果想要構(gòu)建一個(gè)可以執(zhí)行多項(xiàng)任務(wù)和工作的機(jī)器人,將不得不在各種場景、條件和環(huán)境中、分別在每項(xiàng)任務(wù)中訓(xùn)練機(jī)器人內(nèi)部的AI。然而,一個(gè)可以執(zhí)行多項(xiàng)任務(wù)并不斷學(xué)習(xí)新事物的通用智能AI機(jī)器人極具挑戰(zhàn)。與DeepMind一樣,F(xiàn)S Studio也也在改進(jìn)技術(shù),采用如機(jī)器人模擬、離線編程和數(shù)字孿生的技術(shù),來重塑以人工智能為中心的機(jī)器人研發(fā)范式。

對(duì)輸入的處理

在將安全的人工智能帶入行業(yè)或日常生活的過程中,還有許多其他障礙需要克服。

倫敦帝國理工學(xué)院機(jī)器人研究工作的Thishantha Nanayakkara認(rèn)為,使動(dòng)物能夠與世界打交道的大部分“處理”并不是發(fā)生在大腦中,而是發(fā)生在身體的其他部位。例如,人耳道的形狀可以分離聲波。但目前大多數(shù)機(jī)器人都依賴CPU來處理所有輸入,他認(rèn)為在取得實(shí)質(zhì)性進(jìn)展之前必須克服這一限制。

機(jī)器人的元認(rèn)知問題

Nanayakkara的同事Petar Kormushev認(rèn)為,另一個(gè)問題是本體感知或者說元認(rèn)知問題,即機(jī)器人對(duì)自己身體的感覺。當(dāng)人類拿起一把錘子時(shí),我們會(huì)調(diào)整我們的身體形狀和重量的心理模型,這讓我們把錘子作為我們身體的一個(gè)延伸。然而機(jī)器人對(duì)自己的大小和形狀的認(rèn)知模型是由人類直接編程的。

也就是說,人類的大腦里有一些東西可以檢查我們對(duì)世界的反應(yīng)。但是當(dāng)機(jī)器人拿起一個(gè)重物時(shí),它沒有辦法更新其自我形象。在實(shí)際中,機(jī)器人總是要么過度自信,要么不夠自信。

此外,模擬本身可能也存在問題。在流行的“健身房”環(huán)境中表現(xiàn)良好的學(xué)習(xí)算法可能不適用于真實(shí)的機(jī)器人,模擬有可能比實(shí)際運(yùn)行快幾個(gè)數(shù)量級(jí)。

這些開放性的問題都是機(jī)器人技術(shù)未來工作的方向。 

參考資料

https:///how-deepmind-is-reinventing-robotics/

https://baijiahao.baidu.com/s?id=1714019200524475200&wfr=spider&for=pc

https://www./technology/robot-simulator

https:///abs/1610.00633

https:///abs/1707.02201

https:///abs/1707.02747

https:///abs/1707.02286

https:///forum?id=U0Q8CrtBJxJ

https://www./blog/producing-flexible-behaviours-in-simulated-environments

https://www./publications/scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning

https://spectrum./how-deepmind-is-reinventing-the-robot

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    视频一区二区黄色线观看| 午夜福利在线观看免费| 亚洲伦片免费偷拍一区| 国产熟女高清一区二区| 丰满人妻少妇精品一区二区三区 | 日韩成人午夜福利免费视频| 亚洲中文字幕视频一区二区| 亚洲在线观看福利视频| 国产又爽又猛又粗又色对黄| 深夜日本福利在线观看| 亚洲欧美日韩另类第一页| 欧美日韩国产亚洲三级理论片| 视频一区二区三区自拍偷| 国产日产欧美精品视频| 激情综合网俺也狠狠地| 能在线看的视频你懂的| 国产麻豆一线二线三线| 亚洲国产av在线视频| 欧美亚洲综合另类色妞| 一二区不卡不卡在线观看| 国产亚州欧美一区二区| 神马午夜福利免费视频| 青青操视频在线播放免费| 观看日韩精品在线视频| 一区二区日本一区二区欧美| 精品精品国产自在久久高清| 国产精品内射婷婷一级二级| 国产性色精品福利在线观看| 人妻熟女欲求不满一区二区| 亚洲熟女一区二区三四区| 黑丝袜美女老师的小逼逼| 日韩欧美亚洲综合在线| 亚洲国产另类久久精品| 亚洲国产成人av毛片国产| 99久免费精品视频在线观| 91人妻丝袜一区二区三区| 男生和女生哪个更好色| 亚洲国产婷婷六月丁香| 国产精品一区二区三区日韩av | 亚洲日本加勒比在线播放| 国产乱淫av一区二区三区|