【原】DeepMind的機(jī)器人技術(shù)

智藥邦 2022-05-27 發(fā)布于上海

展開全文

DeepMind以其在深度強(qiáng)化學(xué)習(xí)方面的工作而聞名，尤其是在掌握復(fù)雜游戲和預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面。

如今，DeepMind向機(jī)器人技術(shù)邁出了一步。

2021年10月18日，DeepMind收購了物理模擬器MuJoCo，并宣布它將免費(fèi)提供，以支持全球各地的研究。

2022年5月23日，DeepMind宣布MuJoCo的開源已經(jīng)完成，可以在GitHub上訪問其全部源代碼。

DeepMind在機(jī)器人領(lǐng)域的進(jìn)展

近年來，DeepMind在機(jī)器人領(lǐng)域已有諸多探索和研究進(jìn)展，具體介紹如下。

MuJoCo模擬器：機(jī)器人研究的關(guān)鍵工具

模擬器創(chuàng)造了有效復(fù)制“現(xiàn)實(shí)世界”物理特性的虛擬世界，是現(xiàn)代機(jī)器人研究中的關(guān)鍵工具，讓研究人員以一種安全和廉價(jià)的方式開發(fā)和測(cè)試算法。研究人員可以創(chuàng)建一個(gè)數(shù)字機(jī)器人，將其放置在模擬器中，讓它學(xué)習(xí)如何無風(fēng)險(xiǎn)地在世界中行走。這種訓(xùn)練方法也比讓機(jī)器人直接在現(xiàn)實(shí)世界中學(xué)習(xí)要快得多，因?yàn)樵谀M器中能夠快速進(jìn)入更廣泛的環(huán)境，并運(yùn)行數(shù)千次。

物理模擬器通常分為兩類。第一類是閉源的商業(yè)軟件。對(duì)用戶來說是不透明的，雖然有時(shí)可以免費(fèi)使用，但無法修改且難以理解。第二類是開源軟件，通常在學(xué)術(shù)界創(chuàng)建，但通常用戶群較小，其開發(fā)人員和維護(hù)人員的工作可能會(huì)受到影響。

MuJoCo是多關(guān)節(jié)接觸動(dòng)力學(xué) (Multi-Joint Dynamics with Contact) 的縮寫，由華盛頓大學(xué)教授Emo Todorov為Roboti LLC開發(fā)，并于2015年至2021年作為商業(yè)產(chǎn)品提供。MuJoCo結(jié)合了廣義坐標(biāo)模擬和優(yōu)化后的接觸動(dòng)力學(xué)，這使它能夠模擬完整的物理運(yùn)動(dòng)。由于其接觸模型豐富而高效，MuJoCo成為了機(jī)器人研究人員的首選。

DeepMind稱，盡管模擬器對(duì)AI機(jī)器人的開發(fā)很重要，但工程師可用的大多數(shù)機(jī)器人模擬器都存在重大缺陷。而MuJoCo是少數(shù)幾個(gè)全功能模擬器之一，它是真正開源的，將幫助工程師訓(xùn)練可以控制先進(jìn)機(jī)器人的人工智能。

深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人

2016年10月，DeepMind的研究人員發(fā)表文章《具有異步離策略更新的機(jī)器人操作的深度強(qiáng)化學(xué)習(xí)》，展示了深度強(qiáng)化學(xué)習(xí)如何訓(xùn)練真正的物理機(jī)器人。該論文表明，基于深度Q函數(shù)的強(qiáng)化學(xué)習(xí)算法可以擴(kuò)展到復(fù)雜的3D操作任務(wù)，并有效地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)策略，以在真實(shí)的物理機(jī)器人上進(jìn)行訓(xùn)練。研究進(jìn)一步表明，通過多個(gè)機(jī)器人的算法并行化可以進(jìn)一步減少訓(xùn)練機(jī)器人的時(shí)間。

在模擬環(huán)境中產(chǎn)生靈活的行為

真正的運(yùn)動(dòng)智能需要學(xué)習(xí)如何控制和協(xié)調(diào)靈活的身體來解決一系列復(fù)雜環(huán)境中的任務(wù)。2017年7月，DeepMind發(fā)表了3篇文章，探索產(chǎn)生靈活自然的行為的方法，這些行為可以被重新利用來解決任務(wù)。

強(qiáng)化學(xué)習(xí)用于描述和解決智能體 (agent) 在與環(huán)境的交互過程中，通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。第一篇文章《豐富環(huán)境中運(yùn)動(dòng)行為的出現(xiàn)》探討了一種使用策略梯度強(qiáng)化學(xué)習(xí)的新的可擴(kuò)展方法，讓智能體可以根據(jù)環(huán)境的需要學(xué)習(xí)奔跑、跳躍、蹲伏和轉(zhuǎn)彎，而無需明確的基于獎(jiǎng)勵(lì)的指導(dǎo)。

不過，使用帶有簡單獎(jiǎng)勵(lì)函數(shù)的純強(qiáng)化學(xué)習(xí)的方法，往往會(huì)產(chǎn)生非人類且過于刻板的運(yùn)動(dòng)行為。第二篇文章《通過對(duì)抗性模仿從動(dòng)作捕捉中學(xué)習(xí)人類行為》展示了一種生成對(duì)抗模仿學(xué)習(xí)，使通用神經(jīng)網(wǎng)絡(luò)策略的訓(xùn)練能夠從有限的演示中產(chǎn)生類似人類的運(yùn)動(dòng)模式。

該策略網(wǎng)絡(luò)模仿人類的動(dòng)作數(shù)據(jù)來預(yù)學(xué)習(xí)走路、從地上爬起來、轉(zhuǎn)身和跑步等技能。在產(chǎn)生了看起來像人類的行為之后，可以調(diào)整并重新利用這些行為來解決其他任務(wù)，比如爬樓梯和在有圍墻的走廊中前進(jìn)。

深度生成模型在模仿運(yùn)動(dòng)控制中顯示出巨大的前景。第三篇文章《多種行為的穩(wěn)健模仿》提出了一種基于最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)，這種架構(gòu)能夠?qū)W習(xí)不同行為之間的關(guān)系并模仿特定動(dòng)作。

訓(xùn)練后，系統(tǒng)可以對(duì)單個(gè)觀察到的動(dòng)作進(jìn)行編碼，并根據(jù)演示創(chuàng)建一個(gè)新的新穎動(dòng)作。盡管從未見過它們之間的轉(zhuǎn)換，但它也可以在不同類型的行為之間切換，例如在行走方式之間切換。

擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)

2019年9月，DeepMind在文章《利用reward sketching和批量強(qiáng)化學(xué)習(xí)擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)》中展示了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人架構(gòu)，該架構(gòu)使用了記錄機(jī)器人經(jīng)驗(yàn)的大型數(shù)據(jù)集，使用學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)將其擴(kuò)展到多個(gè)任務(wù)。該架構(gòu)可用于在真實(shí)機(jī)器人平臺(tái)上完成三種不同的對(duì)象操作任務(wù)。

研究人員使用一種特殊形式的人工注釋作為監(jiān)督來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)，這樣就可以處理無法直接獲取獎(jiǎng)勵(lì)信號(hào)的現(xiàn)實(shí)任務(wù)。使用該方法有可能訓(xùn)練機(jī)器人執(zhí)行各種具有挑戰(zhàn)性的操縱任務(wù)，例如堆疊剛性物體。

更通用的機(jī)器人

在教機(jī)器人如何執(zhí)行任務(wù)之前，它們首先需要學(xué)習(xí)如何與范圍更廣的物體進(jìn)行交互。這是DeepMind使命的一部分，也是朝著制造更通用和更有用的機(jī)器人邁出的一步。

在一篇作為OpenReview預(yù)印本提供的論文《超越取放：處理不同形狀的機(jī)器人堆疊》中，DeepMind介紹了RGB-Stacking作為基于視覺的機(jī)器人操作的新基準(zhǔn)。在這個(gè)基準(zhǔn)測(cè)試中，機(jī)器人必須學(xué)習(xí)如何抓住不同的物體并將它們相互平衡。

結(jié)果表明，模擬和現(xiàn)實(shí)世界數(shù)據(jù)的組合可用于學(xué)習(xí)復(fù)雜的多對(duì)象操作，并為泛化到新對(duì)象的開放問題提供強(qiáng)有力的基準(zhǔn)。

該研究被認(rèn)為是DeepMind致力于制造通用且有用的機(jī)器人的一項(xiàng)重大進(jìn)展。RGB-Stacking基準(zhǔn)測(cè)試已與用于構(gòu)建真實(shí)機(jī)器人RGB堆疊環(huán)境、RGB對(duì)象模型和3D打印信息的設(shè)計(jì)一起開源。

機(jī)器人-AI范式的挑戰(zhàn)

機(jī)器人技術(shù)是革命性的，與具體行業(yè)結(jié)合，有實(shí)現(xiàn)行業(yè)自治的潛力。

世界各地的許多開發(fā)人員和研究人員嘗試將AI嵌入機(jī)器人技術(shù)中，以將機(jī)器人行業(yè)推向一個(gè)新的水平。而隨著系統(tǒng)的決策和預(yù)測(cè)能力、機(jī)器人技術(shù)和AI的融合，前所未見的革命性發(fā)展是可能的。

不過，機(jī)器人-AI范式仍然面臨艱巨的挑戰(zhàn)和長期的問題。

災(zāi)難性遺忘

當(dāng)人工智能學(xué)習(xí)一項(xiàng)新任務(wù)時(shí)，它傾向于忘記所有舊任務(wù)。災(zāi)難性遺忘 (Catastrophic forgetting，指AI在學(xué)習(xí)新任務(wù)或適應(yīng)新環(huán)境時(shí)，忘記或喪失了以前學(xué)習(xí)的一些能力) 不僅是機(jī)器人技術(shù)的問題，也是整個(gè)人工智能技術(shù)的問題。事實(shí)上，有效的“忘記”本身就是一種訓(xùn)練。

例如一個(gè)用于貓或狗圖像分類的神經(jīng)網(wǎng)絡(luò)，訓(xùn)練它來區(qū)分公共汽車和汽車時(shí)，它之前的所有訓(xùn)練都將毫無用處。它響應(yīng)車輛圖像的輸出首先是隨機(jī)的。但隨著它的訓(xùn)練，它會(huì)重新調(diào)整其連接并逐漸變得有效。它最終將能夠非常準(zhǔn)確地對(duì)公共汽車和汽車進(jìn)行分類。但是，此時(shí)，如果你給它看一張狗的照片，所有的節(jié)點(diǎn)都會(huì)被重新加權(quán)，它會(huì)“忘記”它之前學(xué)到的一切。

有人提出了一種被稱為“彈性權(quán)重合并 (elastic weight consolidation.)”的方法來應(yīng)對(duì)災(zāi)難性遺忘。在學(xué)習(xí)了一項(xiàng)任務(wù)后，神經(jīng)網(wǎng)絡(luò)將評(píng)估神經(jīng)元節(jié)點(diǎn)之間的哪些突觸狀連接對(duì)該任務(wù)最重要，并將部分凍結(jié)它們的權(quán)重。這種處理有一個(gè)明顯的副作用：每次神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一項(xiàng)任務(wù)時(shí)，更多的神經(jīng)元將變得缺乏彈性。

自2018年以來，DeepMind團(tuán)隊(duì)在研究一種名為“進(jìn)度和壓縮 (progress and compress)”的技術(shù)。此外，漸進(jìn)式神經(jīng)網(wǎng)絡(luò) (Progressive neural networks) 是避免災(zāi)難性遺忘的直接方法。

通用智能AI機(jī)器人的挑戰(zhàn)

另一個(gè)根本問題仍然存在。如果想要構(gòu)建一個(gè)可以執(zhí)行多項(xiàng)任務(wù)和工作的機(jī)器人，將不得不在各種場景、條件和環(huán)境中、分別在每項(xiàng)任務(wù)中訓(xùn)練機(jī)器人內(nèi)部的AI。然而，一個(gè)可以執(zhí)行多項(xiàng)任務(wù)并不斷學(xué)習(xí)新事物的通用智能AI機(jī)器人極具挑戰(zhàn)。與DeepMind一樣，F(xiàn)S Studio也也在改進(jìn)技術(shù)，采用如機(jī)器人模擬、離線編程和數(shù)字孿生的技術(shù)，來重塑以人工智能為中心的機(jī)器人研發(fā)范式。

對(duì)輸入的處理

在將安全的人工智能帶入行業(yè)或日常生活的過程中，還有許多其他障礙需要克服。

倫敦帝國理工學(xué)院機(jī)器人研究工作的Thishantha Nanayakkara認(rèn)為，使動(dòng)物能夠與世界打交道的大部分“處理”并不是發(fā)生在大腦中，而是發(fā)生在身體的其他部位。例如，人耳道的形狀可以分離聲波。但目前大多數(shù)機(jī)器人都依賴CPU來處理所有輸入，他認(rèn)為在取得實(shí)質(zhì)性進(jìn)展之前必須克服這一限制。

機(jī)器人的元認(rèn)知問題

Nanayakkara的同事Petar Kormushev認(rèn)為，另一個(gè)問題是本體感知或者說元認(rèn)知問題，即機(jī)器人對(duì)自己身體的感覺。當(dāng)人類拿起一把錘子時(shí)，我們會(huì)調(diào)整我們的身體形狀和重量的心理模型，這讓我們把錘子作為我們身體的一個(gè)延伸。然而機(jī)器人對(duì)自己的大小和形狀的認(rèn)知模型是由人類直接編程的。

也就是說，人類的大腦里有一些東西可以檢查我們對(duì)世界的反應(yīng)。但是當(dāng)機(jī)器人拿起一個(gè)重物時(shí)，它沒有辦法更新其自我形象。在實(shí)際中，機(jī)器人總是要么過度自信，要么不夠自信。

此外，模擬本身可能也存在問題。在流行的“健身房”環(huán)境中表現(xiàn)良好的學(xué)習(xí)算法可能不適用于真實(shí)的機(jī)器人，模擬有可能比實(shí)際運(yùn)行快幾個(gè)數(shù)量級(jí)。

這些開放性的問題都是機(jī)器人技術(shù)未來工作的方向。

參考資料

https:///how-deepmind-is-reinventing-robotics/

https://baijiahao.baidu.com/s?id=1714019200524475200&wfr=spider&for=pc

https://www./technology/robot-simulator

https:///abs/1610.00633

https:///abs/1707.02201

https:///abs/1707.02747

https:///abs/1707.02286

https:///forum?id=U0Q8CrtBJxJ