DeepMind以其在深度強(qiáng)化學(xué)習(xí)方面的工作而聞名,尤其是在掌握復(fù)雜游戲和預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面。 如今,DeepMind向機(jī)器人技術(shù)邁出了一步。 2021年10月18日,DeepMind收購了物理模擬器MuJoCo,并宣布它將免費(fèi)提供,以支持全球各地的研究。 2022年5月23日,DeepMind宣布MuJoCo的開源已經(jīng)完成,可以在GitHub上訪問其全部源代碼。 DeepMind在機(jī)器人領(lǐng)域的進(jìn)展 近年來,DeepMind在機(jī)器人領(lǐng)域已有諸多探索和研究進(jìn)展,具體介紹如下。 MuJoCo模擬器:機(jī)器人研究的關(guān)鍵工具 模擬器創(chuàng)造了有效復(fù)制“現(xiàn)實(shí)世界”物理特性的虛擬世界,是現(xiàn)代機(jī)器人研究中的關(guān)鍵工具,讓研究人員以一種安全和廉價(jià)的方式開發(fā)和測(cè)試算法。研究人員可以創(chuàng)建一個(gè)數(shù)字機(jī)器人,將其放置在模擬器中,讓它學(xué)習(xí)如何無風(fēng)險(xiǎn)地在世界中行走。這種訓(xùn)練方法也比讓機(jī)器人直接在現(xiàn)實(shí)世界中學(xué)習(xí)要快得多,因?yàn)樵谀M器中能夠快速進(jìn)入更廣泛的環(huán)境,并運(yùn)行數(shù)千次。 物理模擬器通常分為兩類。第一類是閉源的商業(yè)軟件。對(duì)用戶來說是不透明的,雖然有時(shí)可以免費(fèi)使用,但無法修改且難以理解。第二類是開源軟件,通常在學(xué)術(shù)界創(chuàng)建,但通常用戶群較小,其開發(fā)人員和維護(hù)人員的工作可能會(huì)受到影響。 MuJoCo是多關(guān)節(jié)接觸動(dòng)力學(xué) (Multi-Joint Dynamics with Contact) 的縮寫,由華盛頓大學(xué)教授Emo Todorov為Roboti LLC開發(fā),并于2015年至2021年作為商業(yè)產(chǎn)品提供。MuJoCo結(jié)合了廣義坐標(biāo)模擬和優(yōu)化后的接觸動(dòng)力學(xué),這使它能夠模擬完整的物理運(yùn)動(dòng)。由于其接觸模型豐富而高效,MuJoCo成為了機(jī)器人研究人員的首選。 DeepMind稱,盡管模擬器對(duì)AI機(jī)器人的開發(fā)很重要,但工程師可用的大多數(shù)機(jī)器人模擬器都存在重大缺陷。而MuJoCo是少數(shù)幾個(gè)全功能模擬器之一,它是真正開源的,將幫助工程師訓(xùn)練可以控制先進(jìn)機(jī)器人的人工智能。 深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人 2016年10月,DeepMind的研究人員發(fā)表文章《具有異步離策略更新的機(jī)器人操作的深度強(qiáng)化學(xué)習(xí)》,展示了深度強(qiáng)化學(xué)習(xí)如何訓(xùn)練真正的物理機(jī)器人。該論文表明,基于深度Q函數(shù)的強(qiáng)化學(xué)習(xí)算法可以擴(kuò)展到復(fù)雜的3D操作任務(wù),并有效地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)策略,以在真實(shí)的物理機(jī)器人上進(jìn)行訓(xùn)練。研究進(jìn)一步表明,通過多個(gè)機(jī)器人的算法并行化可以進(jìn)一步減少訓(xùn)練機(jī)器人的時(shí)間。 在模擬環(huán)境中產(chǎn)生靈活的行為 真正的運(yùn)動(dòng)智能需要學(xué)習(xí)如何控制和協(xié)調(diào)靈活的身體來解決一系列復(fù)雜環(huán)境中的任務(wù)。2017年7月,DeepMind發(fā)表了3篇文章,探索產(chǎn)生靈活自然的行為的方法,這些行為可以被重新利用來解決任務(wù)。 強(qiáng)化學(xué)習(xí)用于描述和解決智能體 (agent) 在與環(huán)境的交互過程中,通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。第一篇文章《豐富環(huán)境中運(yùn)動(dòng)行為的出現(xiàn)》探討了一種使用策略梯度強(qiáng)化學(xué)習(xí)的新的可擴(kuò)展方法,讓智能體可以根據(jù)環(huán)境的需要學(xué)習(xí)奔跑、跳躍、蹲伏和轉(zhuǎn)彎,而無需明確的基于獎(jiǎng)勵(lì)的指導(dǎo)。 不過,使用帶有簡單獎(jiǎng)勵(lì)函數(shù)的純強(qiáng)化學(xué)習(xí)的方法,往往會(huì)產(chǎn)生非人類且過于刻板的運(yùn)動(dòng)行為。第二篇文章《通過對(duì)抗性模仿從動(dòng)作捕捉中學(xué)習(xí)人類行為》展示了一種生成對(duì)抗模仿學(xué)習(xí),使通用神經(jīng)網(wǎng)絡(luò)策略的訓(xùn)練能夠從有限的演示中產(chǎn)生類似人類的運(yùn)動(dòng)模式。 該策略網(wǎng)絡(luò)模仿人類的動(dòng)作數(shù)據(jù)來預(yù)學(xué)習(xí)走路、從地上爬起來、轉(zhuǎn)身和跑步等技能。在產(chǎn)生了看起來像人類的行為之后,可以調(diào)整并重新利用這些行為來解決其他任務(wù),比如爬樓梯和在有圍墻的走廊中前進(jìn)。 深度生成模型在模仿運(yùn)動(dòng)控制中顯示出巨大的前景。第三篇文章《多種行為的穩(wěn)健模仿》提出了一種基于最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)架構(gòu),這種架構(gòu)能夠?qū)W習(xí)不同行為之間的關(guān)系并模仿特定動(dòng)作。 訓(xùn)練后,系統(tǒng)可以對(duì)單個(gè)觀察到的動(dòng)作進(jìn)行編碼,并根據(jù)演示創(chuàng)建一個(gè)新的新穎動(dòng)作。盡管從未見過它們之間的轉(zhuǎn)換,但它也可以在不同類型的行為之間切換,例如在行走方式之間切換。 擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù) 2019年9月,DeepMind在文章《利用reward sketching和批量強(qiáng)化學(xué)習(xí)擴(kuò)展數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人技術(shù)》中展示了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人架構(gòu),該架構(gòu)使用了記錄機(jī)器人經(jīng)驗(yàn)的大型數(shù)據(jù)集,使用學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)將其擴(kuò)展到多個(gè)任務(wù)。該架構(gòu)可用于在真實(shí)機(jī)器人平臺(tái)上完成三種不同的對(duì)象操作任務(wù)。 研究人員使用一種特殊形式的人工注釋作為監(jiān)督來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),這樣就可以處理無法直接獲取獎(jiǎng)勵(lì)信號(hào)的現(xiàn)實(shí)任務(wù)。使用該方法有可能訓(xùn)練機(jī)器人執(zhí)行各種具有挑戰(zhàn)性的操縱任務(wù),例如堆疊剛性物體。 更通用的機(jī)器人 在教機(jī)器人如何執(zhí)行任務(wù)之前,它們首先需要學(xué)習(xí)如何與范圍更廣的物體進(jìn)行交互。這是DeepMind使命的一部分,也是朝著制造更通用和更有用的機(jī)器人邁出的一步。 在一篇作為OpenReview預(yù)印本提供的論文《超越取放:處理不同形狀的機(jī)器人堆疊》中,DeepMind介紹了RGB-Stacking作為基于視覺的機(jī)器人操作的新基準(zhǔn)。在這個(gè)基準(zhǔn)測(cè)試中,機(jī)器人必須學(xué)習(xí)如何抓住不同的物體并將它們相互平衡。 結(jié)果表明,模擬和現(xiàn)實(shí)世界數(shù)據(jù)的組合可用于學(xué)習(xí)復(fù)雜的多對(duì)象操作,并為泛化到新對(duì)象的開放問題提供強(qiáng)有力的基準(zhǔn)。 該研究被認(rèn)為是DeepMind致力于制造通用且有用的機(jī)器人的一項(xiàng)重大進(jìn)展。RGB-Stacking基準(zhǔn)測(cè)試已與用于構(gòu)建真實(shí)機(jī)器人RGB堆疊環(huán)境、RGB對(duì)象模型和3D打印信息的設(shè)計(jì)一起開源。 機(jī)器人-AI范式的挑戰(zhàn) 機(jī)器人技術(shù)是革命性的,與具體行業(yè)結(jié)合,有實(shí)現(xiàn)行業(yè)自治的潛力。 世界各地的許多開發(fā)人員和研究人員嘗試將AI嵌入機(jī)器人技術(shù)中,以將機(jī)器人行業(yè)推向一個(gè)新的水平。而隨著系統(tǒng)的決策和預(yù)測(cè)能力、機(jī)器人技術(shù)和AI的融合,前所未見的革命性發(fā)展是可能的。 不過,機(jī)器人-AI范式仍然面臨艱巨的挑戰(zhàn)和長期的問題。 災(zāi)難性遺忘 當(dāng)人工智能學(xué)習(xí)一項(xiàng)新任務(wù)時(shí),它傾向于忘記所有舊任務(wù)。災(zāi)難性遺忘 (Catastrophic forgetting,指AI在學(xué)習(xí)新任務(wù)或適應(yīng)新環(huán)境時(shí),忘記或喪失了以前學(xué)習(xí)的一些能力) 不僅是機(jī)器人技術(shù)的問題,也是整個(gè)人工智能技術(shù)的問題。事實(shí)上,有效的“忘記”本身就是一種訓(xùn)練。 例如一個(gè)用于貓或狗圖像分類的神經(jīng)網(wǎng)絡(luò),訓(xùn)練它來區(qū)分公共汽車和汽車時(shí),它之前的所有訓(xùn)練都將毫無用處。它響應(yīng)車輛圖像的輸出首先是隨機(jī)的。但隨著它的訓(xùn)練,它會(huì)重新調(diào)整其連接并逐漸變得有效。它最終將能夠非常準(zhǔn)確地對(duì)公共汽車和汽車進(jìn)行分類。但是,此時(shí),如果你給它看一張狗的照片,所有的節(jié)點(diǎn)都會(huì)被重新加權(quán),它會(huì)“忘記”它之前學(xué)到的一切。 有人提出了一種被稱為“彈性權(quán)重合并 (elastic weight consolidation.)”的方法來應(yīng)對(duì)災(zāi)難性遺忘。在學(xué)習(xí)了一項(xiàng)任務(wù)后,神經(jīng)網(wǎng)絡(luò)將評(píng)估神經(jīng)元節(jié)點(diǎn)之間的哪些突觸狀連接對(duì)該任務(wù)最重要,并將部分凍結(jié)它們的權(quán)重。這種處理有一個(gè)明顯的副作用:每次神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一項(xiàng)任務(wù)時(shí),更多的神經(jīng)元將變得缺乏彈性。 自2018年以來,DeepMind團(tuán)隊(duì)在研究一種名為“進(jìn)度和壓縮 (progress and compress)”的技術(shù)。此外,漸進(jìn)式神經(jīng)網(wǎng)絡(luò) (Progressive neural networks) 是避免災(zāi)難性遺忘的直接方法。 通用智能AI機(jī)器人的挑戰(zhàn) 另一個(gè)根本問題仍然存在。如果想要構(gòu)建一個(gè)可以執(zhí)行多項(xiàng)任務(wù)和工作的機(jī)器人,將不得不在各種場景、條件和環(huán)境中、分別在每項(xiàng)任務(wù)中訓(xùn)練機(jī)器人內(nèi)部的AI。然而,一個(gè)可以執(zhí)行多項(xiàng)任務(wù)并不斷學(xué)習(xí)新事物的通用智能AI機(jī)器人極具挑戰(zhàn)。與DeepMind一樣,F(xiàn)S Studio也也在改進(jìn)技術(shù),采用如機(jī)器人模擬、離線編程和數(shù)字孿生的技術(shù),來重塑以人工智能為中心的機(jī)器人研發(fā)范式。 對(duì)輸入的處理 在將安全的人工智能帶入行業(yè)或日常生活的過程中,還有許多其他障礙需要克服。 倫敦帝國理工學(xué)院機(jī)器人研究工作的Thishantha Nanayakkara認(rèn)為,使動(dòng)物能夠與世界打交道的大部分“處理”并不是發(fā)生在大腦中,而是發(fā)生在身體的其他部位。例如,人耳道的形狀可以分離聲波。但目前大多數(shù)機(jī)器人都依賴CPU來處理所有輸入,他認(rèn)為在取得實(shí)質(zhì)性進(jìn)展之前必須克服這一限制。 機(jī)器人的元認(rèn)知問題 Nanayakkara的同事Petar Kormushev認(rèn)為,另一個(gè)問題是本體感知或者說元認(rèn)知問題,即機(jī)器人對(duì)自己身體的感覺。當(dāng)人類拿起一把錘子時(shí),我們會(huì)調(diào)整我們的身體形狀和重量的心理模型,這讓我們把錘子作為我們身體的一個(gè)延伸。然而機(jī)器人對(duì)自己的大小和形狀的認(rèn)知模型是由人類直接編程的。 也就是說,人類的大腦里有一些東西可以檢查我們對(duì)世界的反應(yīng)。但是當(dāng)機(jī)器人拿起一個(gè)重物時(shí),它沒有辦法更新其自我形象。在實(shí)際中,機(jī)器人總是要么過度自信,要么不夠自信。 此外,模擬本身可能也存在問題。在流行的“健身房”環(huán)境中表現(xiàn)良好的學(xué)習(xí)算法可能不適用于真實(shí)的機(jī)器人,模擬有可能比實(shí)際運(yùn)行快幾個(gè)數(shù)量級(jí)。 這些開放性的問題都是機(jī)器人技術(shù)未來工作的方向。 |
|