谷歌AI博客本周發(fā)表了一篇文章,其研究人員開(kāi)發(fā)出一種人工智能系統(tǒng),可以從動(dòng)物的動(dòng)作中學(xué)習(xí),從而賦予機(jī)器人更大的靈活性。研究人員認(rèn)為他們的方法可以促進(jìn)機(jī)器人的發(fā)展,這些機(jī)器人可以完成現(xiàn)實(shí)世界中的任務(wù),比如在多層倉(cāng)庫(kù)和配送中心之間運(yùn)輸物品。 該團(tuán)隊(duì)的框架采用動(dòng)物(本案例中是一條狗)的動(dòng)作捕捉片段,并使用強(qiáng)化學(xué)習(xí)(reinforcement learning)來(lái)訓(xùn)練控制策略。為系統(tǒng)提供不同的參考動(dòng)作,使得研究人員能夠“教”一個(gè)四足的Unitree Laikago機(jī)器人完成一系列動(dòng)作,比如從快走(以每小時(shí)2.6英里的速度)到跳躍或轉(zhuǎn)彎。 為了驗(yàn)證他們的方法,研究人員首先收集了一組真實(shí)狗狗的各種技能數(shù)據(jù)。(訓(xùn)練主要是在物理模擬中進(jìn)行的,因此可以密切跟蹤參考運(yùn)動(dòng)的姿態(tài))。然后,通過(guò)在獎(jiǎng)勵(lì)函數(shù)中使用不同的動(dòng)作(該函數(shù)描述了行為者應(yīng)該如何表現(xiàn)),研究人員使用了大約2億個(gè)樣本來(lái)訓(xùn)練一個(gè)模擬機(jī)器人模仿動(dòng)作技能。 但是模擬器通常只能提供對(duì)真實(shí)世界的粗略近似。為了解決這個(gè)問(wèn)題,研究人員采用了一種適應(yīng)性技術(shù),通過(guò)改變機(jī)器人的質(zhì)量和摩擦等物理量來(lái)隨機(jī)化模擬中的動(dòng)力學(xué)。這些值是用編碼器映射到一個(gè)數(shù)字表示(即編碼)作為輸入傳遞給機(jī)器人控制策略。當(dāng)將該策略部署到一個(gè)真實(shí)的機(jī)器人上時(shí),研究人員刪除了編碼器,并搜索出一組允許機(jī)器人成功執(zhí)行技能的變量。 該團(tuán)隊(duì)表示,他們能夠在大約50次試驗(yàn)中,利用不到8分鐘的真實(shí)數(shù)據(jù),使一項(xiàng)策略適應(yīng)現(xiàn)實(shí)世界。此外,他們還演示了現(xiàn)實(shí)世界中的機(jī)器人學(xué)會(huì)了模仿狗的各種動(dòng)作,包括踱步和小跑,以及動(dòng)畫(huà)中的關(guān)鍵幀動(dòng)作,如動(dòng)態(tài)跳躍轉(zhuǎn)彎。 論文作者寫(xiě)道:“我們證明,通過(guò)利用參考運(yùn)動(dòng)數(shù)據(jù),一種單一的基于學(xué)習(xí)的方法能夠?yàn)橥仁綑C(jī)器人的各種行為自動(dòng)合成控制器?!薄巴ㄟ^(guò)將高效樣本的領(lǐng)域適應(yīng)技術(shù)整合到訓(xùn)練過(guò)程中,我們的系統(tǒng)能夠在模擬中學(xué)習(xí)適應(yīng)策略,然后能夠快速適應(yīng)現(xiàn)實(shí)世界的部署。” 控制策略并不完美——由于算法和硬件的限制,它不能學(xué)習(xí)高度動(dòng)態(tài)的行為,如大的跳躍和行為,也不像最好的手動(dòng)設(shè)計(jì)的控制器那樣穩(wěn)定。研究人員將繼續(xù)改進(jìn)控制器的魯棒性,并開(kāi)發(fā)能夠從其他運(yùn)動(dòng)數(shù)據(jù)來(lái)源(如視頻剪輯)學(xué)習(xí)的框架。 參考: Learning Agile Robotic Locomotion Skills byImitating Animals . Google Research, University of California, Berkeley |
|