整理丨吳華秀 編輯丨陳彩嫻 穩(wěn)定性是制約人形機(jī)器人落地的重要因素之一,如何利用強(qiáng)化學(xué)習(xí)(RL)與基于模型的控制(MBC)來進(jìn)一步提高機(jī)器人的穩(wěn)定性,已成當(dāng)下業(yè)界的重要研究方向。 2024 年 12 月 8 日,雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌聯(lián)合石麻筆記一起舉辦了一場主題為“RL+Control:將機(jī)器人可靠性逼近99.9x%”的線上圓桌沙龍。 圓桌主持人為石麻筆記主理人、英諾天使投資人王建明,并邀請(qǐng)了浙江大學(xué)副教授與云深處創(chuàng)始人朱秋國、北京大學(xué)長聘副教授盧宗青、卡內(nèi)基梅隆大學(xué)(CMU)石冠亞與加州大學(xué)伯克利分校博士后羅劍嵐一起進(jìn)行了一場深度的討論。 會(huì)上,四位嘉賓圍繞 RL、Control 和機(jī)器人可靠性之間的關(guān)系分別提出了自己的獨(dú)到見解,其中: 石冠亞認(rèn)為,可靠性包含多個(gè)維度:底層硬件的穩(wěn)定性、兜底恢復(fù)(Recover)能力,而且可靠性不能一概而論,需要結(jié)合場景對(duì)泛化性的需求程度。當(dāng)下,將強(qiáng)化學(xué)習(xí)與控制相結(jié)合,例如把控制的安全性融入強(qiáng)化學(xué)習(xí)中,或者借助控制良好的結(jié)構(gòu)使強(qiáng)化學(xué)習(xí)變得更具穩(wěn)健性,是提高機(jī)器人穩(wěn)定性的可行路徑。 朱秋國則表示,學(xué)界的可靠性和產(chǎn)業(yè)界的可靠性并不完全相同,很難將一種方法在實(shí)驗(yàn)中的可靠性(比如達(dá)到99%或者90%)直接套用到產(chǎn)業(yè)產(chǎn)品中。機(jī)器人作為產(chǎn)品形式出現(xiàn),必然要解決硬件和軟件融合之后的可靠性。他認(rèn)為,RL 在控制領(lǐng)域里有點(diǎn)類似鎮(zhèn)定器,在與環(huán)境交互接觸的過程中,依靠強(qiáng)化學(xué)習(xí)的模型,能夠確保機(jī)器人穩(wěn)定可靠。但這并不意味著基于模型的方法就失效了,模型預(yù)測控制(MPC)與強(qiáng)化學(xué)習(xí)相結(jié)合也是當(dāng)前的另一種趨勢。 羅劍嵐指出,機(jī)器人要想真正發(fā)揮作用,成功率實(shí)際上要達(dá)到 100%,因?yàn)槊恳淮纬霈F(xiàn)故障、失敗都有成本,會(huì)直接導(dǎo)致收益減少。要達(dá)到這個(gè)目的(100%),需要將強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)結(jié)合起來,并與環(huán)境進(jìn)行交互,在動(dòng)態(tài)的過程中去實(shí)現(xiàn)可靠性。 盧宗青認(rèn)為,在現(xiàn)實(shí)世界里,要實(shí)現(xiàn)高性能的操作并達(dá)到高可靠性(100%),一定要與環(huán)境進(jìn)行交互,而要實(shí)現(xiàn)與環(huán)境交互,就必須得運(yùn)用強(qiáng)化學(xué)習(xí)(RL);而依靠模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這些控制方法,人形機(jī)器人不太可能達(dá)到99%以上的可靠性。從場景需求出發(fā),許多任務(wù)并不需要100%的成功率,而是滿足設(shè)定的目標(biāo)值即可。 除此之外,四位嘉賓圍繞機(jī)器人的移動(dòng)(Locomotion)、操作(Manipulation)以及未來 RL 的創(chuàng)新方向等話題展開了精彩分享。以下 AI 科技評(píng)論進(jìn)行了不改原意的整理: 王建明:先請(qǐng)嘉賓們做一個(gè)自我介紹,從羅博士開始吧。 羅劍嵐:大家好,我是羅劍嵐。我目前在伯克利人工智能研究實(shí)驗(yàn)室(BAIR)擔(dān)任博士后研究員。我曾在伯克利獲得博士學(xué)位,并在谷歌工作了兩三年,后來又回到伯克利。自 2015、2016 年起,我開始涉足機(jī)器人學(xué)習(xí)領(lǐng)域,當(dāng)時(shí)這一領(lǐng)域還未被稱為“具身智能”,我的研究重點(diǎn)集中在機(jī)器人操作技術(shù)。 石冠亞:大家好,我是 2023 年入職 CMU 機(jī)器人研究所的助理教授,資歷尚淺。我的博士畢業(yè)于加州理工學(xué)院控制系,該系云集了 Richard M. Murray、John Doyle 等控制領(lǐng)域的大佬。我從 2017 年開始研究 Control+Learning,當(dāng)時(shí)很多控制領(lǐng)域的人都在考慮加入 Learning 元素,到目前為止我在 RL+Control 這個(gè)方向的研究已有七八年了。 博士畢業(yè)后,我在華盛頓大學(xué)做博士后,師從 Byron Boots,開展了大量機(jī)器人學(xué)習(xí)方面的工作。讀博士之前,我在清華念本科。我對(duì)今天的主題極為感興趣,我思考這個(gè)問題差不多有十年了,從本科時(shí)就開始琢磨,所以特別高興能和大家探討,可能等會(huì)我會(huì)有很多暴論(笑)。 盧宗青:大家好。我來自北大計(jì)算機(jī)學(xué)院,主要做強(qiáng)化學(xué)習(xí)算法研究。我 2017 年回國后便一直鉆研強(qiáng)化學(xué)習(xí)算法。近期也涉足機(jī)器人相關(guān)工作,并且在跟進(jìn)大模型研究,重點(diǎn)關(guān)注視覺標(biāo)記化(Vision Tokenizer)以及交互學(xué)習(xí)的相關(guān)內(nèi)容。 朱秋國:大家好,我是浙江大學(xué)控制學(xué)院副教授兼云深處科技創(chuàng)始人。我一直專注于人形機(jī)器人與四足機(jī)器人研究。早期運(yùn)用傳統(tǒng)控制理論方法,2019 年起便與國外學(xué)者合作開展 RL 相關(guān)研究,主要帶領(lǐng)課題組研究生開展這方面的研究工作。 王建明:感謝老師們的自我介紹。今天的討論主題是“RL + Control”。作為熱身,咱們先簡單聊聊。很多人覺得 AI 和機(jī)器人結(jié)合是當(dāng)下最大的機(jī)遇和浪潮,各位老師在浪潮來臨前的十年甚至更久就在這個(gè)領(lǐng)域深耕了。能不能講講當(dāng)初為什么選這個(gè)方向?現(xiàn)在風(fēng)口來了,又有什么感受? 石冠亞:我覺得機(jī)器人和其他領(lǐng)域有個(gè)很大的不同之處,就是它屬于系統(tǒng)性工程,由很多模塊組成,像大腦、小腦、肌肉這些。大腦對(duì)應(yīng)的是一些高層次算法,小腦則是全身控制算法,還包括硬件等方面。 以前我跟著導(dǎo)師讀博時(shí),有位叫 Joel W. Burdick 的老師,他在機(jī)器人領(lǐng)域造詣很深,可能都做了50年了。他常跟我說他的機(jī)器人波浪(Wave)理論,意思是每次機(jī)器人領(lǐng)域成為風(fēng)口時(shí),就會(huì)有很多浪潮往前推進(jìn),雖說沒辦法達(dá)到通用人工智能(AGI)的程度,但總會(huì)留下些成果,而這些成果對(duì)機(jī)器人領(lǐng)域來說是很大的貢獻(xiàn),等到下一波浪潮來臨時(shí),又會(huì)基于之前留下的成果再掀起新的浪潮。我對(duì)這個(gè)觀點(diǎn)挺認(rèn)同的。 回到王老師提的問題,我為什么喜歡機(jī)器人、為什么做機(jī)器人做了這么多年。我覺得機(jī)器人就是個(gè)載體,你想做的任何研究都可以通過它來開展。舉個(gè)例子,要是你想挑戰(zhàn)極限,去做個(gè)跑步機(jī)器人,那完全沒問題,又或者你從材料科學(xué)角度去組裝一個(gè)機(jī)器人也行,還可以專注做算法。總之,我認(rèn)為它是個(gè)很棒的平臺(tái),能讓我們?nèi)プ龊芏嘞胱龅难芯俊?/span> 有沒有和別人意見相左、堅(jiān)持不下去的時(shí)候?對(duì)我而言,最大的不同可能就是我一直挺堅(jiān)持端到端學(xué)習(xí)算法,或許這與當(dāng)下很多人的觀念不太一樣,但我覺得它并非非主流觀點(diǎn)。很多人都覺得我們這個(gè)領(lǐng)域最大的爭議是:“是不是 Data is all you need?”實(shí)際上,去年針對(duì)這一話題有過一場討論,會(huì)后現(xiàn)場投票的結(jié)果是 50:50,所以我也不能說這是個(gè)非主流觀點(diǎn)。 我其實(shí)一直挺堅(jiān)持我們要在獎(jiǎng)勵(lì)機(jī)制里做一些學(xué)習(xí)(Learning),并且要有一些真實(shí)的數(shù)據(jù)、一些結(jié)構(gòu)(Structure)。我覺得這算不上冷門觀點(diǎn),但它確實(shí)是我的一個(gè)看法。 王建明:朱老師您也一直在這一領(lǐng)域里耕耘了至少 15 年,從最開始的雙足人形機(jī)器人,到后面的四足機(jī)器人,您可以分享下這一路以來的感受嗎? 朱秋國:我長期從事人形機(jī)器人相關(guān)研究工作,四足機(jī)器人是跟人形機(jī)器人并行的一個(gè)方向。因?yàn)樵缭谧铋_始的時(shí)候,我們還和清華一起參加了 ROBOCUP 人形機(jī)器人比賽,當(dāng)時(shí)就有一個(gè)預(yù)言,說到 2050 年時(shí),要組建一支人形機(jī)器人隊(duì)伍,最終能夠打敗人類足球隊(duì)。可以想象一下,這中間的時(shí)間跨度非常大。 對(duì)于我們從事控制領(lǐng)域工作的人來說,人形機(jī)器人本身就是一個(gè)很棒的研究平臺(tái)。機(jī)器人缺乏穩(wěn)定性,如何控制它們是一個(gè)挑戰(zhàn),沒有現(xiàn)成的理論或穩(wěn)定性標(biāo)準(zhǔn)。我們的目標(biāo)是讓機(jī)器人走出實(shí)驗(yàn)室,適應(yīng)真實(shí)世界的復(fù)雜環(huán)境,然后考慮如何實(shí)現(xiàn)實(shí)際應(yīng)用。 對(duì)我個(gè)人而言,首先要熱愛機(jī)器人,其次,在實(shí)現(xiàn)最終應(yīng)用的過程中,需要經(jīng)歷不同階段,包括理論的升級(jí)和機(jī)器人性能的提升。2010 年之前,我們實(shí)驗(yàn)室導(dǎo)師就提出要求,能不能讓機(jī)器人走到室外,比如到實(shí)驗(yàn)室外的坡上、操場上走走。現(xiàn)在看來輕而易舉的事,在那時(shí)卻難如登天。光是邁出這一步,我發(fā)現(xiàn)都花了近十年時(shí)間。所以機(jī)器人本身就是個(gè)需要長期堅(jiān)持的賽道或方向,要么放棄,要么長期堅(jiān)守。 羅劍嵐:實(shí)際上,我最初在伯克利從事控制領(lǐng)域的研究時(shí),開始接觸機(jī)器人學(xué)(Robotics)。當(dāng)時(shí)我參與的第一個(gè)項(xiàng)目是操作(Manipulation)任務(wù)。在傳統(tǒng)的控制方法中,需要采用分離原理(Separation principle),也就是將狀態(tài)估計(jì)(State estimation)和控制(Control)分開。然而,很多操作問題中,狀態(tài)估計(jì)并不是容易實(shí)現(xiàn)的。正因如此,這種控制方法在一些復(fù)雜場景下遇到了很大的挑戰(zhàn)。 后來,我看到了伯克利在2015年發(fā)表的端到端(End-to-end)方法相關(guān)論文《Guide Policy Search》。這篇文章讓我眼前一亮,因?yàn)樗摿藗鹘y(tǒng)分離控制的框架,為操作任務(wù)提供了一種全新的思路。通過端到端的學(xué)習(xí)方法,直接從感知到控制進(jìn)行優(yōu)化,繞過了對(duì)狀態(tài)精確估計(jì)的依賴。 盡管操作任務(wù)至今仍然是一個(gè)巨大的挑戰(zhàn),很多問題還沒有被完全解決,但端到端的學(xué)習(xí)方法以其廣泛的適用性和潛力,正在成為解決實(shí)際操作問題的重要方向。 盧宗青:我先講講我的歷程。我和其他三位老師不太一樣的地方在于,我本身是做強(qiáng)化學(xué)習(xí)算法的,所以此前大部分工作都停留在做強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)上,主要涉及兩塊,一個(gè)是 MuJoCo(通用物理引擎),另一個(gè)是游戲。實(shí)際上,我們之前主要聚焦在游戲這方面。 不過在大模型出現(xiàn)后,我們做了很多嘗試,就是把強(qiáng)化學(xué)習(xí)和大模型結(jié)合起來開展工作。去年也做了諸多嘗試,包括通用計(jì)算機(jī)的控制等一系列工作。我們期望能打造出一個(gè)通用智能體(Agent),讓它能夠控制并完成電腦上各種各樣的任務(wù),但是后來發(fā)現(xiàn),尤其是在大模型方面,目前還很難做到這一點(diǎn)。 所以,我覺得即便有了大模型,它也需要與真實(shí)環(huán)境進(jìn)行交互,基于這樣獲取到的數(shù)據(jù)去更好地學(xué)習(xí)。我跟劍嵐剛才表達(dá)的意思相近,就是確實(shí)需要與物理環(huán)境交互,基于與物理環(huán)境交互得來的數(shù)據(jù)去學(xué)習(xí),或許才能催生更具通用性的智能。 而說到與物理世界交互的載體,自然就是機(jī)器人了。因此,從今年開始,我們會(huì)把更多精力放在機(jī)器人方面,涵蓋 Locomotion、Manipulation,以及思考在真實(shí)數(shù)據(jù)的基礎(chǔ)上如何更好地學(xué)習(xí)大模型,特別是針對(duì)視覺這塊,畢竟就目前的大模型而言,其對(duì)視覺的理解還比較薄弱。所以,怎樣通過視覺也好,觸覺也好,去更好地理解物理世界,是我們當(dāng)下所關(guān)注的重點(diǎn)。 王建明:接下來探討一些更具體的問題,咱們先聊聊 RL 和 Control 在機(jī)器人移動(dòng)能力(Locomotion)上的情況。 當(dāng) RL 和 Control 應(yīng)用于 Locomotion 這一領(lǐng)域,其實(shí)很多時(shí)候二者是分開工作的。比如,有些老師一開始是運(yùn)用基于模型的控制(MBC)方法來處理 Locomotion。而現(xiàn)在,很多強(qiáng)化學(xué)習(xí)的應(yīng)用是先在仿真環(huán)境里進(jìn)行,然后再通過 Sim2Real 的思路去解決機(jī)器人移動(dòng)的相關(guān)問題。 石老師,我前段時(shí)間看了您在 YouTube 上的一個(gè)視頻,是介紹 RL 和 Control 相結(jié)合的內(nèi)容,像在四足機(jī)器人、人形機(jī)器人等方面都能結(jié)合。您還提到了 Leaning dynamics from real world 等概念,您可以系統(tǒng)地講講過去十年您是怎么把 RL 和 Control 結(jié)合起來的嗎? 石冠亞:這個(gè)問題有些大,我先從一個(gè)小角度來切入吧。首先表明我的第一個(gè)觀點(diǎn),算是個(gè)“暴論”吧。我覺得 RL 以及 Control 本身都算不上是一種方法,而應(yīng)該是一個(gè)問題。 我覺得強(qiáng)化學(xué)習(xí)的定義就是有一個(gè)馬爾可夫決策過程(MDP),包含獎(jiǎng)勵(lì)(Reward)和系統(tǒng)動(dòng)態(tài)特性(Dynamics),目標(biāo)是優(yōu)化獎(jiǎng)勵(lì),找到策略用于控制,這和 Control 本質(zhì)上是一回事。其定義就是面對(duì)動(dòng)態(tài)系統(tǒng)去設(shè)計(jì)策略以滿足一些限制,不能因?yàn)?Richard Belle man 提出“S、A、R、S” 這套表述就說它們不同。 因?yàn)樗鼈儽举|(zhì)是問題,所以有很多算法,像 RL 就很豐富多樣。比如 Sim2Real RL 就是很具體的方法,我可以在像MuJoCo、SR 游戲這類做 Locomotion 的主流仿真器里,用近端策略優(yōu)化算法(PPO)訓(xùn)練策略,再應(yīng)用到現(xiàn)實(shí)世界中,這跟劍嵐做的很多真機(jī)+ RL 完全不同,我覺得它們的差別比 RL 與 Control 的差別還大。 我的觀點(diǎn)是,它們是兩個(gè)不同的問題,得更具體地去探討。就拿強(qiáng)化學(xué)習(xí)來說,我們得明確具體討論的是哪種類型的強(qiáng)化學(xué)習(xí)。比如是 “仿真到現(xiàn)實(shí)的無模型強(qiáng)化學(xué)習(xí)(Sim2Real Model - Free Reinforcement Learning)” 呢,還是當(dāng)下很熱門的 “學(xué)習(xí)世界模型(Learning word model)”、也就是基于模型的強(qiáng)化學(xué)習(xí)(Model-based reinforcement learning),亦或是在真實(shí)世界里開展的無模型強(qiáng)化學(xué)習(xí)呢?像劍嵐近期就有不少很棒的相關(guān)工作。 我覺得這些不同類型的強(qiáng)化學(xué)習(xí)其實(shí)差別挺大的。另外,還有離線強(qiáng)化學(xué)習(xí)(Offline reinforcement learning),有很多演示數(shù)據(jù)(Demonstration)的時(shí)候,不光能做模仿學(xué)習(xí),還可以進(jìn)行離線強(qiáng)化學(xué)習(xí)。我覺得它們之間的差別甚至比強(qiáng)化學(xué)習(xí)(RL)內(nèi)部不同類型之間的差別還要大,這是我的第一個(gè)觀點(diǎn),第一個(gè)暴論。 第二點(diǎn),說到 Locomotion,目前在這方面最流行的 RL 方法就是仿真到現(xiàn)實(shí)強(qiáng)化學(xué)習(xí)(Sim2Real RL),就是先在虛擬仿真(Simulated)環(huán)境里,運(yùn)用近端策略優(yōu)化算法(PPO)或者其他類似的算法去訓(xùn)練出一個(gè)策略,之后再把這個(gè)策略部署到現(xiàn)實(shí)世界當(dāng)中去。 我的第二個(gè)“暴論”就是,我認(rèn)為 Sim2Real RL 是一種基于模型的方法。你想想它的操作流程就能明白,首先得有一個(gè)你比較信賴的模型,比如仿真器(Simulator),然后在這個(gè)仿真器里訓(xùn)練出一個(gè)策略(Policy),之后再把這個(gè)策略部署到現(xiàn)實(shí)(Real world)當(dāng)中。 不過我覺得它和 MBC 在兩個(gè)維度上是不一樣的,那它的優(yōu)勢在哪?在我看來,Sim2Real RL 最大的優(yōu)勢,在于其離線計(jì)算能力近乎無窮。也就是說,它可以離線從成百上千乃至上萬條軌跡(Trajectory)當(dāng)中去學(xué)習(xí)策略,有充足的時(shí)間去進(jìn)行優(yōu)化,從而找到合適的策略。像 MPC 這類大多數(shù)基于模型的控制方法,其實(shí)它們所有的算力運(yùn)用都是在線上的。就是說,我得在線去確定機(jī)器人下一步往哪兒走,它并沒有離線的算力。 所以我覺得這就是 Sim2Real RL 和 MBC 在算力運(yùn)用方面第一個(gè)主要的不同點(diǎn),也就是算力到底是用在離線階段(Offline)還是在線階段(Online)。“離線”的定義,就是在機(jī)器人開始運(yùn)行之前進(jìn)行相關(guān)運(yùn)算;而“在線”就是機(jī)器人一邊運(yùn)行,一邊去計(jì)算相應(yīng)的內(nèi)容。 然后第二個(gè)我覺得 Sim2Real RL 相對(duì) MBC 最大的優(yōu)勢在于,它在一定程度上繞開了狀態(tài)估計(jì)(State estimation)的問題。在傳統(tǒng)的控制里,我們一般遵循分離原則(Separate principle),比如說要用模型預(yù)測控制(MPC)去控制一個(gè)人形機(jī)器人,在這之前,大概率得先搞一個(gè)狀態(tài)估計(jì)器(State estimator),去估計(jì)機(jī)器人自身的速度、角速度等物理量。 從某種程度上,在傳統(tǒng)控制里,狀態(tài)估計(jì)(Estimation)其實(shí)和 Control 一樣,都是要面對(duì)的問題。說到底,你得清楚機(jī)器人所處的狀態(tài)、得知道機(jī)器人此時(shí)此刻在什么位置。我覺得在現(xiàn)實(shí)世界里,狀態(tài)估計(jì)(Estimation)其實(shí)和控制一樣,都是要面對(duì)的問題,說到底就是得知道機(jī)器人的狀態(tài),清楚它此刻所在位置。而強(qiáng)化學(xué)習(xí)(RL)在一定程度上能繞開這個(gè)問題,因?yàn)樗梢酝瑫r(shí)學(xué)習(xí)策略(Policy)和狀態(tài)估計(jì)器(State estimator)。 拿目前在 Locomotion 方面最成功、最流行的邏輯來說,師生網(wǎng)絡(luò)學(xué)習(xí)(Teacher Student Learning)。自 2020 年 Science Robotics 發(fā)布論文“Learning quadrupedal locomotion over challenging terrain(在具有挑戰(zhàn)性的地形上學(xué)習(xí)四足移動(dòng))”之后,大概有幾千篇文章都遵循這個(gè)邏輯,一直到現(xiàn)在,差不多5年時(shí)間把師生網(wǎng)絡(luò)學(xué)習(xí)推到了頂峰。 師生網(wǎng)絡(luò)學(xué)習(xí)是什么意思?就是先在仿真環(huán)境(Simulator)里訓(xùn)練出一個(gè)所謂的“教師策略(Teacher Policy)”,這個(gè)“教師策略”知曉一切,比如它知道仿真器里的所有信息,像地面的各種情況、機(jī)器人的速度等等,這些我們稱之為特權(quán)狀態(tài)(Privilege state)。然后,這個(gè)“教師策略”(Policy)是沒辦法直接部署到真機(jī)上的,因?yàn)樵诂F(xiàn)實(shí)中,你沒辦法知曉地面情況,也不清楚機(jī)器人的絕對(duì)速度等信息。不過在 RL 里,利用這個(gè)“教師策略”后,可以將它提煉到一個(gè)叫“學(xué)生策略”(Student policy)的東西里,這個(gè)“學(xué)生策略”的輸入是你所能觀測到信息的歷史記錄,也就是“過去 n 步”的相關(guān)情況。目前這套方法已經(jīng)很成熟了。 我覺得,就是因?yàn)橛羞@種師生學(xué)習(xí)框架,所以繞開了狀態(tài)估計(jì)(State estimation)這個(gè)問題。相當(dāng)于在實(shí)際應(yīng)用中,你不需要獲取真實(shí)的狀態(tài),可以直接利用感知信息的歷史記錄就可以進(jìn)行控制操作了。我覺得這兩點(diǎn)就是強(qiáng)化學(xué)習(xí)(RL)最大的優(yōu)勢。 而對(duì)于 Control,我認(rèn)為它也有兩大優(yōu)勢。第一點(diǎn)是跟 RL 剛好完全相反。首先,Control 具備在線計(jì)算能力。Sim2Real RL 存在的問題是,你在仿真環(huán)境里訓(xùn)練出一個(gè)策略后,一旦應(yīng)用到線上,這個(gè)策略就固定住了。哪怕這個(gè)策略效果很差、很不理想,你也沒辦法去實(shí)時(shí)調(diào)整它,除非你再去做真實(shí)世界的 RL,而且基本上都會(huì)受到 Sim2Real GAP 的影響。如果仿真器質(zhì)量很差的話,那產(chǎn)生的誤差就會(huì)很大。但 Control 有個(gè)很重要的思路,就是可以進(jìn)行類似 MPC 那樣的操作,能夠一邊讓機(jī)器人運(yùn)行,一邊進(jìn)行相應(yīng)的計(jì)算。 Control 的第二個(gè)的優(yōu)勢就是它具備很多很不錯(cuò)的結(jié)構(gòu)?,F(xiàn)在大部分流行的 RL 算法,其實(shí)就是近端策略優(yōu)化算法(PPO),大家都用它,因?yàn)樗峭呗裕∣npolicy)的,大家也不太在意采樣效率。它最終呈現(xiàn)出來的性能表現(xiàn)還算比較好,而且操作起來也相對(duì)簡單,不過它本身并沒有什么特定的結(jié)構(gòu),這就導(dǎo)致有時(shí)候它會(huì)收斂到一些我們不想要的狀態(tài),比如一些很奇怪的狀態(tài)。但控制就不一樣了,它有很好的結(jié)構(gòu),能夠借此提高采樣效率,這就是它的一個(gè)優(yōu)勢所在。 我很多研究的核心思路,就是嘗試將 RL 與 Control 相結(jié)合,例如把 Control 的安全性融入 RL 中,或者借助 Control 良好的結(jié)構(gòu)使強(qiáng)化學(xué)習(xí)變得更具穩(wěn)健性。最后,我和前面三位老師有一個(gè)共識(shí),最有效的學(xué)習(xí)方式最終還是要落實(shí)在真實(shí)世界當(dāng)中去開展和驗(yàn)證。 我對(duì)于當(dāng)前仿真(Simulation)方面的進(jìn)展并不是特別樂觀,因?yàn)槲沂冀K覺得,開發(fā)出一個(gè)非常完美的仿真器本身就是極為困難的一件事。我們不能期望能有達(dá)到通用人工智能(AGI)水平的仿真器出現(xiàn),然后憑借它去解決所有問題。所以,一定要以某種方式,在真實(shí)世界里去做學(xué)習(xí)(Learning)才行,只不過我所采取的角度是將 RL 和 Control 相結(jié)合去做真實(shí)世界里的學(xué)習(xí)。 王建明:謝謝石老師。我覺得您可以推薦一些您在 RL 和 Control 結(jié)合方面的工作,可以讓同學(xué)們參考學(xué)習(xí)一下。 石冠亞:好的,我分享幾個(gè)相關(guān)內(nèi)容吧。 第一個(gè),我做過很多人形機(jī)器人相關(guān)的工作,其中有一套邏輯是我個(gè)人特別喜歡的,那就是別讓 RL 直接進(jìn)行一對(duì)一(n to n)的輸入輸出操作。我覺得當(dāng)下有不少論文,就是用 RL 去輸出比較高層的信息,打個(gè)比方,要是去控制一個(gè)人形機(jī)器人,為什么非得讓強(qiáng)化學(xué)習(xí)(RL)去輸出每個(gè)電機(jī)的扭矩呢?其實(shí)可以讓它輸出一些更高層的信息,比如可以讓它輸出速度、加速度等信息。我覺得這是個(gè)挺有意思的方向,我有不少相關(guān)論文,大家可以搜一下“CAjun”就能找到,也可以直接進(jìn)入我實(shí)驗(yàn)室主頁看看那些視頻,視頻里機(jī)器狗跳躍等展示的成果,其實(shí)都是基于這個(gè)邏輯做出來的。 第二個(gè)給大家推薦的一系列工作,是帶有“現(xiàn)實(shí)到仿真(Real to Sim)”的特點(diǎn)。我沒直接做 Sim2Real 的工作,而是先進(jìn)行 Real to Sim,再做 Sim2Real 。我個(gè)人挺看好這個(gè)方向,就是不在固定不變的仿真器里學(xué)習(xí),而是到現(xiàn)實(shí)中獲取數(shù)據(jù)來改進(jìn)仿真器,之后再基于改進(jìn)后的仿真器進(jìn)行學(xué)習(xí)。這個(gè)方向我覺得也挺不錯(cuò)的,我們近期在這方面也開展了一些工作。 第三個(gè),就是基于 MPC 相關(guān)內(nèi)容。更有意思一點(diǎn)的做法是,我們先學(xué)習(xí)一個(gè)世界模型(World model),然后再利用 MPC 去進(jìn)行控制操作。這方面我們最近有挺多文章的,比如說DIAL- MPC 的相關(guān)研究挺熱門,大家都在研究,因?yàn)樗拇a相對(duì)簡單。我們做了很多關(guān)于學(xué)習(xí)動(dòng)力學(xué)(Learn dynamics)的工作,就是在現(xiàn)實(shí)環(huán)境里把動(dòng)力學(xué)模型學(xué)習(xí)出來,之后再運(yùn)用基于采樣的模型預(yù)測控制(Sampling-based MPC)去開展后續(xù)的 Control。因?yàn)榛诓蓸拥哪P皖A(yù)測控制算是一種最靈活的 MPC 方法了。 王建明:好的,謝謝石老師。朱老師,我覺得您在國內(nèi)控制領(lǐng)域?qū)嵙軓?qiáng),整個(gè)浙大在控制方面也是如此,尤其在關(guān)節(jié)機(jī)器人控制領(lǐng)域經(jīng)驗(yàn)豐富。從產(chǎn)業(yè)化角度看,朱老師所在的云深處近期的工作令人印象深刻,像四足狗、輪足機(jī)器人,它們現(xiàn)在很多控制都用 RL。能否請(qǐng)朱老師介紹一下,從傳統(tǒng)的 MPC、更早的 ZMP(零力矩點(diǎn))等方法的使用,到現(xiàn)在使用 RL,這整個(gè)過程您有什么感受?另外,對(duì)于產(chǎn)業(yè)和學(xué)術(shù)結(jié)合方面,您如何看待這兩種方法? 朱秋國:早期在機(jī)器人上我們大量運(yùn)用了 MPC +WBC(全身運(yùn)動(dòng)控制)這類方法,做了不少相關(guān)工作。但從整體效果來看,采用 RL 的方法能更好地展現(xiàn)機(jī)器人全身運(yùn)動(dòng)能力。 MPC 和 WBC 在 RL 出現(xiàn)之前算是比較主流的方式,因?yàn)闊o論是面向人形機(jī)器人還是四足機(jī)器人,它們的全身模型很復(fù)雜,當(dāng)要去求解這種高維度的最優(yōu)問題時(shí),不僅需要大量計(jì)算,還得保證在線的實(shí)時(shí)性才行。 所以我們運(yùn)用 MPC 時(shí),往往會(huì)對(duì)模型進(jìn)行簡化,也就是處理簡化模型的長時(shí)域最優(yōu)化問題。在這個(gè)過程中,需要進(jìn)行建模,比如先將其簡化成單剛體模型,復(fù)雜一點(diǎn)的話就變成機(jī)器人模型。在此基礎(chǔ)上,通過預(yù)測來保障機(jī)器人狀態(tài)軌跡的可預(yù)測性,進(jìn)而確保機(jī)器人的穩(wěn)定性。但做完簡化模型那一步后,大家發(fā)現(xiàn)存在問題,因?yàn)楹喕蟮哪P秃茈y真實(shí)反映機(jī)器人全身動(dòng)力學(xué)的特點(diǎn)。 于是我們的研究進(jìn)入了第二階段,也就是處理復(fù)雜模型的短時(shí)域最優(yōu)化問題,就是所謂的全身運(yùn)動(dòng)控制(WBC)。在這個(gè)階段,要建立機(jī)器人的全身動(dòng)力學(xué)模型,然后計(jì)算出當(dāng)前的最優(yōu)控制以保證實(shí)時(shí)性,用全身運(yùn)動(dòng)控制(WBC)來彌補(bǔ)模型預(yù)測控制(MPC)因簡化模型而產(chǎn)生的問題。這項(xiàng)工作確實(shí)開展了挺多,也取得了比較好的效果,不過運(yùn)動(dòng)的靈活性還是比較固定。我們通過這種方法做出的效果,很難與波士頓動(dòng)力 Atlas 機(jī)器人相媲美,Atlas 呈現(xiàn)出的效果是最好的。 在很多場景下,我們現(xiàn)在用的機(jī)器人算法還是以傳統(tǒng)的模型預(yù)測控制(MPC)加全身運(yùn)動(dòng)控制(WBC)這種方式為主,因?yàn)檫@種方式比較穩(wěn)定、可靠,也容易解釋和分析。不過這種方式也會(huì)帶來一些問題。 第一個(gè)問題,比如對(duì)于腿足機(jī)器人,它的運(yùn)動(dòng)模式是足部離散運(yùn)動(dòng),在它跳躍或者行走、跑步的時(shí)候,要怎么保持它連續(xù)跳躍的穩(wěn)定性?如果采用傳統(tǒng)方法,就會(huì)遇到幾個(gè)問題,像怎么保證機(jī)器人在規(guī)定時(shí)間內(nèi)接觸地面,還有接觸地面后怎么保證它能快速響應(yīng)之類的問題。 要是還用傳統(tǒng)的優(yōu)化方法框架去處理的話,比如把時(shí)間納入到優(yōu)化問題里,就會(huì)發(fā)現(xiàn)這個(gè)優(yōu)化問題會(huì)變得極為復(fù)雜,而且現(xiàn)在大部分人運(yùn)用這套方法時(shí),往往會(huì)忽視這個(gè)問題。 第二個(gè)問題是,關(guān)于觸覺感知,怎么能讓它在模型預(yù)測控制(MPC)起作用前就發(fā)揮作用呢?很有可能等檢測到相關(guān)信息時(shí),機(jī)器人就已經(jīng)摔倒了。這些是我們?cè)谑褂脗鹘y(tǒng)模型控制方法過程中會(huì)碰到的一些問題與挑戰(zhàn),有些問題很難解決,甚至根本沒辦法解決。 那么 RL 還是有它的優(yōu)勢,前面石老師講過的那些優(yōu)點(diǎn)我就不贅述了。我覺得 RL 在控制領(lǐng)域里有點(diǎn)類似鎮(zhèn)定器,在與環(huán)境交互接觸的過程中,靠著這樣一套強(qiáng)化學(xué)習(xí)的模型,能夠確保機(jī)器人穩(wěn)定可靠。所以現(xiàn)在我們推出的人形機(jī)器人、機(jī)器狗、輪足機(jī)器人,我們實(shí)際運(yùn)用的都是 RL 這套方法。在運(yùn)用過程中,無論是發(fā)揮全身動(dòng)力學(xué)的能力,還是實(shí)現(xiàn)全身的協(xié)調(diào)性,都能展現(xiàn)出更高的靈活性。 所以我們目前主要的研究重點(diǎn)還是放在 RL 上,但這并不意味著基于模型的方法就沒用了。在浙大這邊的研究中,我們帶的研究生已經(jīng)開始嘗試在 RL 技術(shù)基礎(chǔ)上,融入一些 MPC 的思路或設(shè)想,去開展一些更具挑戰(zhàn)性的工作。 我覺得從原來單純用 MPC,到后來使用 RL,再到現(xiàn)在進(jìn)行 MPC 與 RL 相結(jié)合,可能就是在這個(gè)領(lǐng)域不斷摸索的一個(gè)過程。 王建明: 那請(qǐng)盧老師先介紹一下,您在強(qiáng)化學(xué)習(xí)領(lǐng)域深耕多年,能否跟大家分享下您目前在這方面的工作及經(jīng)驗(yàn)積累? 盧宗青:好的,我先回應(yīng)一下冠亞剛才提到的問題。首先,無模型強(qiáng)化學(xué)習(xí)(Model free RL)和 Control 解決的其實(shí)是相同的問題,面臨的數(shù)學(xué)問題也是一樣的,只不過解法不同罷了。 我一直在從事強(qiáng)化學(xué)習(xí)相關(guān)工作。對(duì)于機(jī)器人,尤其是人形機(jī)器人的解法,我們側(cè)重的角度可能和大家不太一樣。從人的角度來看,我們更多基于一種分層的假設(shè)框架,在高層可能更多涉及姿態(tài)方面的調(diào)控,或者說并非傳統(tǒng)意義的控制,而是通過姿態(tài)去影響,而在下層,比如低層級(jí)策略,去進(jìn)行具體的控制操作,好比針對(duì)人形機(jī)器人,就是過控制電機(jī)或其他控制量來實(shí)現(xiàn)相應(yīng)姿態(tài)。 所以我們更關(guān)注與物理世界的交互,而在交互過程中需要融入視覺信息。畢竟人在控制自身身體時(shí),會(huì)融入大量視覺信息,還有觸覺信息等各類從外部能感知到的信息。也就是人形機(jī)器人如何與物理世界進(jìn)行交互。 而且就人形機(jī)器人而言,我們可以利用大量與人相關(guān)的數(shù)據(jù),包含互聯(lián)網(wǎng)上能獲取到的視頻等資料。那如何依據(jù)這些數(shù)據(jù)讓機(jī)器人實(shí)現(xiàn)對(duì)自身身體的控制?對(duì)于下層策略來說,不管是運(yùn)用近端策略優(yōu)化算法(PPO)在仿真器里訓(xùn)練,還是采用模型預(yù)測控制(MPC)的方法,只要能達(dá)成上層所給出的目標(biāo)就行。我覺得這樣的思路或許更容易構(gòu)建出一套系統(tǒng),從而更好地解決相關(guān)問題。 對(duì)于 Locomotion,目前多數(shù)情況下,不管是用 RL 還是 MPC 的方法去處理,解決的都是同樣的問題。但我覺得其中更關(guān)鍵的是,怎樣融入額外的模塊,以此來考量物理世界中的相關(guān)信息。另外,就物理世界中的信息而言,學(xué)習(xí)動(dòng)力學(xué)(Learning Dynamics)可能是相當(dāng)困難的事。像其他學(xué)者提到的構(gòu)建世界模型,要想在視覺層面以及觸覺層面真的構(gòu)建出一個(gè)完整的仿真器或者世界模型,我認(rèn)為難度很大。所以從我的角度來看,在現(xiàn)實(shí)世界中去學(xué)習(xí)或許會(huì)更好一些。 王建明:好的,謝謝盧老師。剛才三位嘉賓的討論多聚焦在 Locomotion 方面,接下來我們探討一下操作方面 RL 和 Control 的相關(guān)內(nèi)容。請(qǐng)羅劍嵐博士介紹一下這七八年來在這條路徑上的情況。 羅劍嵐:大家剛才都在聊 Control,我本身也是控制背景出身,雖說現(xiàn)在不寫控制方面的論文了,但也接受過完整的相關(guān)訓(xùn)練。我覺得控制是非常有效的,它的有效性已經(jīng)體現(xiàn)在我們生活的方方面面了。汽車需要運(yùn)用控制,我們靠著控制技術(shù)把人送上了月球。就好像如今我們做科研也不會(huì)再去專門引用牛頓三大定律了,因?yàn)樗讶皇羌榷ù嬖谇掖_實(shí)有效的。 我們具體把控制放到機(jī)器人這個(gè)范疇里來看,其實(shí)很多方面是存在不少問題的。因?yàn)榫拖窆趤喫f,機(jī)器人是一個(gè)很大的系統(tǒng),你可以說汽車是一種機(jī)器人,飛機(jī)也是機(jī)器人,腿足機(jī)器人同樣是機(jī)器人,機(jī)械臂做操控也是一種機(jī)器人技術(shù)。這涉及到的很多問題都不一樣,無論是無模型(Model-free),還是基于模型(Model-based),都需要具體問題具體分析。 總體來講,大家可能主要在做三件事,第一個(gè)是導(dǎo)航(Navigation),第二個(gè)是移動(dòng)(Locomotion), 第三就是操作(Manipulation)。我們探討的這些方法論,要是套用到這三個(gè)不同的問題、不同的情境當(dāng)中,那實(shí)際上是在說不同的事。 比如剛才冠亞提到的端到端,在這三個(gè)問題里,它的表述其實(shí)是不一樣的。比如說針對(duì)導(dǎo)航做端到端,我不知道該怎么做,感覺要是把整個(gè)地球都繪制一遍地圖來做,那這肯定不行的。應(yīng)該是通過視覺基礎(chǔ)模型獲取語義信息,接著進(jìn)行地圖構(gòu)建、同時(shí)運(yùn)用即時(shí)定位與地圖構(gòu)建(SLAM)等技術(shù)。 而對(duì)于 Locomotion,這是個(gè)很有意思的問題,大家剛才一直在說仿真器之類的工作,從本質(zhì)上講,這其實(shí)意味著要對(duì)物理規(guī)律進(jìn)行逆向推導(dǎo)?!霸趯?duì)物理規(guī)律進(jìn)行采樣時(shí),其實(shí)就是在做基于模型的控制”,對(duì)于這個(gè)觀點(diǎn),我其實(shí)挺認(rèn)同的。仿真器提供了一個(gè)更好的計(jì)算工具,但它并不能直接給出一個(gè)策略(Policy),得使用優(yōu)化器(Optimizer)才會(huì)有相應(yīng)的策略。 然后再來說說 Manipulation 方面,這其實(shí)是另一個(gè)問題了。在機(jī)器人學(xué)里存在一個(gè)著名的悖論,叫莫拉維克悖論(Moravec's Paradox)。它所闡述的內(nèi)容是這樣的:回顧50年的人工智能發(fā)展歷史,我們會(huì)發(fā)現(xiàn),對(duì)人類而言簡單的事,讓機(jī)器去做卻很難;而那些人類做起來難度較大的事,機(jī)器人操作起來反倒簡單。比如,我們能夠教會(huì)機(jī)器下圍棋,像 IBM 的深藍(lán)早在 20 年前就可以下棋了,后來 AlphaGo 打敗了李世石。然而,像拿起水杯這類在人類眼中極為簡單的動(dòng)作,對(duì)于機(jī)器來說卻異常困難。針對(duì)這一現(xiàn)象,有著諸多解釋和爭論。 之所以會(huì)出現(xiàn)這種情況,是因?yàn)槿祟悮v經(jīng)了數(shù)十億年的漫長進(jìn)化,而數(shù)字化以及真正擁有智能,其實(shí)是相對(duì)較近幾千年才發(fā)生的事。所以,讓機(jī)器掌握相應(yīng)的動(dòng)作(Movement),要比讓它獲得推理能力(Reasoning)以及內(nèi)在的推理智能難得多。不管怎么說,這實(shí)際上就是操作(Manipulation)需要解決的核心問題。我們?cè)鯓硬拍茏寵C(jī)器人像人類一樣去操控,去與物理世界進(jìn)行交互,并且能可靠地完成這些事。 在這里,無論是端到端的方法,還是其他方法,與之前提到的導(dǎo)航(Navigation)或移動(dòng)(Locomotion)其實(shí)存在一些顯著的不同。為什么這么說呢?因?yàn)樵诓僮魅蝿?wù)中,通常會(huì)涉及到一些具體的物品和任務(wù)情境。比如,當(dāng)你有一個(gè)機(jī)器人,它的前方往往會(huì)有一個(gè)相對(duì)固定的工作區(qū)域。無論是移動(dòng)機(jī)器人,還是其他類型的機(jī)器人,通常需要先通過局部運(yùn)動(dòng)等方式導(dǎo)航(Navigate)到指定的位置。之后,在這個(gè)固定空間里,不論是工廠、家庭,還是其他應(yīng)用場景,機(jī)器人面前的物體尺寸和任務(wù)范圍一般是相對(duì)確定的。 在這種情況下,使用端到端的方法是有一定成功概率的,因?yàn)闄C(jī)器人的工作范圍是有限的。在一個(gè)固定的工作區(qū)域中,不管是在工廠、家庭,還是其他場景,機(jī)器人面前的物體尺寸和任務(wù)范圍通常是相對(duì)確定的。這種環(huán)境特點(diǎn)使得端到端方法能夠在特定任務(wù)上表現(xiàn)出一定的效果。然而,這種成功依賴于對(duì)特定環(huán)境的數(shù)據(jù)訓(xùn)練和驗(yàn)證,確保模型在有限范圍內(nèi)具備可靠性和魯棒性。 我不太容易陷入關(guān)于到底是端到端還是非端到端的爭論中。我可能更關(guān)注這個(gè)問題究竟要如何才能被解決。至于是不是端到端,我們可以想想這樣一件事,Jeff Hinton 在他 2018 年的圖靈獎(jiǎng)演講上,說了這么一句話。他說最開始的語音系統(tǒng),如果你想用一個(gè)神經(jīng)網(wǎng)絡(luò)去替代系統(tǒng)中的一部分,那這個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)慢慢地把其他部分侵蝕掉,然后開始在整個(gè)系統(tǒng)里循環(huán)運(yùn)轉(zhuǎn)、不斷擴(kuò)張,就如同桿菌那樣,會(huì)把系統(tǒng)的其他部分也全都“吃”掉,最終整個(gè)系統(tǒng)就完全變成由神經(jīng)網(wǎng)絡(luò)主導(dǎo)的樣子了。 但是即便如此,我的重點(diǎn)在于,對(duì)于 Manipulation 而言,實(shí)際上是可以學(xué)到這樣一個(gè)策略的。端到端的優(yōu)勢在于沒有中間的偏差,并且可以直接針對(duì)目標(biāo)進(jìn)行優(yōu)化。而且,Manipulation 為我們提供了這樣的環(huán)境和設(shè)置來做這件事,實(shí)際上可以使所有情況都適配到。 現(xiàn)在我們?cè)倩氐竭@個(gè)問題:我們?yōu)槭裁匆褂谜鎸?shí)世界的數(shù)據(jù)呢?我們先拋開那些非常具體的技術(shù)問題,先來思考一些基本的問題。今天研討會(huì)的主題是如何將機(jī)器人的可靠性逼近到 99.9% 或者 100%。我們可以思考的一個(gè)問題是:機(jī)器人為什么達(dá)不到 100% 呢? 既然達(dá)不到 100%,這就意味著我們的模型、或者其他什么東西也好,和實(shí)際環(huán)境是存在一定差距的。只有縮小這個(gè)差距,才有可能達(dá)到 100%。那么,在一個(gè)存在未知信息的環(huán)境中,要如何縮小這個(gè)差距?除了和這個(gè)環(huán)境進(jìn)行交互,把未知信息獲取回來,然后以某種方式進(jìn)行優(yōu)化之外,沒有別的辦法。這是最通用、最具擴(kuò)展性的方法。 你可以說我們能夠設(shè)計(jì)一些東西來滿足特定需求,然后構(gòu)建一些模型,讓它們?nèi)ミm配一兩個(gè)特定的任務(wù)。就好比如今我們有這類專用模型,它就專門負(fù)責(zé)做一件事,速度特別快,而且成功率能達(dá)到 100%。 但要是有 1000 個(gè)任務(wù)、1 萬個(gè)任務(wù)等等情況的話,那不可能每個(gè)任務(wù)都按這樣的方式去做。尤其是我們現(xiàn)在想要的是通用型、帶機(jī)械臂的機(jī)器人去執(zhí)行任務(wù)的話,雖然各個(gè)任務(wù)具體細(xì)節(jié)或許不一樣,但總體的基本邏輯都是一樣,你得先有一個(gè)初始的設(shè)想、猜測,然后再與跟環(huán)境進(jìn)行交互,最終把那些缺失的部分補(bǔ)上。 通過某種方式來構(gòu)建這樣的機(jī)制,比如說 RL,確切來講就是強(qiáng)化學(xué)習(xí)的定義所描述的那樣,具體如何操作,我們有很多種做法,有人說要用基于模型的強(qiáng)化學(xué)習(xí)(Model-based RL),有人說用無模型的強(qiáng)化學(xué)習(xí)(Model-free RL)。其實(shí)我可能不會(huì)特別傾向于其中某一種,它們各有各的長處。 總結(jié)一下,先說說為什么要采用 RL。在現(xiàn)實(shí)世界里,要實(shí)現(xiàn)高性能的操作并達(dá)到高可靠性,對(duì)于每一個(gè)環(huán)境來說,最通用、最具擴(kuò)展性的辦法必然是強(qiáng)化學(xué)習(xí)。而且它并非是一種被動(dòng)的數(shù)據(jù)學(xué)習(xí),不是簡單地去收集一些離線數(shù)據(jù)就可以了。如果想要達(dá)到100%的可靠性,那就一定要與環(huán)境進(jìn)行交互,而要實(shí)現(xiàn)與環(huán)境交互,就必須得運(yùn)用強(qiáng)化學(xué)習(xí),這是比較基本的邏輯。 在 Manipulation 領(lǐng)域選擇強(qiáng)化學(xué)習(xí)而非傳統(tǒng)控制,有著深刻的原因。今天我們討論的一個(gè)重要主題是 Manipulation 和 Locomotion 的對(duì)比,這兩者在本質(zhì)上是完全不同的問題。 對(duì)于 Locomotion,主要的挑戰(zhàn)在于機(jī)器人本體的不確定性。這種不確定性相對(duì)有限,例如機(jī)器人可能踩到石子,或者路面出現(xiàn)打滑等情況。從機(jī)器人本體的角度來看,這些不確定性的影響是可以量化的。在控制領(lǐng)域,我們有一整套數(shù)學(xué)工具來應(yīng)對(duì)這些問題,其中之一就是魯棒控制(Robust control)。魯棒控制的核心思想是對(duì)不確定性進(jìn)行定量建模,進(jìn)而確定最壞情況的界限(Worst-case bound)。只要實(shí)際的不確定性在這個(gè)界限范圍內(nèi),設(shè)計(jì)出的控制策略就是有效的。 然而,Manipulation 的情況則完全不同。Manipulation 的主要挑戰(zhàn)來自外部世界的不確定性,而不是機(jī)器人本體的不確定性。機(jī)器人本體是一個(gè)經(jīng)過精心設(shè)計(jì)的確定性系統(tǒng),但外部世界的復(fù)雜性是無限的(Unbounded complexity)。這些不確定性可能來自視覺、物理交互、觸覺感知等多個(gè)方面,而對(duì)這些因素進(jìn)行全面、精確的建模幾乎是不可能的。盡管我們可以對(duì)其中的某些部分進(jìn)行建模,取得一些成果,但始終無法完全掌控這些外部復(fù)雜性。 這正是 Manipulation 問題需要強(qiáng)化學(xué)習(xí)(RL)的原因所在。RL 通過與外界的交互,能夠更好地適應(yīng)外部環(huán)境中的不確定性。從本質(zhì)上來說,Manipulation 和 Locomotion 是兩類截然不同的問題:Locomotion 可以通過控制理論中現(xiàn)有的工具(如魯棒控制)較好地解決,而 Manipulation 則需要通過 RL 等數(shù)據(jù)驅(qū)動(dòng)的方式,去應(yīng)對(duì)外部世界的復(fù)雜性和不確定性。 王建明:接下來談?wù)勆逃靡约皺C(jī)器人本身落地可靠性的問題。我們可以從 Manipulation 方面開始說起。 在 Locomotion 方面,雖說有不同的方法和途徑,但大家的共識(shí)程度還是比較高。但在 Manipulation 方向上,由于操作任務(wù)的復(fù)雜度、面臨環(huán)境的復(fù)雜度以及路線選擇方面的情況都更為多樣。 目前技術(shù)路線不一,我留意到主要有幾個(gè),首先是模仿學(xué)習(xí)加真機(jī)的路線,像以擴(kuò)散策略(Diffusion policy)或者其他以 Aloha 為代表的模仿學(xué)習(xí)路線,能產(chǎn)生一系列比較好用的策略(Policy);其次是羅博士近期一系列工作所代表的 RL+真機(jī)的路線;第三是 RL+仿真來解決操作問題的路線;還有一條是對(duì)仿真進(jìn)行優(yōu)化,比如添加一些可微的元素進(jìn)去,例如通過可微分模擬的方式來構(gòu)建虛擬環(huán)境的世界模型。 石冠亞:我一直有個(gè)比較大膽的暴論,我覺得徹底解決機(jī)器人的操作問題其實(shí)和解決 AGI 沒有區(qū)別。 打個(gè)比方,就拿“開”這個(gè)動(dòng)作來說,像開瓶子、開杯子、開可樂、開門,雖然都用“開”這一表述,但實(shí)際的動(dòng)作完全不一樣。我覺得要是有一個(gè)策略(Policy)能解決“打開任何東西”這個(gè)問題,那它和 AGI 就沒什么區(qū)別了。 而且,從衡量指標(biāo)來看,我個(gè)人很容易分不清到底是因?yàn)槿蝿?wù)選得好,所以效果不錯(cuò),還是因?yàn)榉椒ū旧泶_實(shí)有了一些實(shí)質(zhì)性的突破。 另外,我特別贊同剛才說的那幾個(gè)分類。不談利弊,我可以跟大家講講我對(duì)它們的看法。 我覺得第一類屬于“大力出奇跡”的做法。就是先收集大量的演示數(shù)據(jù)(Demonstration),然后采用行為克隆的方式。其實(shí)現(xiàn)在做離線強(qiáng)化學(xué)習(xí)的人挺少的,大家普遍都是直接進(jìn)行行為克隆。剛才提到的擴(kuò)散策略、ALOHA,還有近期在物理智能層面的 Pi 0,都是遵循這一個(gè)邏輯。 第二類 Sim2Real,采用這種方式的人相對(duì)少一些,但我覺得還是挺有意思的。其中最有名的應(yīng)該就是 2019 年 OpenAI 做的用 Sim2Real 方式轉(zhuǎn)魔方的項(xiàng)目。 第三類,有很多微調(diào)相關(guān)的做法,就是先進(jìn)行預(yù)訓(xùn)練,然后再做微調(diào)之類的操作。 另外第四類,你之前沒提到,我可以補(bǔ)充一下,就是用傳統(tǒng)控制來做驗(yàn)證的情況其實(shí)也是存在的。不過它最大的問題就是不太能泛化。比如說,你要是設(shè)計(jì)了一個(gè)轉(zhuǎn)筆的策略(policy),可能就只能轉(zhuǎn)某一種特定的筆,要是筆的質(zhì)量變?yōu)樵瓉淼?倍、長度變?yōu)樵瓉淼?倍,可能就沒辦法轉(zhuǎn)了。 第五類是基于模型的方法,感覺這類比較小眾。就是先學(xué)習(xí)一個(gè)模型,然后再去做控制。就像劍嵐說的,它的難點(diǎn)在于你不僅要預(yù)測狀態(tài)、幫助預(yù)測目標(biāo)數(shù)據(jù),而且做建模本身就很困難。這類工作雖然小眾,但確實(shí)存在。我知道像加州理工學(xué)院(Caltech)、麻省理工學(xué)院(MIT)有人在做,他們研究諸如粒子動(dòng)力學(xué)(Particle Dynamics)之類的內(nèi)容,然后基于此開展工作。 羅劍嵐:我也來談?wù)勛约旱目捶ò伞H绻覀兿胍獙?shí)現(xiàn) AGI,要對(duì)人類智能進(jìn)行逆向工程,那所需的計(jì)算能力,單是用來處理人類的各種動(dòng)作行為,幾乎就是無窮無盡的。 就 Control 方法用于 Manipulation 來說,它存在不少問題。在機(jī)器人學(xué)剛開始形成一門學(xué)科、逐漸興起的時(shí)候,那時(shí)并沒有視覺相關(guān)的技術(shù),就如同處在“盲人摸象”的狀況里。從理論構(gòu)建角度看,控制的核心是 HJB 方程,該方程要求輸入的數(shù)據(jù)起碼得是可微的,或者說要相對(duì)平滑,理想狀態(tài)下要比上一時(shí)刻更平滑才行。 然而,要是遇到高維度并且不平滑的輸入感知數(shù)據(jù)時(shí),與之相關(guān)的那些理論基礎(chǔ)就會(huì)出現(xiàn)狀況,HJB 就會(huì)失去作用,如此一來,控制的基礎(chǔ)也就被動(dòng)搖了。一旦出現(xiàn)這種情況,不管在何種場景下,控制方法基本上就沒辦法發(fā)揮作用、失效了。 而機(jī)器人操作(Manipulation)必然是涉及感知這一要素的。如果你要處理感知相關(guān)的問題,就目前來看,最好的辦法是通過學(xué)習(xí)(Learning)的方式。既然操作(Manipulation)是需要感知參與的,那么操作就必然要借助學(xué)習(xí)了。 不過,這并不是說控制(Control)就完全沒有作用了。就拿現(xiàn)在機(jī)器人應(yīng)用中一個(gè)比較大的話題來說吧,比如在碼頭場景下,有體型巨大的機(jī)器人要完成搬運(yùn)貨物的任務(wù),可能是四五個(gè)機(jī)器人一起協(xié)作,把貨物從里面取出來、然后再放上去。在這種情況下,我們應(yīng)該運(yùn)用運(yùn)動(dòng)規(guī)劃(Motion Planning)的方法。并且,我們不但要采用目前最快、最好的在線運(yùn)動(dòng)規(guī)劃模型,還要利用相關(guān)驗(yàn)證機(jī)制,把這些運(yùn)動(dòng)規(guī)劃都逐一驗(yàn)證一遍,確保其準(zhǔn)確性達(dá)到100%才行。要是不這樣做的話,就很容易出現(xiàn)機(jī)器人之間相互碰撞,或者機(jī)器人誤傷人之類的嚴(yán)重情況。 再說回操作。我們說的是那種有機(jī)械臂的機(jī)器人,它前方有一個(gè)工作區(qū)域,區(qū)域里有一些物體需要進(jìn)行操作??瓷先ゲ呗詫W(xué)習(xí)在這種情況下并沒有那種特別復(fù)雜、特別難處理的動(dòng)力學(xué)問題,但關(guān)鍵在于,如果我們能夠解決其中哪怕僅僅 5% 或者 10% 的問題,那對(duì)于我們實(shí)現(xiàn)機(jī)器人走進(jìn)千家萬戶的夢想來說,都會(huì)是一個(gè)很大的進(jìn)步,機(jī)器人也會(huì)變得非常有用了。 第二點(diǎn),來談?wù)劮抡娴膯栴}。我覺得當(dāng)前存在一個(gè)比較突出的點(diǎn),就是如果我們采用基于學(xué)習(xí)的操作方法,涉及到仿真與實(shí)際應(yīng)用這兩方面對(duì)比的時(shí)候,會(huì)出現(xiàn)這樣一種情況:由于機(jī)器人目前還沒有被大規(guī)模部署,所以就沒辦法獲取到足夠多的實(shí)際數(shù)據(jù),進(jìn)而也就難以開發(fā)出更好的模型。 當(dāng)大家圍繞“操作”這個(gè)核心進(jìn)行討論時(shí),有人會(huì)說,操作能夠生成大量的數(shù)據(jù)。但要是采用仿真的話,其難點(diǎn)就在于要把仿真做得準(zhǔn)確、完善。 我并不是仿真方面的專家,所以只能從一些比較基本的原理角度出發(fā)。這就好比,要去做仿真就相當(dāng)于要去模擬整個(gè)宇宙。可要是我們有真實(shí)的數(shù)據(jù)的話,我們要做的其實(shí)就是構(gòu)造一個(gè)機(jī)器人的大腦。而宇宙是包含了大腦的,建一個(gè)宇宙比建一個(gè)大腦要難得多,所以我們應(yīng)該先去建大腦。 以特斯拉為例。特斯拉一開始在車輛投入使用前,可能還面臨數(shù)據(jù)不足之類的情況,可一旦它的車跑起來之后,情況就大不一樣了。我昨天還看了些相關(guān)數(shù)據(jù),特斯拉現(xiàn)在一年生產(chǎn)出來的真實(shí)行駛數(shù)據(jù)能達(dá)到 500 億里程,這時(shí)它面臨的問題根本不是有沒有數(shù)據(jù)了,而是這些數(shù)據(jù)多得完全存不下,他們現(xiàn)在都沒有足夠的硬盤去存儲(chǔ)這些來自各個(gè)攝像頭等渠道的數(shù)據(jù)。 我們現(xiàn)在思考相關(guān)問題,總是想著仿真器能夠生成海量的數(shù)據(jù),可實(shí)際上,真實(shí)世界里像特斯拉這樣的公司產(chǎn)生的數(shù)據(jù)量都已經(jīng)大到難以處理了,關(guān)鍵問題在于:我們要拿這些數(shù)據(jù)怎么辦。我們應(yīng)該是思考怎么去利用好這些數(shù)據(jù),而不是僅僅著眼于仿真器能生成多少數(shù)據(jù)。 我確實(shí)覺得仿真是非常有用的。如果今天要開一家自動(dòng)駕駛公司,要是有人跟我說不打算構(gòu)建仿真器,那我肯定得問問這是為什么,因?yàn)闆]有仿真器的話,軟件集成之類的工作根本沒辦法開展,整個(gè)業(yè)務(wù)流程也會(huì)難以運(yùn)轉(zhuǎn)起來。仿真器對(duì)于像抓取放置(Pick and Place)這類相對(duì)簡單些的、涉及運(yùn)動(dòng)學(xué)(Kinematic)的操作問題還是挺有幫助的。 不過,操作(Manipulation)問題的核心在于,一方面,我們得先處理好視覺輸入;另一方面,我們還要處理非常復(fù)雜的物理相關(guān)情況,像物體之間的接觸、流體的影響以及物體的變形等等復(fù)雜因素。與其費(fèi)很大力氣去構(gòu)造一個(gè)像模擬整個(gè)宇宙那樣復(fù)雜又龐大的仿真,還不如利用真實(shí)的數(shù)據(jù),用真實(shí)數(shù)據(jù)就不存在任何的 GAP,然后再去深入思考怎樣基于這些真實(shí)數(shù)據(jù)來制定出更好的策略,這就是我比較核心的一個(gè)觀點(diǎn)了。 石冠亞:我非常認(rèn)同劍嵐的這個(gè)觀點(diǎn)。哪怕是人也是如此。我們平時(shí)疊衣服、疊被子,我們之所以能做到這些,絕對(duì)不是因?yàn)槲覀儠?huì)去求解納維-斯托克斯方程。我們端起一杯水的時(shí)候,我們也不清楚這杯水具體的動(dòng)力學(xué)原理。人在進(jìn)行這些操作的時(shí)候,往往是憑借著直覺來更好地利用經(jīng)驗(yàn)和感覺的。 說到仿真器,很多時(shí)候它其實(shí)是有點(diǎn)“用力過猛”了,做了過度的模擬(Overkill)。我們沒必要去模擬所有的東西,只需要模擬那種憑直覺就能把握的、關(guān)鍵的部分就可以了,這其實(shí)也和 Locomotion 相關(guān)聯(lián)。 那為什么局部運(yùn)動(dòng)在現(xiàn)有的框架里是可行的呢?這是因?yàn)槟壳八旧现惶幚淼搅艘活惙抡嫦嚓P(guān)的問題,就是剛體動(dòng)力學(xué)方面的問題,它其實(shí)并沒有過多涉及到像流體、顆粒材料等等更復(fù)雜的情況。 羅劍嵐:談到直覺物理學(xué),其實(shí)在操控(Manipulation)任務(wù)中是個(gè)很有意思的話題。換個(gè)角度來看,操控通常存在于一個(gè)較低維度的流形(Manifold)中,也就是說,我們并不需要真正去解那些復(fù)雜的物理方程。例如,許多動(dòng)態(tài)操作場景,比如鞭子的揮動(dòng)、筋膜的運(yùn)動(dòng)等,實(shí)際上幾乎無法用傳統(tǒng)方法去求解,因?yàn)樗鼈兩婕胺浅?fù)雜的偏微分方程(PDE),而這些問題本身的求解難度極高。 如果嘗試在偏微分方程的外環(huán)上進(jìn)行優(yōu)化,再在線上進(jìn)行實(shí)時(shí)計(jì)算,這種方法在人類操作中顯然是不現(xiàn)實(shí)的。我可以肯定,人類的大腦并不是通過求解偏微分方程來完成這些任務(wù)的。相反,人類依賴的是一種直覺物理(Intuitive physics),這種能力是通過與環(huán)境的長期交互逐步形成的。比如,當(dāng)你看到某個(gè)物體的位置,伸手去拿,或者在某處翻找,這些動(dòng)作看似簡單,卻反映了人類對(duì)物理世界的直覺理解。 事實(shí)上,這種能力的形成遠(yuǎn)早于現(xiàn)代科學(xué)的發(fā)展。幾萬年前,人類已經(jīng)可以鉆木取火、拉弓射箭,而現(xiàn)代科學(xué)和數(shù)學(xué)體系的建立不過近 300 年的事情。當(dāng)時(shí),我們既沒有偏微分方程,也沒有用抽象的數(shù)學(xué)工具去理解世界。由此可見,人類大腦在操控和操作中一定不是通過解偏微分方程來實(shí)現(xiàn)的,而是通過直覺與環(huán)境交互形成了一種與物理世界高效對(duì)接的能力。 我們?cè)賮碚務(wù)勀7聦W(xué)習(xí)和強(qiáng)化學(xué)習(xí),我覺得這兩者并非是完全相互排斥的。模仿學(xué)習(xí)能夠給我們一個(gè)很好的起始點(diǎn),但如果要達(dá)到 100% 的成功率,那就必須得用強(qiáng)化學(xué)習(xí)了,也就是要和環(huán)境進(jìn)行交互,把最后的那部分性能提升上去。 而且我們從現(xiàn)在的相關(guān)工作中也能看到,強(qiáng)化學(xué)習(xí)其實(shí)原本是需要大量數(shù)據(jù)的。不過最新的成果顯示,它其實(shí)只需要和真實(shí)場景交互 1 到 2 個(gè)小時(shí)就行了,并且我相信在未來,連這 1 到 2 個(gè)小時(shí)都不需要,因?yàn)楹芏鄷r(shí)候它是在弄清楚一些非?;A(chǔ)的操作能力,一旦我們有了預(yù)訓(xùn)練,這個(gè)時(shí)間可能會(huì)縮短到 20 分鐘。 最后我再補(bǔ)充一點(diǎn)。我們?yōu)槭裁匆涯硞€(gè)指標(biāo)逼近到 99.9% 呢? 如今部署在全球的機(jī)器人大概有 500 萬臺(tái),其中 95% 都是位置控制型的,它們就跟“瞎子”一樣,只是簡單地重復(fù)編碼好的程序。它們就是固定地從 A 點(diǎn)移動(dòng)到 B 點(diǎn)再到 C 點(diǎn),從1961年通用汽車發(fā)明了第一條生產(chǎn)線起,一直到現(xiàn)在,我們所做的不過是在原有基礎(chǔ)上進(jìn)行了一些優(yōu)化,從根本上來說,其實(shí)并沒有太大的改變。 要想真正發(fā)揮作用,成功率實(shí)際上得是百分之百才行,99% 都太低了。每一次出現(xiàn)故障、失敗都是有成本的。要是在生產(chǎn)線上,成本體現(xiàn)就是整個(gè)生產(chǎn)線得停下來,直接反映就是你的資金收益在減少,得有人去彌補(bǔ)這個(gè)損失成本。 有人可能會(huì)講,你說的是工業(yè)機(jī)器人需要百分百的成功率,可家庭機(jī)器人有個(gè)百分之七八十的成功率就夠了 。其實(shí)我也思考過這個(gè)問題,我可以舉個(gè)很形象的例子。就在昨天,我去伯克利的體育館打球,那兒有個(gè)自動(dòng)售賣機(jī)器人賣水,用的時(shí)候就是把信用卡貼上去,它就會(huì)把水拿出來遞給你。我過去這一個(gè)月里經(jīng)常去那兒,可昨天我把卡貼上去后,水本應(yīng)該從出口出來的,結(jié)果卻掉下去了,而且我還沒辦法把水取出來,這就產(chǎn)生了成本,明碼標(biāo)價(jià)就是那瓶水的價(jià)格,2.75 美元。所以說,這不是沒成本,任何情況都是有成本的。 大家再想象一下,要是星巴克的機(jī)器人每 5 個(gè)小時(shí)就把咖啡灑地上一次,又或者家里的機(jī)器人每周都把廚房的杯子、盤子之類的東西往地上摔一次,這些都是損失,畢竟這都是在和物理世界做交互。我倒不是說我們就別去做家用機(jī)器人了、只搞工業(yè)機(jī)器人。我覺得當(dāng)下是處于一個(gè)比較關(guān)鍵的階段,在急切需要半約束、受約束的環(huán)境里,這樣的環(huán)境能讓我們?nèi)パ邪l(fā)解決方案,探索新的科學(xué)成果。等我們把相關(guān)問題弄明白了,或許就能把成果拓展到家用機(jī)器人等領(lǐng)域了。而且家用機(jī)器人還涉及數(shù)據(jù)收集以及隱私方面的問題,畢竟誰也不想家里的機(jī)器人在自己睡覺或者做別的事情的時(shí)候盯著自己,或是把數(shù)據(jù)傳回去用于訓(xùn)練。 所以我覺得,我們現(xiàn)在所處的這個(gè)階段真的是首次開始系統(tǒng)、全面地去思考一種比較通用的解決方案,未來咱們不用太擔(dān)心數(shù)據(jù)方面的問題,數(shù)據(jù)會(huì)像飛輪轉(zhuǎn)起來一樣不斷積累、運(yùn)轉(zhuǎn)起來。那一旦到了那個(gè)階段,我們?cè)撛趺慈ニ伎歼@ 99.9% 成功率的問題呢?那肯定得是強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)相結(jié)合才行,這兩者并不是完全相互排斥的關(guān)系,關(guān)鍵是一定要和環(huán)境進(jìn)行交互,它是動(dòng)態(tài)變化的,而不是靜態(tài)的。 王建明:好的,謝謝羅博士。盧老師,您一直研究強(qiáng)化學(xué)習(xí),對(duì)于人形機(jī)器人的 RL,還有您剛才提及的引入物理交互和視覺交互的內(nèi)容,您可以詳細(xì)講講這套方法嗎?或者您認(rèn)為強(qiáng)化學(xué)習(xí)對(duì)人形機(jī)器人控制的可靠性方面,未來會(huì)以怎樣的速度迭代? 盧宗青:我先聊聊剛才提到的 Manipulation 方面的事。今年我們?cè)诓倏胤矫孀隽瞬簧俟ぷ鳎仁窃谀M器里用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。我發(fā)現(xiàn)只要把問題定義清晰了,強(qiáng)化學(xué)習(xí)是比較容易解決問題的,當(dāng)然這里指的是給手部添加觸覺信息的情況。 不過在模擬器里訓(xùn)練出的強(qiáng)化學(xué)習(xí)策略,解決不了實(shí)際問題。因?yàn)槲覀儼l(fā)現(xiàn)訓(xùn)練完后,模擬器里大多是基于點(diǎn)云的,但是很難泛化。真機(jī)采集的點(diǎn)云和模擬器里看到的點(diǎn)云完全不一樣,所以在我看來,Sim2Real 的 gap 比較難解決。 但是這項(xiàng)工作有個(gè)啟示,給我們傳遞了一個(gè)比較重要的信息:機(jī)器人要是具備觸覺信息,完成 Manipulation 任務(wù)就會(huì)更容易些。我覺得這也是個(gè)比較直觀的見解,畢竟盲人也能完成各種各樣的操控任務(wù)。 不過我認(rèn)為,對(duì)于 Manipulation 來說,就像剛才冠亞講的,這本身就是個(gè)大難題。其實(shí)對(duì)于某個(gè)特定的問題,不管是模擬器、Sim2Real,還是真機(jī)+RL,都能比較好地解決這個(gè)特定問題。最關(guān)鍵的是泛化問題,就是我要怎么得到一個(gè)策略,讓它可以完成各種各樣的操控任務(wù)呢?在我看來,這是非常難的。而且對(duì)于這個(gè)問題,目前來看,很難有數(shù)據(jù)來驅(qū)動(dòng)這樣一個(gè)模型的學(xué)習(xí),這是比較關(guān)鍵的點(diǎn)。 所以對(duì)于你剛才問到的人形機(jī)器人相關(guān)內(nèi)容,人形機(jī)器人有兩條胳膊、兩只手,我們解決相關(guān)問題采取兩步走的方式,因?yàn)槟壳拔覀儧]有從機(jī)器人端采集下來的數(shù)據(jù),或者說數(shù)據(jù)量沒那么多。我們前期會(huì)利用人的數(shù)據(jù)去生成人的姿態(tài),輸入是視覺信息,輸出就是姿態(tài)。我們把這一步稱作“預(yù)訓(xùn)練”,也就是用互聯(lián)網(wǎng)上大量但質(zhì)量不算高的數(shù)據(jù)去訓(xùn)練模型,使其輸出手部的姿態(tài)。然后再依據(jù)一些真機(jī)的數(shù)據(jù),比如遙操采集的數(shù)據(jù),去做后訓(xùn)練(Post training),以此來實(shí)現(xiàn)泛化性。 我覺得這是在剛才提到的四條技術(shù)路線之外,另外一條可行且值得嘗試的技術(shù)路線。這條路線主要聚焦在泛化性上,而不只是著眼于如何完成某個(gè) Manipulation 任務(wù)的思路。 王建明:您如何看待人形機(jī)器人達(dá)到 99% 以上可靠性這一問題?還有,它未來的發(fā)展路徑和周期是怎樣的? 盧宗青:我個(gè)人覺得,要是依靠模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這些方法,人形機(jī)器人不太可能達(dá)到 99% 以上的可靠性。就好比人去抓東西,可能抓一萬次也會(huì)有一次失誤。畢竟它不像工業(yè)機(jī)器人處于固定場景中,我希望看到的具身 AI 的應(yīng)用,肯定是在開放場景里的應(yīng)用。就像劍嵐剛才說的,不同場景下的產(chǎn)品有不一樣的需求,在有些情況下,可能百分之七八十的成功率就夠了。 另外,對(duì)于我們這套技術(shù)方案而言,RL 主要是為了執(zhí)行上層模塊給出的指令,不管是姿態(tài)(Pose)也好,普通指令也好,本質(zhì)上是用于控制電機(jī)之類的控制量。所以在我看來,它的完成度并非特別關(guān)鍵,反而更上層的高層次策略或者像姿態(tài)生成模型這類做法,怎樣達(dá)到較高可靠性才更重要。 下層的 RL 策略,即便去訓(xùn)練,也就是那樣一個(gè)結(jié)果,在最佳情況下,能找到一個(gè)最優(yōu)策略(Optimal policy),可它的上限是由給定的問題本身決定的。至于怎么去給出這個(gè)問題,可能是我們需要進(jìn)一步思考的地方。 王建明:關(guān)于可靠性,也想聽聽朱老師的想法。您如何看待目前四足機(jī)器人的可靠性?在為客戶部署機(jī)器人時(shí),傳統(tǒng)控制和強(qiáng)化學(xué)習(xí)哪個(gè)用得多?您之前也提到人形機(jī)器人 10 年前走出實(shí)驗(yàn)室很難,我們現(xiàn)在期望人形機(jī)器人能穩(wěn)定完成一些任務(wù)。 朱秋國:關(guān)于可靠性這個(gè)問題,從學(xué)術(shù)界角度看,很難將一種方法在實(shí)驗(yàn)中的可靠性(比如達(dá)到 99% 或者 90%)直接套用到產(chǎn)業(yè)產(chǎn)品中。我想其他老師也會(huì)認(rèn)同這一點(diǎn),因?yàn)閷?shí)驗(yàn)數(shù)據(jù)和實(shí)際應(yīng)用中的可靠性不太一樣。 就產(chǎn)品可靠性而言,我認(rèn)為可以分為幾個(gè)階段,其中包括我們內(nèi)部也在討論的機(jī)器人本身硬件的可靠性問題,我們經(jīng)常會(huì)提到一個(gè)“無故障運(yùn)行時(shí)間”的概念。 “無故障運(yùn)行時(shí)間”是評(píng)判機(jī)器人是否穩(wěn)定可靠的關(guān)鍵指標(biāo)。比如在電力巡檢場景中,客戶要求機(jī)器人在三個(gè)月內(nèi)不能出一次問題。 那如何評(píng)判機(jī)器人的穩(wěn)定可靠性呢?正如幾位老師所講,主要涉及幾個(gè)方面。一是硬件本身的問題,對(duì)于機(jī)器人而言,連接的部件、關(guān)節(jié)越多越復(fù)雜,出問題的概率就越大。所以要讓復(fù)雜的人形或四足機(jī)器狗在行業(yè)應(yīng)用中長久保持穩(wěn)定,就得提高硬件本身的可靠性。而在提高可靠性方面,首要解決的就是系統(tǒng)本身的可靠性問題,像機(jī)械結(jié)構(gòu)、電控系統(tǒng)以及底層軟件系統(tǒng)能否長期穩(wěn)定可靠,這是個(gè)很大的挑戰(zhàn)。 到了第二步,我們會(huì)更關(guān)注軟件算法層面的問題,比如基于傳統(tǒng)方法和基于模型的方法。從理論上講,只要代碼沒寫錯(cuò),基本不會(huì)出什么問題。但要是結(jié)合其他算法,比如在機(jī)器人完成自主導(dǎo)航時(shí),要讓它實(shí)現(xiàn)精準(zhǔn)定位,情況就不一樣了。 這里面就存在挑戰(zhàn),因?yàn)樗惴ū旧?/span>還要解決環(huán)境動(dòng)態(tài)變化,像隨季節(jié)改變等環(huán)境變化時(shí)的適應(yīng)性問題。所以,第二步可能要著重解決軟件算法層面對(duì)于可靠性的評(píng)估問題。由此可見,產(chǎn)業(yè)界做可靠性和之前講的情況不太一樣,這是我們目前遇到的主要問題。 另外,關(guān)于四足機(jī)器人用 RL 還是 Control 的問題,目前更多還是用 Control 方法來進(jìn)行實(shí)際運(yùn)行操作。不過,現(xiàn)在我們已經(jīng)開始逐漸嘗試,尤其是面對(duì) Locomotion 能力提升的情況,我們?cè)谙朕k法把 RL 方法結(jié)合進(jìn)來,不管是傳統(tǒng)的 SLAM 方法,還是新型的 Position+Navigation 這類方法,都在做相應(yīng)部署。到今年年底,我們會(huì)試著在相對(duì)固定的環(huán)境中,采用 RL 方法去適應(yīng)不同地形等應(yīng)用場景。 但我們面臨的一個(gè)關(guān)鍵挑戰(zhàn)是,在這種場景下,如果機(jī)器人出現(xiàn)翻倒或其他問題,那要如何確保機(jī)器人不去破壞原場景,不碰壞周邊的瓶瓶罐罐?我們考慮或許得引入 RL 或者一些規(guī)則進(jìn)去,這樣當(dāng)機(jī)器人出現(xiàn)上述狀況時(shí),就能保證它不會(huì)產(chǎn)生額外風(fēng)險(xiǎn),進(jìn)而確保機(jī)器人在場景應(yīng)用中的安全性。 從應(yīng)用角度看,四足機(jī)器人發(fā)展到現(xiàn)在已經(jīng)沒什么本質(zhì)問題了。就運(yùn)動(dòng)能力而言,雖說有時(shí)會(huì)展示一些極限運(yùn)動(dòng)能力,像從幾米高的地方跳下來還能保持穩(wěn)定,但從應(yīng)用層面來講,其實(shí)并不需要這么酷炫的動(dòng)作。所以在我看來,當(dāng)下四足機(jī)器人的 Locomotion 能力,已經(jīng)可以滿足很多場景下的運(yùn)動(dòng)需求了,這方面是沒問題的。 剛才盧老師說得很對(duì),人形機(jī)器人的關(guān)節(jié)復(fù)雜度更高,四足機(jī)器人就 12 個(gè)關(guān)節(jié),人形機(jī)器人卻有幾十個(gè)關(guān)節(jié)。在應(yīng)用過程中,如何保證其本身的穩(wěn)定性是個(gè)很大的挑戰(zhàn)。所以人形機(jī)器人確實(shí)還需要更長時(shí)間去發(fā)展。我跟很多人聊這個(gè)問題時(shí),大家常常迫切希望看到人形機(jī)器人能在現(xiàn)實(shí)生活中應(yīng)用起來,但我覺得這得循序漸進(jìn),得先看人形機(jī)器人適合在哪些場景中應(yīng)用。 比如現(xiàn)在把人形機(jī)器人提供給高校老師當(dāng)作課題科研平臺(tái),這是沒問題的。讓它站在咖啡機(jī)前給大家倒杯咖啡,或許也還行。但要是讓它走進(jìn)家庭、走向工業(yè)真正投入應(yīng)用,我覺得還有很長的路要走,這會(huì)是個(gè)不斷持續(xù)迭代的過程。不管是硬件層面,還是剛才提到的算法層面,特別是 Manipulation 層面,都得用更長遠(yuǎn)的眼光去看待人形機(jī)器人的應(yīng)用問題。 王建明:好的,謝謝朱老師。石老師如何看待當(dāng)下人形機(jī)器人在控制方面迭代的速度呢?我看你們有不少相關(guān)工作是關(guān)于 H2O、OmniH2O 方面,通過這些工作如何看待目前四足和人形機(jī)器人控制的可靠性問題? 石冠亞:我們做 Humanoid sim2real 相關(guān)工作大概有一年半了,MPC、RL 方面的工作也都做了,所以對(duì)人形機(jī)器人的可靠性挺有感觸的。 我很認(rèn)同朱老師剛才的觀點(diǎn),尤其是他對(duì)于當(dāng)下哪些任務(wù)能實(shí)現(xiàn)、哪些任務(wù)可能還得等很多年的判斷。我再補(bǔ)充幾點(diǎn):第一,Safe 和 RL 一樣,是個(gè)很寬泛的概念,不能一概而論,Safe 有多個(gè)維度。最底層的是硬件的可靠性、穩(wěn)定性,這非常重要。比如 Chris Atkeson 教授,他是電影《超能陸戰(zhàn)隊(duì)》里大白機(jī)器人原型的創(chuàng)作者,他認(rèn)為除非做成大白那種機(jī)器人,否則 Safe 是不可能實(shí)現(xiàn)的,意思就是要實(shí)現(xiàn)安全,得讓硬件本身就安全,無論怎么折騰都不會(huì)傷人,這和算法沒關(guān)系,更多是結(jié)構(gòu)、設(shè)計(jì)上怎么做到柔順性(Compliance)之類的。 第二,很多人也在討論,Safe 本身是一方面,另一方面是 Recover,也就是兜底。我覺得現(xiàn)在對(duì)很多機(jī)器人來說,Recover 可能比 Safe 本身還難。像波士頓動(dòng)力與現(xiàn)代的合作、Agility Robotics 的產(chǎn)品 Digit 與亞馬遜倉儲(chǔ)的合作,還有 Figure 與寶馬的合作,我覺得對(duì)它們而言,機(jī)器人摔倒這事的影響,遠(yuǎn)不如摔倒后爬不起來的影響大,它們目前的痛點(diǎn)就在沒有兜底,機(jī)器人摔倒后不容易爬起來。而四足機(jī)器人現(xiàn)在有相對(duì)成熟的方案,本身就很穩(wěn)定,即便有點(diǎn)趔趄甚至摔倒了,也能很快爬起來,人形機(jī)器人之前在兜底這塊就比較困難,這都是不同維度的情況。 另外,談 Safe 就跟談毒性不能拋開劑量一樣,拋開泛化性、成本談 Safe 也不合理,到底要達(dá)到百分之多少的安全程度呢?一方面得看任務(wù)是不是對(duì)安全性要求極高,比如 Space X 火箭回收的安全要求肯定和其他機(jī)器人不一樣。另一方面,泛化性也很重要,我很認(rèn)同朱老師的判斷,像一些簡單任務(wù),不需要很強(qiáng)的泛化性,比如在戶外走走,只做 Locomotion,或者重復(fù)性任務(wù),比如不停地給客人端咖啡,以現(xiàn)在的技術(shù)是比較有望打造出可靠系統(tǒng)的。 中間那層我稱之為面向企業(yè)(ToB)應(yīng)用,區(qū)別于面向消費(fèi)者(ToC),機(jī)器人在企業(yè)應(yīng)用中,像在工廠造車之類的場景,需要一定的泛化性,但又不需要特別強(qiáng)的泛化性。比如寶馬與 Figure 合作中,機(jī)器人只需不斷安裝電池,安裝電池雖有五個(gè)步驟,可能存在一些不確定性,但這些不確定性是可以控制住的。然后車型是有限的,比如裝寶馬的七八個(gè)車型,我覺得在短期未來,從安全性角度這是可以去追求的方向。 但要是問什么時(shí)候能把人形機(jī)器人放進(jìn)千家萬戶,讓它完成各種不同任務(wù),像掃地、看孩子、做飯,還要求達(dá)到 99.999% 的安全程度,我覺得目前技術(shù)還達(dá)不到,我們還有兩三個(gè)問題沒解決,哪怕是人可能也較難做到這點(diǎn)。 要是問我期望的技術(shù)路線,我不太相信 One Shot Safe,就是部署了就百分百安全。我覺得在現(xiàn)實(shí)世界中得有糾錯(cuò)機(jī)制,剛部署時(shí)可能還是會(huì)出些問題,這里我指的是在開放環(huán)境里機(jī)器人怎么實(shí)現(xiàn)安全,目前我們還沒找到解決方案。我暢想的解決方案是,一開始可能會(huì)有不安全的時(shí)候,或許可以加入人工干預(yù)環(huán)節(jié)(Human in the loop),比如讓人幫忙做些標(biāo)注等,然后它能漸近性地(asymptolical)越來越好,我覺得漸近性安全(Smtonically safe)是目前我們能期望的最好狀態(tài)了。 最后,Safe 還有另外一層含義,很多做安全性研究的人,是有比較特定的、可以驗(yàn)證的,類似創(chuàng)建規(guī)則那樣的安全概念,這種 Safe 我們現(xiàn)在是有工具去實(shí)現(xiàn)的,比如規(guī)定機(jī)器人不能撞到物體,這種情況下,像可達(dá)性(reachiability)等很多控制理論的工具就能拿來用了。 關(guān)于人形機(jī)器人的 Safe 問題,很多時(shí)候沒辦法給出一個(gè)明確的 Safe 定義。比如我們之前聊的很多 Manipulation 的例子,像開門,什么叫不安全的開門呢?可以列出一萬種不同的故障情況,所以我覺得這很難定義。 總結(jié)來說,首先硬件的安全很重要;其次,兜底恢復(fù)能力(Feel safe)很重要,有時(shí)候在很多場景里它比安全本身還關(guān)鍵;第三,談安全一定要結(jié)合場景對(duì)泛化性的需求程度。最后,我們課題組做的很多工作,包括很多控制器(Controller)相關(guān)工作,其實(shí)是針對(duì)比較特定的、可驗(yàn)證的、像創(chuàng)建規(guī)則里涉及的機(jī)器人碰撞這類安全問題,而很多操控方面的安全是沒辦法這么去定義的。 王建明:對(duì)于剛才探討的那些話題,各位老師看看還有沒有要補(bǔ)充的呢? 石冠亞:我能不能問其他老師幾個(gè)問題?機(jī)會(huì)難得。其實(shí)我有個(gè)思索已久的問題,我感覺現(xiàn)在 RL 算法本身的更新近乎停滯了。我想討論一下 RL 算法本身還有沒有創(chuàng)新空間?我一直覺得這些 RL 算法并不是專門為機(jī)器人設(shè)計(jì)的,它們太通用了。為什么 PPO 既可以用于語言模型的人類反饋強(qiáng)化學(xué)習(xí)(RHF),又能用于機(jī)器人學(xué)習(xí)呢?這本身不就有點(diǎn)奇怪嗎?包括對(duì)于學(xué)生而言,我們還要不要去做一些強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)研究,去找到一種特別適合機(jī)器人領(lǐng)域的 RL 算法呢? 盧宗青:我先來回答一下。就像冠亞剛才說的,目前在 RL 算法層面的研究確實(shí)不多,從 PPO 到 SAC 之后,沒有特別大的進(jìn)展。在我看來,RL 本質(zhì)上是一個(gè) MDP,我們思考的是用什么方法來解決這個(gè)數(shù)學(xué)問題,所以它本身就是比較通用的的數(shù)學(xué)方法表述(Math method formulation)。 從數(shù)學(xué)角度講,它是在實(shí)踐中比較好的解決算法。比如 PPO 在實(shí)踐中就是比較好的方法,實(shí)際上它是策略梯度(Policy grading)加上價(jià)值函數(shù)(Radio function)這樣一種演員 - 評(píng)論家(Atercritic)框架。 對(duì)于機(jī)器人來說,能不能設(shè)計(jì)出一個(gè)好的強(qiáng)化學(xué)習(xí)方法呢?我覺得可以從機(jī)器人學(xué)習(xí)的特性角度出發(fā)來進(jìn)行設(shè)計(jì)。我個(gè)人認(rèn)為是可行的。因?yàn)闄C(jī)器人的一些約束條件(Constrain)和我們通常研究算法、做實(shí)驗(yàn)時(shí)的約束條件是不同的。如果把這些約束條件考慮到算法設(shè)計(jì)中,肯定會(huì)產(chǎn)生一些差異。就像劍嵐做的 Real world 的強(qiáng)化學(xué)習(xí),和已有的方法肯定不一樣,它結(jié)合了離線(Offline)和在線(Online)的方法來做機(jī)器人學(xué)習(xí)。 總的來說,從強(qiáng)化學(xué)習(xí)算法角度,要得到一個(gè)特別好的通用算法是比較難的。但對(duì)于機(jī)器人學(xué)習(xí)而言,我們能否更好地定制一個(gè)針對(duì)機(jī)器人學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法,我覺得還有很多可以探索的空間。 羅劍嵐:我談?wù)勛约旱睦斫狻?017、2018 年的時(shí)候我就覺得別去搞 MuJoCo,因?yàn)闆]有解決實(shí)際問題。我們當(dāng)時(shí)的問題就是為什么在 PPO 和 SAC 之后,沒有新的算法出來?或許得看看 PPO 和 SAC 是怎么被發(fā)明出來的。當(dāng)時(shí)它們是為了解決一些根本性問題,像在 MuJoCo 里小人跑不起來、Humanoid 站不起來這類問題,等這些問題解決了,MuJoCo 基準(zhǔn)測試(Benchmark)被攻克了,自然就沒新算法出現(xiàn)了。 所以我更多地在想,要是再有進(jìn)展,一定要從根本上想清楚我們要解決的核心問題是什么。要是真有下一輪強(qiáng)化學(xué)習(xí)基準(zhǔn)測試的突破、面臨重大挑戰(zhàn)時(shí),得先想好要解決什么樣的大問題,別重蹈覆轍。 具體到這個(gè)問題上,RL的下一個(gè)前沿方向在哪?分開來講,對(duì)于 Locomotion 和 Manipulation,我覺得朱老師總結(jié)得很好,Locomotion 應(yīng)該用 Control,Control 肯定是個(gè)解決方案。原因很簡單,不管是 Locomotion 還是別的情況,都是有模型的,沒模型機(jī)器人根本造不出來,既然有模型,那就得用 Model-based control,而且確切知道模型是什么后,要思考如何與 RL 較好地結(jié)合起來。具體來說,得考慮一些特定指標(biāo)(Specific metrics),要是有模擬器,可能就不太需要考慮樣本效率了,英偉達(dá)想賣顯卡,估計(jì)也不會(huì)太考慮這個(gè)。 那比如要考慮性能(Performance)、安全性(Safety)等方面,思考它們?cè)鯓痈玫赜袡C(jī)結(jié)合,我覺得這是個(gè)挺有意思的待解決問題。據(jù)我所知,現(xiàn)在就算是像 PPO 里“Teacher Student”模式,Sim2Real GAP 還是存在。要是真用控制的話,在處理物理模擬、進(jìn)行下一步模擬事件等涉及樣本物理、控制移動(dòng)、物理移動(dòng)等情況時(shí),怎么用好這套機(jī)制來做自己想做的事 ? Manipulation 和 Locomotion 相比,現(xiàn)在零次學(xué)習(xí)(Zero)的訓(xùn)練時(shí)間要一到兩個(gè)小時(shí),我覺得還能進(jìn)一步縮短。要是想縮短的話,就得思考怎么構(gòu)建一些基于視覺的通用能力,這可能就得回頭想想怎么構(gòu)建數(shù)據(jù)集、怎么構(gòu)建任務(wù)以及怎么運(yùn)用強(qiáng)化學(xué)習(xí)了。 再往遠(yuǎn)一點(diǎn)說,可能五年后會(huì)有 100 萬臺(tái)機(jī)器人部署在現(xiàn)實(shí)世界,不斷傳回大量數(shù)據(jù),而那些數(shù)據(jù)都是異構(gòu)的、隱藏的、廣泛的,那我們?cè)撛趺醋鲱A(yù)訓(xùn)練呢?因?yàn)閺?qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練和行為克隆的預(yù)訓(xùn)練不一樣,這也是為什么 BC+RL 看起來沒太大區(qū)別,它們的訓(xùn)練目標(biāo)不一樣,一個(gè)是最大化數(shù)據(jù)集的對(duì)數(shù)似然(Maximize dataset log likeable),另一個(gè)是最大化價(jià)值函數(shù)(Maximize value function),所以實(shí)際上是超越數(shù)據(jù)集去發(fā)現(xiàn)新東西。 我們要怎么進(jìn)行預(yù)訓(xùn)練呢?能不能模擬物理情況,利用 Meta 幫忙驗(yàn)證算法基準(zhǔn)(Benchmark),搞出更具擴(kuò)展性(scalable)的強(qiáng)化學(xué)習(xí)呢?在存在大量異構(gòu)數(shù)據(jù)的這種情況下,要如何進(jìn)行預(yù)訓(xùn)練(Pre training),并且實(shí)現(xiàn)快速應(yīng)用(fast application)呢?我說的可是在真正大規(guī)模(massive scale)的情形下,這或許會(huì)是一個(gè)比較關(guān)鍵的重點(diǎn)所在。 我覺得在我個(gè)人未來五年的研究計(jì)劃里肯定得有這一項(xiàng)內(nèi)容。但為了做這件事,不可能說在開源算法開發(fā)的時(shí)候,真的把每個(gè)算法都放到 1 萬臺(tái)機(jī)器人上去測試,那樣成本太高,對(duì)實(shí)際情況也會(huì)造成不小的影響。 總結(jié)一下,為什么 PPO、SAC 之后沒什么新算法出現(xiàn),就是因?yàn)樗鼈儼旬?dāng)時(shí)要解決的問題處理得很好了,我們現(xiàn)在需要新問題。我確實(shí)覺得,強(qiáng)化學(xué)習(xí)原則上提供了一種算法框架,如果它從根本上來說沒問題、是合理可靠的,那不能因?yàn)楝F(xiàn)在有一些困難、存在局限性,就徹底放棄它,我們應(yīng)該讓它逐步變得更好,這樣才能朝著更高更好的目標(biāo)邁進(jìn)。因?yàn)樗还馐歉嬖V你怎么復(fù)制、怎么預(yù)測、怎么從數(shù)據(jù)里找特征,要是想達(dá)到很高的優(yōu)化程度,比如 99.99%、100%,光有數(shù)據(jù)不行,還得有優(yōu)化,這是很關(guān)鍵的,所以未來的解決方案里肯定得有優(yōu)化這一環(huán)節(jié)。 |
|