萬字長文珍藏版：RL Control 如何將機(jī)器人可靠性逼進(jìn) 99.9%？丨 GAIR Live

天承辦公室 2024-12-14

展開全文

真實(shí)世界，才是檢驗(yàn)機(jī)器人 Learning 有效性的終極考場。

整理丨吳華秀

編輯丨陳彩嫻

穩(wěn)定性是制約人形機(jī)器人落地的重要因素之一，如何利用強(qiáng)化學(xué)習(xí)（RL）與基于模型的控制（MBC）來進(jìn)一步提高機(jī)器人的穩(wěn)定性，已成當(dāng)下業(yè)界的重要研究方向。

2024 年 12 月 8 日，雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌聯(lián)合石麻筆記一起舉辦了一場主題為“RL+Control：將機(jī)器人可靠性逼近99.9x%”的線上圓桌沙龍。

圓桌主持人為石麻筆記主理人、英諾天使投資人王建明，并邀請(qǐng)了浙江大學(xué)副教授與云深處創(chuàng)始人朱秋國、北京大學(xué)長聘副教授盧宗青、卡內(nèi)基梅隆大學(xué)（CMU）石冠亞與加州大學(xué)伯克利分校博士后羅劍嵐一起進(jìn)行了一場深度的討論。

會(huì)上，四位嘉賓圍繞 RL、Control 和機(jī)器人可靠性之間的關(guān)系分別提出了自己的獨(dú)到見解，其中：

石冠亞認(rèn)為，可靠性包含多個(gè)維度：底層硬件的穩(wěn)定性、兜底恢復(fù)（Recover）能力，而且可靠性不能一概而論，需要結(jié)合場景對(duì)泛化性的需求程度。當(dāng)下，將強(qiáng)化學(xué)習(xí)與控制相結(jié)合，例如把控制的安全性融入強(qiáng)化學(xué)習(xí)中，或者借助控制良好的結(jié)構(gòu)使強(qiáng)化學(xué)習(xí)變得更具穩(wěn)健性，是提高機(jī)器人穩(wěn)定性的可行路徑。

朱秋國則表示，學(xué)界的可靠性和產(chǎn)業(yè)界的可靠性并不完全相同，很難將一種方法在實(shí)驗(yàn)中的可靠性（比如達(dá)到99%或者90%）直接套用到產(chǎn)業(yè)產(chǎn)品中。機(jī)器人作為產(chǎn)品形式出現(xiàn)，必然要解決硬件和軟件融合之后的可靠性。他認(rèn)為，RL 在控制領(lǐng)域里有點(diǎn)類似鎮(zhèn)定器，在與環(huán)境交互接觸的過程中，依靠強(qiáng)化學(xué)習(xí)的模型，能夠確保機(jī)器人穩(wěn)定可靠。但這并不意味著基于模型的方法就失效了，模型預(yù)測控制（MPC）與強(qiáng)化學(xué)習(xí)相結(jié)合也是當(dāng)前的另一種趨勢。

羅劍嵐指出，機(jī)器人要想真正發(fā)揮作用，成功率實(shí)際上要達(dá)到 100%，因?yàn)槊恳淮纬霈F(xiàn)故障、失敗都有成本，會(huì)直接導(dǎo)致收益減少。要達(dá)到這個(gè)目的（100%），需要將強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)結(jié)合起來，并與環(huán)境進(jìn)行交互，在動(dòng)態(tài)的過程中去實(shí)現(xiàn)可靠性。

盧宗青認(rèn)為，在現(xiàn)實(shí)世界里，要實(shí)現(xiàn)高性能的操作并達(dá)到高可靠性（100%），一定要與環(huán)境進(jìn)行交互，而要實(shí)現(xiàn)與環(huán)境交互，就必須得運(yùn)用強(qiáng)化學(xué)習(xí)（RL）；而依靠模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這些控制方法，人形機(jī)器人不太可能達(dá)到99%以上的可靠性。從場景需求出發(fā)，許多任務(wù)并不需要100%的成功率，而是滿足設(shè)定的目標(biāo)值即可。

除此之外，四位嘉賓圍繞機(jī)器人的移動(dòng)（Locomotion）、操作（Manipulation）以及未來 RL 的創(chuàng)新方向等話題展開了精彩分享。以下 AI 科技評(píng)論進(jìn)行了不改原意的整理:

“機(jī)器人是一個(gè)很棒的平臺(tái)”

王建明：先請(qǐng)嘉賓們做一個(gè)自我介紹，從羅博士開始吧。

羅劍嵐：大家好，我是羅劍嵐。我目前在伯克利人工智能研究實(shí)驗(yàn)室（BAIR）擔(dān)任博士后研究員。我曾在伯克利獲得博士學(xué)位，并在谷歌工作了兩三年，后來又回到伯克利。自 2015、2016 年起，我開始涉足機(jī)器人學(xué)習(xí)領(lǐng)域，當(dāng)時(shí)這一領(lǐng)域還未被稱為“具身智能”，我的研究重點(diǎn)集中在機(jī)器人操作技術(shù)。

石冠亞：大家好，我是 2023 年入職 CMU 機(jī)器人研究所的助理教授，資歷尚淺。我的博士畢業(yè)于加州理工學(xué)院控制系，該系云集了 Richard M. Murray、John Doyle 等控制領(lǐng)域的大佬。我從 2017 年開始研究 Control+Learning，當(dāng)時(shí)很多控制領(lǐng)域的人都在考慮加入 Learning 元素，到目前為止我在 RL+Control 這個(gè)方向的研究已有七八年了。

博士畢業(yè)后，我在華盛頓大學(xué)做博士后，師從 Byron Boots，開展了大量機(jī)器人學(xué)習(xí)方面的工作。讀博士之前，我在清華念本科。我對(duì)今天的主題極為感興趣，我思考這個(gè)問題差不多有十年了，從本科時(shí)就開始琢磨，所以特別高興能和大家探討，可能等會(huì)我會(huì)有很多暴論（笑）。

盧宗青：大家好。我來自北大計(jì)算機(jī)學(xué)院，主要做強(qiáng)化學(xué)習(xí)算法研究。我 2017 年回國后便一直鉆研強(qiáng)化學(xué)習(xí)算法。近期也涉足機(jī)器人相關(guān)工作，并且在跟進(jìn)大模型研究，重點(diǎn)關(guān)注視覺標(biāo)記化（Vision Tokenizer）以及交互學(xué)習(xí)的相關(guān)內(nèi)容。

朱秋國：大家好，我是浙江大學(xué)控制學(xué)院副教授兼云深處科技創(chuàng)始人。我一直專注于人形機(jī)器人與四足機(jī)器人研究。早期運(yùn)用傳統(tǒng)控制理論方法，2019 年起便與國外學(xué)者合作開展 RL 相關(guān)研究，主要帶領(lǐng)課題組研究生開展這方面的研究工作。

王建明：感謝老師們的自我介紹。今天的討論主題是“RL + Control”。作為熱身，咱們先簡單聊聊。很多人覺得 AI 和機(jī)器人結(jié)合是當(dāng)下最大的機(jī)遇和浪潮，各位老師在浪潮來臨前的十年甚至更久就在這個(gè)領(lǐng)域深耕了。能不能講講當(dāng)初為什么選這個(gè)方向？現(xiàn)在風(fēng)口來了，又有什么感受？

石冠亞：我覺得機(jī)器人和其他領(lǐng)域有個(gè)很大的不同之處，就是它屬于系統(tǒng)性工程，由很多模塊組成，像大腦、小腦、肌肉這些。大腦對(duì)應(yīng)的是一些高層次算法，小腦則是全身控制算法，還包括硬件等方面。

以前我跟著導(dǎo)師讀博時(shí)，有位叫 Joel W. Burdick 的老師，他在機(jī)器人領(lǐng)域造詣很深，可能都做了50年了。他常跟我說他的機(jī)器人波浪（Wave）理論，意思是每次機(jī)器人領(lǐng)域成為風(fēng)口時(shí)，就會(huì)有很多浪潮往前推進(jìn)，雖說沒辦法達(dá)到通用人工智能（AGI）的程度，但總會(huì)留下些成果，而這些成果對(duì)機(jī)器人領(lǐng)域來說是很大的貢獻(xiàn)，等到下一波浪潮來臨時(shí)，又會(huì)基于之前留下的成果再掀起新的浪潮。我對(duì)這個(gè)觀點(diǎn)挺認(rèn)同的。

回到王老師提的問題，我為什么喜歡機(jī)器人、為什么做機(jī)器人做了這么多年。我覺得機(jī)器人就是個(gè)載體，你想做的任何研究都可以通過它來開展。舉個(gè)例子，要是你想挑戰(zhàn)極限，去做個(gè)跑步機(jī)器人，那完全沒問題，又或者你從材料科學(xué)角度去組裝一個(gè)機(jī)器人也行，還可以專注做算法。總之，我認(rèn)為它是個(gè)很棒的平臺(tái)，能讓我們?nèi)プ龊芏嘞胱龅难芯俊?/span>

有沒有和別人意見相左、堅(jiān)持不下去的時(shí)候？對(duì)我而言，最大的不同可能就是我一直挺堅(jiān)持端到端學(xué)習(xí)算法，或許這與當(dāng)下很多人的觀念不太一樣，但我覺得它并非非主流觀點(diǎn)。很多人都覺得我們這個(gè)領(lǐng)域最大的爭議是：“是不是 Data is all you need？”實(shí)際上，去年針對(duì)這一話題有過一場討論，會(huì)后現(xiàn)場投票的結(jié)果是 50：50，所以我也不能說這是個(gè)非主流觀點(diǎn)。

我其實(shí)一直挺堅(jiān)持我們要在獎(jiǎng)勵(lì)機(jī)制里做一些學(xué)習(xí)（Learning），并且要有一些真實(shí)的數(shù)據(jù)、一些結(jié)構(gòu)（Structure）。我覺得這算不上冷門觀點(diǎn)，但它確實(shí)是我的一個(gè)看法。

王建明：朱老師您也一直在這一領(lǐng)域里耕耘了至少 15 年，從最開始的雙足人形機(jī)器人，到后面的四足機(jī)器人，您可以分享下這一路以來的感受嗎？

朱秋國：我長期從事人形機(jī)器人相關(guān)研究工作，四足機(jī)器人是跟人形機(jī)器人并行的一個(gè)方向。因?yàn)樵缭谧铋_始的時(shí)候，我們還和清華一起參加了 ROBOCUP 人形機(jī)器人比賽，當(dāng)時(shí)就有一個(gè)預(yù)言，說到 2050 年時(shí)，要組建一支人形機(jī)器人隊(duì)伍，最終能夠打敗人類足球隊(duì)。可以想象一下，這中間的時(shí)間跨度非常大。

對(duì)于我們從事控制領(lǐng)域工作的人來說，人形機(jī)器人本身就是一個(gè)很棒的研究平臺(tái)。機(jī)器人缺乏穩(wěn)定性，如何控制它們是一個(gè)挑戰(zhàn)，沒有現(xiàn)成的理論或穩(wěn)定性標(biāo)準(zhǔn)。我們的目標(biāo)是讓機(jī)器人走出實(shí)驗(yàn)室，適應(yīng)真實(shí)世界的復(fù)雜環(huán)境，然后考慮如何實(shí)現(xiàn)實(shí)際應(yīng)用。

對(duì)我個(gè)人而言，首先要熱愛機(jī)器人，其次，在實(shí)現(xiàn)最終應(yīng)用的過程中，需要經(jīng)歷不同階段，包括理論的升級(jí)和機(jī)器人性能的提升。2010 年之前，我們實(shí)驗(yàn)室導(dǎo)師就提出要求，能不能讓機(jī)器人走到室外，比如到實(shí)驗(yàn)室外的坡上、操場上走走。現(xiàn)在看來輕而易舉的事，在那時(shí)卻難如登天。光是邁出這一步，我發(fā)現(xiàn)都花了近十年時(shí)間。所以機(jī)器人本身就是個(gè)需要長期堅(jiān)持的賽道或方向，要么放棄，要么長期堅(jiān)守。

羅劍嵐：實(shí)際上，我最初在伯克利從事控制領(lǐng)域的研究時(shí)，開始接觸機(jī)器人學(xué)（Robotics）。當(dāng)時(shí)我參與的第一個(gè)項(xiàng)目是操作（Manipulation）任務(wù)。在傳統(tǒng)的控制方法中，需要采用分離原理（Separation principle），也就是將狀態(tài)估計(jì)（State estimation）和控制（Control）分開。然而，很多操作問題中，狀態(tài)估計(jì)并不是容易實(shí)現(xiàn)的。正因如此，這種控制方法在一些復(fù)雜場景下遇到了很大的挑戰(zhàn)。

后來，我看到了伯克利在2015年發(fā)表的端到端（End-to-end）方法相關(guān)論文《Guide Policy Search》。這篇文章讓我眼前一亮，因?yàn)樗摿藗鹘y(tǒng)分離控制的框架，為操作任務(wù)提供了一種全新的思路。通過端到端的學(xué)習(xí)方法，直接從感知到控制進(jìn)行優(yōu)化，繞過了對(duì)狀態(tài)精確估計(jì)的依賴。

盡管操作任務(wù)至今仍然是一個(gè)巨大的挑戰(zhàn)，很多問題還沒有被完全解決，但端到端的學(xué)習(xí)方法以其廣泛的適用性和潛力，正在成為解決實(shí)際操作問題的重要方向。

盧宗青：我先講講我的歷程。我和其他三位老師不太一樣的地方在于，我本身是做強(qiáng)化學(xué)習(xí)算法的，所以此前大部分工作都停留在做強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)上，主要涉及兩塊，一個(gè)是 MuJoCo（通用物理引擎），另一個(gè)是游戲。實(shí)際上，我們之前主要聚焦在游戲這方面。

不過在大模型出現(xiàn)后，我們做了很多嘗試，就是把強(qiáng)化學(xué)習(xí)和大模型結(jié)合起來開展工作。去年也做了諸多嘗試，包括通用計(jì)算機(jī)的控制等一系列工作。我們期望能打造出一個(gè)通用智能體（Agent），讓它能夠控制并完成電腦上各種各樣的任務(wù)，但是后來發(fā)現(xiàn)，尤其是在大模型方面，目前還很難做到這一點(diǎn)。

所以，我覺得即便有了大模型，它也需要與真實(shí)環(huán)境進(jìn)行交互，基于這樣獲取到的數(shù)據(jù)去更好地學(xué)習(xí)。我跟劍嵐剛才表達(dá)的意思相近，就是確實(shí)需要與物理環(huán)境交互，基于與物理環(huán)境交互得來的數(shù)據(jù)去學(xué)習(xí)，或許才能催生更具通用性的智能。

而說到與物理世界交互的載體，自然就是機(jī)器人了。因此，從今年開始，我們會(huì)把更多精力放在機(jī)器人方面，涵蓋 Locomotion、Manipulation，以及思考在真實(shí)數(shù)據(jù)的基礎(chǔ)上如何更好地學(xué)習(xí)大模型，特別是針對(duì)視覺這塊，畢竟就目前的大模型而言，其對(duì)視覺的理解還比較薄弱。所以，怎樣通過視覺也好，觸覺也好，去更好地理解物理世界，是我們當(dāng)下所關(guān)注的重點(diǎn)。

RL+Control 之于 Locomotion

王建明：接下來探討一些更具體的問題，咱們先聊聊 RL 和 Control 在機(jī)器人移動(dòng)能力（Locomotion）上的情況。

當(dāng) RL 和 Control 應(yīng)用于 Locomotion 這一領(lǐng)域，其實(shí)很多時(shí)候二者是分開工作的。比如，有些老師一開始是運(yùn)用基于模型的控制（MBC）方法來處理 Locomotion。而現(xiàn)在，很多強(qiáng)化學(xué)習(xí)的應(yīng)用是先在仿真環(huán)境里進(jìn)行，然后再通過 Sim2Real 的思路去解決機(jī)器人移動(dòng)的相關(guān)問題。

石老師，我前段時(shí)間看了您在 YouTube 上的一個(gè)視頻，是介紹 RL 和 Control 相結(jié)合的內(nèi)容，像在四足機(jī)器人、人形機(jī)器人等方面都能結(jié)合。您還提到了 Leaning dynamics from real world 等概念，您可以系統(tǒng)地講講過去十年您是怎么把 RL 和 Control 結(jié)合起來的嗎？

石冠亞：這個(gè)問題有些大，我先從一個(gè)小角度來切入吧。首先表明我的第一個(gè)觀點(diǎn)，算是個(gè)“暴論”吧。我覺得 RL 以及 Control 本身都算不上是一種方法，而應(yīng)該是一個(gè)問題。

我覺得強(qiáng)化學(xué)習(xí)的定義就是有一個(gè)馬爾可夫決策過程（MDP），包含獎(jiǎng)勵(lì)（Reward）和系統(tǒng)動(dòng)態(tài)特性（Dynamics），目標(biāo)是優(yōu)化獎(jiǎng)勵(lì)，找到策略用于控制，這和 Control 本質(zhì)上是一回事。其定義就是面對(duì)動(dòng)態(tài)系統(tǒng)去設(shè)計(jì)策略以滿足一些限制，不能因?yàn)?Richard Belle man 提出“S、A、R、S” 這套表述就說它們不同。

因?yàn)樗鼈儽举|(zhì)是問題，所以有很多算法，像 RL 就很豐富多樣。比如 Sim2Real RL 就是很具體的方法，我可以在像MuJoCo、SR 游戲這類做 Locomotion 的主流仿真器里，用近端策略優(yōu)化算法（PPO）訓(xùn)練策略，再應(yīng)用到現(xiàn)實(shí)世界中，這跟劍嵐做的很多真機(jī)+ RL 完全不同，我覺得它們的差別比 RL 與 Control 的差別還大。

我的觀點(diǎn)是，它們是兩個(gè)不同的問題，得更具體地去探討。就拿強(qiáng)化學(xué)習(xí)來說，我們得明確具體討論的是哪種類型的強(qiáng)化學(xué)習(xí)。比如是 “仿真到現(xiàn)實(shí)的無模型強(qiáng)化學(xué)習(xí)（Sim2Real Model - Free Reinforcement Learning）” 呢，還是當(dāng)下很熱門的 “學(xué)習(xí)世界模型（Learning word model）”、也就是基于模型的強(qiáng)化學(xué)習(xí)（Model-based reinforcement learning），亦或是在真實(shí)世界里開展的無模型強(qiáng)化學(xué)習(xí)呢？像劍嵐近期就有不少很棒的相關(guān)工作。

我覺得這些不同類型的強(qiáng)化學(xué)習(xí)其實(shí)差別挺大的。另外，還有離線強(qiáng)化學(xué)習(xí)（Offline reinforcement learning），有很多演示數(shù)據(jù)（Demonstration）的時(shí)候，不光能做模仿學(xué)習(xí)，還可以進(jìn)行離線強(qiáng)化學(xué)習(xí)。我覺得它們之間的差別甚至比強(qiáng)化學(xué)習(xí)（RL）內(nèi)部不同類型之間的差別還要大，這是我的第一個(gè)觀點(diǎn)，第一個(gè)暴論。

第二點(diǎn)，說到 Locomotion，目前在這方面最流行的 RL 方法就是仿真到現(xiàn)實(shí)強(qiáng)化學(xué)習(xí)（Sim2Real RL），就是先在虛擬仿真（Simulated）環(huán)境里，運(yùn)用近端策略優(yōu)化算法（PPO）或者其他類似的算法去訓(xùn)練出一個(gè)策略，之后再把這個(gè)策略部署到現(xiàn)實(shí)世界當(dāng)中去。

我的第二個(gè)“暴論”就是，我認(rèn)為 Sim2Real RL 是一種基于模型的方法。你想想它的操作流程就能明白，首先得有一個(gè)你比較信賴的模型，比如仿真器（Simulator），然后在這個(gè)仿真器里訓(xùn)練出一個(gè)策略（Policy），之后再把這個(gè)策略部署到現(xiàn)實(shí)（Real world）當(dāng)中。

不過我覺得它和 MBC 在兩個(gè)維度上是不一樣的，那它的優(yōu)勢在哪？在我看來，Sim2Real RL 最大的優(yōu)勢，在于其離線計(jì)算能力近乎無窮。也就是說，它可以離線從成百上千乃至上萬條軌跡（Trajectory）當(dāng)中去學(xué)習(xí)策略，有充足的時(shí)間去進(jìn)行優(yōu)化，從而找到合適的策略。像 MPC 這類大多數(shù)基于模型的控制方法，其實(shí)它們所有的算力運(yùn)用都是在線上的。就是說，我得在線去確定機(jī)器人下一步往哪兒走，它并沒有離線的算力。

所以我覺得這就是 Sim2Real RL 和 MBC 在算力運(yùn)用方面第一個(gè)主要的不同點(diǎn)，也就是算力到底是用在離線階段（Offline）還是在線階段（Online）。“離線”的定義，就是在機(jī)器人開始運(yùn)行之前進(jìn)行相關(guān)運(yùn)算；而“在線”就是機(jī)器人一邊運(yùn)行，一邊去計(jì)算相應(yīng)的內(nèi)容。

然后第二個(gè)我覺得 Sim2Real RL 相對(duì) MBC 最大的優(yōu)勢在于，它在一定程度上繞開了狀態(tài)估計(jì)（State estimation）的問題。在傳統(tǒng)的控制里，我們一般遵循分離原則（Separate principle），比如說要用模型預(yù)測控制（MPC）去控制一個(gè)人形機(jī)器人，在這之前，大概率得先搞一個(gè)狀態(tài)估計(jì)器（State estimator），去估計(jì)機(jī)器人自身的速度、角速度等物理量。

從某種程度上，在傳統(tǒng)控制里，狀態(tài)估計(jì)（Estimation）其實(shí)和 Control 一樣，都是要面對(duì)的問題。說到底，你得清楚機(jī)器人所處的狀態(tài)、得知道機(jī)器人此時(shí)此刻在什么位置。我覺得在現(xiàn)實(shí)世界里，狀態(tài)估計(jì)（Estimation）其實(shí)和控制一樣，都是要面對(duì)的問題，說到底就是得知道機(jī)器人的狀態(tài)，清楚它此刻所在位置。而強(qiáng)化學(xué)習(xí)（RL）在一定程度上能繞開這個(gè)問題，因?yàn)樗梢酝瑫r(shí)學(xué)習(xí)策略（Policy）和狀態(tài)估計(jì)器（State estimator）。

拿目前在 Locomotion 方面最成功、最流行的邏輯來說，師生網(wǎng)絡(luò)學(xué)習(xí)（Teacher Student Learning）。自 2020 年 Science Robotics 發(fā)布論文“Learning quadrupedal locomotion over challenging terrain（在具有挑戰(zhàn)性的地形上學(xué)習(xí)四足移動(dòng)）”之后，大概有幾千篇文章都遵循這個(gè)邏輯，一直到現(xiàn)在，差不多5年時(shí)間把師生網(wǎng)絡(luò)學(xué)習(xí)推到了頂峰。

師生網(wǎng)絡(luò)學(xué)習(xí)是什么意思？就是先在仿真環(huán)境（Simulator）里訓(xùn)練出一個(gè)所謂的“教師策略（Teacher Policy）”，這個(gè)“教師策略”知曉一切，比如它知道仿真器里的所有信息，像地面的各種情況、機(jī)器人的速度等等，這些我們稱之為特權(quán)狀態(tài)（Privilege state）。然后，這個(gè)“教師策略”（Policy）是沒辦法直接部署到真機(jī)上的，因?yàn)樵诂F(xiàn)實(shí)中，你沒辦法知曉地面情況，也不清楚機(jī)器人的絕對(duì)速度等信息。不過在 RL 里，利用這個(gè)“教師策略”后，可以將它提煉到一個(gè)叫“學(xué)生策略”（Student policy）的東西里，這個(gè)“學(xué)生策略”的輸入是你所能觀測到信息的歷史記錄，也就是“過去 n 步”的相關(guān)情況。目前這套方法已經(jīng)很成熟了。

我覺得，就是因?yàn)橛羞@種師生學(xué)習(xí)框架，所以繞開了狀態(tài)估計(jì)（State estimation）這個(gè)問題。相當(dāng)于在實(shí)際應(yīng)用中，你不需要獲取真實(shí)的狀態(tài)，可以直接利用感知信息的歷史記錄就可以進(jìn)行控制操作了。我覺得這兩點(diǎn)就是強(qiáng)化學(xué)習(xí)（RL）最大的優(yōu)勢。

而對(duì)于 Control，我認(rèn)為它也有兩大優(yōu)勢。第一點(diǎn)是跟 RL 剛好完全相反。首先，Control 具備在線計(jì)算能力。Sim2Real RL 存在的問題是，你在仿真環(huán)境里訓(xùn)練出一個(gè)策略后，一旦應(yīng)用到線上，這個(gè)策略就固定住了。哪怕這個(gè)策略效果很差、很不理想，你也沒辦法去實(shí)時(shí)調(diào)整它，除非你再去做真實(shí)世界的 RL，而且基本上都會(huì)受到 Sim2Real GAP 的影響。如果仿真器質(zhì)量很差的話，那產(chǎn)生的誤差就會(huì)很大。但 Control 有個(gè)很重要的思路，就是可以進(jìn)行類似 MPC 那樣的操作，能夠一邊讓機(jī)器人運(yùn)行，一邊進(jìn)行相應(yīng)的計(jì)算。

Control 的第二個(gè)的優(yōu)勢就是它具備很多很不錯(cuò)的結(jié)構(gòu)?，F(xiàn)在大部分流行的 RL 算法，其實(shí)就是近端策略優(yōu)化算法（PPO），大家都用它，因?yàn)樗峭呗裕∣npolicy）的，大家也不太在意采樣效率。它最終呈現(xiàn)出來的性能表現(xiàn)還算比較好，而且操作起來也相對(duì)簡單，不過它本身并沒有什么特定的結(jié)構(gòu)，這就導(dǎo)致有時(shí)候它會(huì)收斂到一些我們不想要的狀態(tài)，比如一些很奇怪的狀態(tài)。但控制就不一樣了，它有很好的結(jié)構(gòu)，能夠借此提高采樣效率，這就是它的一個(gè)優(yōu)勢所在。

我很多研究的核心思路，就是嘗試將 RL 與 Control 相結(jié)合，例如把 Control 的安全性融入 RL 中，或者借助 Control 良好的結(jié)構(gòu)使強(qiáng)化學(xué)習(xí)變得更具穩(wěn)健性。最后，我和前面三位老師有一個(gè)共識(shí)，最有效的學(xué)習(xí)方式最終還是要落實(shí)在真實(shí)世界當(dāng)中去開展和驗(yàn)證。

我對(duì)于當(dāng)前仿真（Simulation）方面的進(jìn)展并不是特別樂觀，因?yàn)槲沂冀K覺得，開發(fā)出一個(gè)非常完美的仿真器本身就是極為困難的一件事。我們不能期望能有達(dá)到通用人工智能（AGI）水平的仿真器出現(xiàn)，然后憑借它去解決所有問題。所以，一定要以某種方式，在真實(shí)世界里去做學(xué)習(xí)（Learning）才行，只不過我所采取的角度是將 RL 和 Control 相結(jié)合去做真實(shí)世界里的學(xué)習(xí)。

王建明：謝謝石老師。我覺得您可以推薦一些您在 RL 和 Control 結(jié)合方面的工作，可以讓同學(xué)們參考學(xué)習(xí)一下。

石冠亞：好的，我分享幾個(gè)相關(guān)內(nèi)容吧。

第一個(gè)，我做過很多人形機(jī)器人相關(guān)的工作，其中有一套邏輯是我個(gè)人特別喜歡的，那就是別讓 RL 直接進(jìn)行一對(duì)一（n to n）的輸入輸出操作。我覺得當(dāng)下有不少論文，就是用 RL 去輸出比較高層的信息，打個(gè)比方，要是去控制一個(gè)人形機(jī)器人，為什么非得讓強(qiáng)化學(xué)習(xí)（RL）去輸出每個(gè)電機(jī)的扭矩呢？其實(shí)可以讓它輸出一些更高層的信息，比如可以讓它輸出速度、加速度等信息。我覺得這是個(gè)挺有意思的方向，我有不少相關(guān)論文，大家可以搜一下“CAjun”就能找到，也可以直接進(jìn)入我實(shí)驗(yàn)室主頁看看那些視頻，視頻里機(jī)器狗跳躍等展示的成果，其實(shí)都是基于這個(gè)邏輯做出來的。

第二個(gè)給大家推薦的一系列工作，是帶有“現(xiàn)實(shí)到仿真（Real to Sim）”的特點(diǎn)。我沒直接做 Sim2Real 的工作，而是先進(jìn)行 Real to Sim，再做 Sim2Real 。我個(gè)人挺看好這個(gè)方向，就是不在固定不變的仿真器里學(xué)習(xí)，而是到現(xiàn)實(shí)中獲取數(shù)據(jù)來改進(jìn)仿真器，之后再基于改進(jìn)后的仿真器進(jìn)行學(xué)習(xí)。這個(gè)方向我覺得也挺不錯(cuò)的，我們近期在這方面也開展了一些工作。

第三個(gè)，就是基于 MPC 相關(guān)內(nèi)容。更有意思一點(diǎn)的做法是，我們先學(xué)習(xí)一個(gè)世界模型（World model），然后再利用 MPC 去進(jìn)行控制操作。這方面我們最近有挺多文章的，比如說DIAL- MPC 的相關(guān)研究挺熱門，大家都在研究，因?yàn)樗拇a相對(duì)簡單。我們做了很多關(guān)于學(xué)習(xí)動(dòng)力學(xué)（Learn dynamics）的工作，就是在現(xiàn)實(shí)環(huán)境里把動(dòng)力學(xué)模型學(xué)習(xí)出來，之后再運(yùn)用基于采樣的模型預(yù)測控制（Sampling-based MPC）去開展后續(xù)的 Control。因?yàn)榛诓蓸拥哪Ｐ皖A(yù)測控制算是一種最靈活的 MPC 方法了。

王建明：好的，謝謝石老師。朱老師，我覺得您在國內(nèi)控制領(lǐng)域?qū)嵙軓?qiáng)，整個(gè)浙大在控制方面也是如此，尤其在關(guān)節(jié)機(jī)器人控制領(lǐng)域經(jīng)驗(yàn)豐富。從產(chǎn)業(yè)化角度看，朱老師所在的云深處近期的工作令人印象深刻，像四足狗、輪足機(jī)器人，它們現(xiàn)在很多控制都用 RL。能否請(qǐng)朱老師介紹一下，從傳統(tǒng)的 MPC、更早的 ZMP（零力矩點(diǎn)）等方法的使用，到現(xiàn)在使用 RL，這整個(gè)過程您有什么感受？另外，對(duì)于產(chǎn)業(yè)和學(xué)術(shù)結(jié)合方面，您如何看待這兩種方法？

朱秋國：早期在機(jī)器人上我們大量運(yùn)用了 MPC +WBC（全身運(yùn)動(dòng)控制）這類方法，做了不少相關(guān)工作。但從整體效果來看，采用 RL 的方法能更好地展現(xiàn)機(jī)器人全身運(yùn)動(dòng)能力。

MPC 和 WBC 在 RL 出現(xiàn)之前算是比較主流的方式，因?yàn)闊o論是面向人形機(jī)器人還是四足機(jī)器人，它們的全身模型很復(fù)雜，當(dāng)要去求解這種高維度的最優(yōu)問題時(shí)，不僅需要大量計(jì)算，還得保證在線的實(shí)時(shí)性才行。

所以我們運(yùn)用 MPC 時(shí)，往往會(huì)對(duì)模型進(jìn)行簡化，也就是處理簡化模型的長時(shí)域最優(yōu)化問題。在這個(gè)過程中，需要進(jìn)行建模，比如先將其簡化成單剛體模型，復(fù)雜一點(diǎn)的話就變成機(jī)器人模型。在此基礎(chǔ)上，通過預(yù)測來保障機(jī)器人狀態(tài)軌跡的可預(yù)測性，進(jìn)而確保機(jī)器人的穩(wěn)定性。但做完簡化模型那一步后，大家發(fā)現(xiàn)存在問題，因?yàn)楹喕蟮哪Ｐ秃茈y真實(shí)反映機(jī)器人全身動(dòng)力學(xué)的特點(diǎn)。

于是我們的研究進(jìn)入了第二階段，也就是處理復(fù)雜模型的短時(shí)域最優(yōu)化問題，就是所謂的全身運(yùn)動(dòng)控制（WBC）。在這個(gè)階段，要建立機(jī)器人的全身動(dòng)力學(xué)模型，然后計(jì)算出當(dāng)前的最優(yōu)控制以保證實(shí)時(shí)性，用全身運(yùn)動(dòng)控制（WBC）來彌補(bǔ)模型預(yù)測控制（MPC）因簡化模型而產(chǎn)生的問題。這項(xiàng)工作確實(shí)開展了挺多，也取得了比較好的效果，不過運(yùn)動(dòng)的靈活性還是比較固定。我們通過這種方法做出的效果，很難與波士頓動(dòng)力 Atlas 機(jī)器人相媲美，Atlas 呈現(xiàn)出的效果是最好的。

在很多場景下，我們現(xiàn)在用的機(jī)器人算法還是以傳統(tǒng)的模型預(yù)測控制（MPC）加全身運(yùn)動(dòng)控制（WBC）這種方式為主，因?yàn)檫@種方式比較穩(wěn)定、可靠，也容易解釋和分析。不過這種方式也會(huì)帶來一些問題。

第一個(gè)問題，比如對(duì)于腿足機(jī)器人，它的運(yùn)動(dòng)模式是足部離散運(yùn)動(dòng)，在它跳躍或者行走、跑步的時(shí)候，要怎么保持它連續(xù)跳躍的穩(wěn)定性？如果采用傳統(tǒng)方法，就會(huì)遇到幾個(gè)問題，像怎么保證機(jī)器人在規(guī)定時(shí)間內(nèi)接觸地面，還有接觸地面后怎么保證它能快速響應(yīng)之類的問題。

要是還用傳統(tǒng)的優(yōu)化方法框架去處理的話，比如把時(shí)間納入到優(yōu)化問題里，就會(huì)發(fā)現(xiàn)這個(gè)優(yōu)化問題會(huì)變得極為復(fù)雜，而且現(xiàn)在大部分人運(yùn)用這套方法時(shí)，往往會(huì)忽視這個(gè)問題。

第二個(gè)問題是，關(guān)于觸覺感知，怎么能讓它在模型預(yù)測控制（MPC）起作用前就發(fā)揮作用呢？很有可能等檢測到相關(guān)信息時(shí)，機(jī)器人就已經(jīng)摔倒了。這些是我們?cè)谑褂脗鹘y(tǒng)模型控制方法過程中會(huì)碰到的一些問題與挑戰(zhàn)，有些問題很難解決，甚至根本沒辦法解決。

那么 RL 還是有它的優(yōu)勢，前面石老師講過的那些優(yōu)點(diǎn)我就不贅述了。我覺得 RL 在控制領(lǐng)域里有點(diǎn)類似鎮(zhèn)定器，在與環(huán)境交互接觸的過程中，靠著這樣一套強(qiáng)化學(xué)習(xí)的模型，能夠確保機(jī)器人穩(wěn)定可靠。所以現(xiàn)在我們推出的人形機(jī)器人、機(jī)器狗、輪足機(jī)器人，我們實(shí)際運(yùn)用的都是 RL 這套方法。在運(yùn)用過程中，無論是發(fā)揮全身動(dòng)力學(xué)的能力，還是實(shí)現(xiàn)全身的協(xié)調(diào)性，都能展現(xiàn)出更高的靈活性。

所以我們目前主要的研究重點(diǎn)還是放在 RL 上，但這并不意味著基于模型的方法就沒用了。在浙大這邊的研究中，我們帶的研究生已經(jīng)開始嘗試在 RL 技術(shù)基礎(chǔ)上，融入一些 MPC 的思路或設(shè)想，去開展一些更具挑戰(zhàn)性的工作。

我覺得從原來單純用 MPC，到后來使用 RL，再到現(xiàn)在進(jìn)行 MPC 與 RL 相結(jié)合，可能就是在這個(gè)領(lǐng)域不斷摸索的一個(gè)過程。

王建明： 那請(qǐng)盧老師先介紹一下，您在強(qiáng)化學(xué)習(xí)領(lǐng)域深耕多年，能否跟大家分享下您目前在這方面的工作及經(jīng)驗(yàn)積累？

盧宗青：好的，我先回應(yīng)一下冠亞剛才提到的問題。首先，無模型強(qiáng)化學(xué)習(xí)（Model free RL）和 Control 解決的其實(shí)是相同的問題，面臨的數(shù)學(xué)問題也是一樣的，只不過解法不同罷了。

我一直在從事強(qiáng)化學(xué)習(xí)相關(guān)工作。對(duì)于機(jī)器人，尤其是人形機(jī)器人的解法，我們側(cè)重的角度可能和大家不太一樣。從人的角度來看，我們更多基于一種分層的假設(shè)框架，在高層可能更多涉及姿態(tài)方面的調(diào)控，或者說并非傳統(tǒng)意義的控制，而是通過姿態(tài)去影響，而在下層，比如低層級(jí)策略，去進(jìn)行具體的控制操作，好比針對(duì)人形機(jī)器人，就是過控制電機(jī)或其他控制量來實(shí)現(xiàn)相應(yīng)姿態(tài)。

所以我們更關(guān)注與物理世界的交互，而在交互過程中需要融入視覺信息。畢竟人在控制自身身體時(shí)，會(huì)融入大量視覺信息，還有觸覺信息等各類從外部能感知到的信息。也就是人形機(jī)器人如何與物理世界進(jìn)行交互。

而且就人形機(jī)器人而言，我們可以利用大量與人相關(guān)的數(shù)據(jù)，包含互聯(lián)網(wǎng)上能獲取到的視頻等資料。那如何依據(jù)這些數(shù)據(jù)讓機(jī)器人實(shí)現(xiàn)對(duì)自身身體的控制？對(duì)于下層策略來說，不管是運(yùn)用近端策略優(yōu)化算法（PPO）在仿真器里訓(xùn)練，還是采用模型預(yù)測控制（MPC）的方法，只要能達(dá)成上層所給出的目標(biāo)就行。我覺得這樣的思路或許更容易構(gòu)建出一套系統(tǒng)，從而更好地解決相關(guān)問題。

對(duì)于 Locomotion，目前多數(shù)情況下，不管是用 RL 還是 MPC 的方法去處理，解決的都是同樣的問題。但我覺得其中更關(guān)鍵的是，怎樣融入額外的模塊，以此來考量物理世界中的相關(guān)信息。另外，就物理世界中的信息而言，學(xué)習(xí)動(dòng)力學(xué)（Learning Dynamics）可能是相當(dāng)困難的事。像其他學(xué)者提到的構(gòu)建世界模型，要想在視覺層面以及觸覺層面真的構(gòu)建出一個(gè)完整的仿真器或者世界模型，我認(rèn)為難度很大。所以從我的角度來看，在現(xiàn)實(shí)世界中去學(xué)習(xí)或許會(huì)更好一些。

Manipulation 之所以用 RL

王建明：好的，謝謝盧老師。剛才三位嘉賓的討論多聚焦在 Locomotion 方面，接下來我們探討一下操作方面 RL 和 Control 的相關(guān)內(nèi)容。請(qǐng)羅劍嵐博士介紹一下這七八年來在這條路徑上的情況。

羅劍嵐：大家剛才都在聊 Control，我本身也是控制背景出身，雖說現(xiàn)在不寫控制方面的論文了，但也接受過完整的相關(guān)訓(xùn)練。我覺得控制是非常有效的，它的有效性已經(jīng)體現(xiàn)在我們生活的方方面面了。汽車需要運(yùn)用控制，我們靠著控制技術(shù)把人送上了月球。就好像如今我們做科研也不會(huì)再去專門引用牛頓三大定律了，因?yàn)樗讶皇羌榷ù嬖谇掖_實(shí)有效的。

我們具體把控制放到機(jī)器人這個(gè)范疇里來看，其實(shí)很多方面是存在不少問題的。因?yàn)榫拖窆趤喫f，機(jī)器人是一個(gè)很大的系統(tǒng)，你可以說汽車是一種機(jī)器人，飛機(jī)也是機(jī)器人，腿足機(jī)器人同樣是機(jī)器人，機(jī)械臂做操控也是一種機(jī)器人技術(shù)。這涉及到的很多問題都不一樣，無論是無模型（Model-free），還是基于模型（Model-based），都需要具體問題具體分析。

總體來講，大家可能主要在做三件事，第一個(gè)是導(dǎo)航（Navigation），第二個(gè)是移動(dòng)（Locomotion），第三就是操作（Manipulation）。我們探討的這些方法論，要是套用到這三個(gè)不同的問題、不同的情境當(dāng)中，那實(shí)際上是在說不同的事。

比如剛才冠亞提到的端到端，在這三個(gè)問題里，它的表述其實(shí)是不一樣的。比如說針對(duì)導(dǎo)航做端到端，我不知道該怎么做，感覺要是把整個(gè)地球都繪制一遍地圖來做，那這肯定不行的。應(yīng)該是通過視覺基礎(chǔ)模型獲取語義信息，接著進(jìn)行地圖構(gòu)建、同時(shí)運(yùn)用即時(shí)定位與地圖構(gòu)建（SLAM）等技術(shù)。

而對(duì)于 Locomotion，這是個(gè)很有意思的問題，大家剛才一直在說仿真器之類的工作，從本質(zhì)上講，這其實(shí)意味著要對(duì)物理規(guī)律進(jìn)行逆向推導(dǎo)?！霸趯?duì)物理規(guī)律進(jìn)行采樣時(shí)，其實(shí)就是在做基于模型的控制”，對(duì)于這個(gè)觀點(diǎn)，我其實(shí)挺認(rèn)同的。仿真器提供了一個(gè)更好的計(jì)算工具，但它并不能直接給出一個(gè)策略（Policy），得使用優(yōu)化器（Optimizer）才會(huì)有相應(yīng)的策略。

然后再來說說 Manipulation 方面，這其實(shí)是另一個(gè)問題了。在機(jī)器人學(xué)里存在一個(gè)著名的悖論，叫莫拉維克悖論（Moravec's Paradox）。它所闡述的內(nèi)容是這樣的：回顧50年的人工智能發(fā)展歷史，我們會(huì)發(fā)現(xiàn)，對(duì)人類而言簡單的事，讓機(jī)器去做卻很難；而那些人類做起來難度較大的事，機(jī)器人操作起來反倒簡單。比如，我們能夠教會(huì)機(jī)器下圍棋，像 IBM 的深藍(lán)早在 20 年前就可以下棋了，后來 AlphaGo 打敗了李世石。然而，像拿起水杯這類在人類眼中極為簡單的動(dòng)作，對(duì)于機(jī)器來說卻異常困難。針對(duì)這一現(xiàn)象，有著諸多解釋和爭論。

之所以會(huì)出現(xiàn)這種情況，是因?yàn)槿祟悮v經(jīng)了數(shù)十億年的漫長進(jìn)化，而數(shù)字化以及真正擁有智能，其實(shí)是相對(duì)較近幾千年才發(fā)生的事。所以，讓機(jī)器掌握相應(yīng)的動(dòng)作（Movement），要比讓它獲得推理能力（Reasoning）以及內(nèi)在的推理智能難得多。不管怎么說，這實(shí)際上就是操作（Manipulation）需要解決的核心問題。我們?cè)鯓硬拍茏寵C(jī)器人像人類一樣去操控，去與物理世界進(jìn)行交互，并且能可靠地完成這些事。

在這里，無論是端到端的方法，還是其他方法，與之前提到的導(dǎo)航（Navigation）或移動(dòng)（Locomotion）其實(shí)存在一些顯著的不同。為什么這么說呢？因?yàn)樵诓僮魅蝿?wù)中，通常會(huì)涉及到一些具體的物品和任務(wù)情境。比如，當(dāng)你有一個(gè)機(jī)器人，它的前方往往會(huì)有一個(gè)相對(duì)固定的工作區(qū)域。無論是移動(dòng)機(jī)器人，還是其他類型的機(jī)器人，通常需要先通過局部運(yùn)動(dòng)等方式導(dǎo)航（Navigate）到指定的位置。之后，在這個(gè)固定空間里，不論是工廠、家庭，還是其他應(yīng)用場景，機(jī)器人面前的物體尺寸和任務(wù)范圍一般是相對(duì)確定的。

在這種情況下，使用端到端的方法是有一定成功概率的，因?yàn)闄C(jī)器人的工作范圍是有限的。在一個(gè)固定的工作區(qū)域中，不管是在工廠、家庭，還是其他場景，機(jī)器人面前的物體尺寸和任務(wù)范圍通常是相對(duì)確定的。這種環(huán)境特點(diǎn)使得端到端方法能夠在特定任務(wù)上表現(xiàn)出一定的效果。然而，這種成功依賴于對(duì)特定環(huán)境的數(shù)據(jù)訓(xùn)練和驗(yàn)證，確保模型在有限范圍內(nèi)具備可靠性和魯棒性。

我不太容易陷入關(guān)于到底是端到端還是非端到端的爭論中。我可能更關(guān)注這個(gè)問題究竟要如何才能被解決。至于是不是端到端，我們可以想想這樣一件事，Jeff Hinton 在他 2018 年的圖靈獎(jiǎng)演講上，說了這么一句話。他說最開始的語音系統(tǒng)，如果你想用一個(gè)神經(jīng)網(wǎng)絡(luò)去替代系統(tǒng)中的一部分，那這個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)慢慢地把其他部分侵蝕掉，然后開始在整個(gè)系統(tǒng)里循環(huán)運(yùn)轉(zhuǎn)、不斷擴(kuò)張，就如同桿菌那樣，會(huì)把系統(tǒng)的其他部分也全都“吃”掉，最終整個(gè)系統(tǒng)就完全變成由神經(jīng)網(wǎng)絡(luò)主導(dǎo)的樣子了。

但是即便如此，我的重點(diǎn)在于，對(duì)于 Manipulation 而言，實(shí)際上是可以學(xué)到這樣一個(gè)策略的。端到端的優(yōu)勢在于沒有中間的偏差，并且可以直接針對(duì)目標(biāo)進(jìn)行優(yōu)化。而且，Manipulation 為我們提供了這樣的環(huán)境和設(shè)置來做這件事，實(shí)際上可以使所有情況都適配到。

現(xiàn)在我們?cè)倩氐竭@個(gè)問題：我們?yōu)槭裁匆褂谜鎸?shí)世界的數(shù)據(jù)呢？我們先拋開那些非常具體的技術(shù)問題，先來思考一些基本的問題。今天研討會(huì)的主題是如何將機(jī)器人的可靠性逼近到 99.9% 或者 100%。我們可以思考的一個(gè)問題是：機(jī)器人為什么達(dá)不到 100% 呢？

既然達(dá)不到 100%，這就意味著我們的模型、或者其他什么東西也好，和實(shí)際環(huán)境是存在一定差距的。只有縮小這個(gè)差距，才有可能達(dá)到 100%。那么，在一個(gè)存在未知信息的環(huán)境中，要如何縮小這個(gè)差距？除了和這個(gè)環(huán)境進(jìn)行交互，把未知信息獲取回來，然后以某種方式進(jìn)行優(yōu)化之外，沒有別的辦法。這是最通用、最具擴(kuò)展性的方法。

你可以說我們能夠設(shè)計(jì)一些東西來滿足特定需求，然后構(gòu)建一些模型，讓它們?nèi)ミm配一兩個(gè)特定的任務(wù)。就好比如今我們有這類專用模型，它就專門負(fù)責(zé)做一件事，速度特別快，而且成功率能達(dá)到 100%。

但要是有 1000 個(gè)任務(wù)、1 萬個(gè)任務(wù)等等情況的話，那不可能每個(gè)任務(wù)都按這樣的方式去做。尤其是我們現(xiàn)在想要的是通用型、帶機(jī)械臂的機(jī)器人去執(zhí)行任務(wù)的話，雖然各個(gè)任務(wù)具體細(xì)節(jié)或許不一樣，但總體的基本邏輯都是一樣，你得先有一個(gè)初始的設(shè)想、猜測，然后再與跟環(huán)境進(jìn)行交互，最終把那些缺失的部分補(bǔ)上。

通過某種方式來構(gòu)建這樣的機(jī)制，比如說 RL，確切來講就是強(qiáng)化學(xué)習(xí)的定義所描述的那樣，具體如何操作，我們有很多種做法，有人說要用基于模型的強(qiáng)化學(xué)習(xí)（Model-based RL），有人說用無模型的強(qiáng)化學(xué)習(xí)（Model-free RL）。其實(shí)我可能不會(huì)特別傾向于其中某一種，它們各有各的長處。

總結(jié)一下，先說說為什么要采用 RL。在現(xiàn)實(shí)世界里，要實(shí)現(xiàn)高性能的操作并達(dá)到高可靠性，對(duì)于每一個(gè)環(huán)境來說，最通用、最具擴(kuò)展性的辦法必然是強(qiáng)化學(xué)習(xí)。而且它并非是一種被動(dòng)的數(shù)據(jù)學(xué)習(xí)，不是簡單地去收集一些離線數(shù)據(jù)就可以了。如果想要達(dá)到100%的可靠性，那就一定要與環(huán)境進(jìn)行交互，而要實(shí)現(xiàn)與環(huán)境交互，就必須得運(yùn)用強(qiáng)化學(xué)習(xí)，這是比較基本的邏輯。

在 Manipulation 領(lǐng)域選擇強(qiáng)化學(xué)習(xí)而非傳統(tǒng)控制，有著深刻的原因。今天我們討論的一個(gè)重要主題是 Manipulation 和 Locomotion 的對(duì)比，這兩者在本質(zhì)上是完全不同的問題。

對(duì)于 Locomotion，主要的挑戰(zhàn)在于機(jī)器人本體的不確定性。這種不確定性相對(duì)有限，例如機(jī)器人可能踩到石子，或者路面出現(xiàn)打滑等情況。從機(jī)器人本體的角度來看，這些不確定性的影響是可以量化的。在控制領(lǐng)域，我們有一整套數(shù)學(xué)工具來應(yīng)對(duì)這些問題，其中之一就是魯棒控制（Robust control）。魯棒控制的核心思想是對(duì)不確定性進(jìn)行定量建模，進(jìn)而確定最壞情況的界限（Worst-case bound）。只要實(shí)際的不確定性在這個(gè)界限范圍內(nèi)，設(shè)計(jì)出的控制策略就是有效的。

然而，Manipulation 的情況則完全不同。Manipulation 的主要挑戰(zhàn)來自外部世界的不確定性，而不是機(jī)器人本體的不確定性。機(jī)器人本體是一個(gè)經(jīng)過精心設(shè)計(jì)的確定性系統(tǒng)，但外部世界的復(fù)雜性是無限的（Unbounded complexity）。這些不確定性可能來自視覺、物理交互、觸覺感知等多個(gè)方面，而對(duì)這些因素進(jìn)行全面、精確的建模幾乎是不可能的。盡管我們可以對(duì)其中的某些部分進(jìn)行建模，取得一些成果，但始終無法完全掌控這些外部復(fù)雜性。

這正是 Manipulation 問題需要強(qiáng)化學(xué)習(xí)（RL）的原因所在。RL 通過與外界的交互，能夠更好地適應(yīng)外部環(huán)境中的不確定性。從本質(zhì)上來說，Manipulation 和 Locomotion 是兩類截然不同的問題：Locomotion 可以通過控制理論中現(xiàn)有的工具（如魯棒控制）較好地解決，而 Manipulation 則需要通過 RL 等數(shù)據(jù)驅(qū)動(dòng)的方式，去應(yīng)對(duì)外部世界的復(fù)雜性和不確定性。

Manipulation 路線之爭

王建明：接下來談?wù)勆逃靡约皺C(jī)器人本身落地可靠性的問題。我們可以從 Manipulation 方面開始說起。

在 Locomotion 方面，雖說有不同的方法和途徑，但大家的共識(shí)程度還是比較高。但在 Manipulation 方向上，由于操作任務(wù)的復(fù)雜度、面臨環(huán)境的復(fù)雜度以及路線選擇方面的情況都更為多樣。

目前技術(shù)路線不一，我留意到主要有幾個(gè)，首先是模仿學(xué)習(xí)加真機(jī)的路線，像以擴(kuò)散策略（Diffusion policy）或者其他以 Aloha 為代表的模仿學(xué)習(xí)路線，能產(chǎn)生一系列比較好用的策略（Policy）；其次是羅博士近期一系列工作所代表的 RL+真機(jī)的路線；第三是 RL+仿真來解決操作問題的路線；還有一條是對(duì)仿真進(jìn)行優(yōu)化，比如添加一些可微的元素進(jìn)去，例如通過可微分模擬的方式來構(gòu)建虛擬環(huán)境的世界模型。

石冠亞：我一直有個(gè)比較大膽的暴論，我覺得徹底解決機(jī)器人的操作問題其實(shí)和解決 AGI 沒有區(qū)別。

打個(gè)比方，就拿“開”這個(gè)動(dòng)作來說，像開瓶子、開杯子、開可樂、開門，雖然都用“開”這一表述，但實(shí)際的動(dòng)作完全不一樣。我覺得要是有一個(gè)策略（Policy）能解決“打開任何東西”這個(gè)問題，那它和 AGI 就沒什么區(qū)別了。

而且，從衡量指標(biāo)來看，我個(gè)人很容易分不清到底是因?yàn)槿蝿?wù)選得好，所以效果不錯(cuò)，還是因?yàn)榉椒ū旧泶_實(shí)有了一些實(shí)質(zhì)性的突破。

另外，我特別贊同剛才說的那幾個(gè)分類。不談利弊，我可以跟大家講講我對(duì)它們的看法。

我覺得第一類屬于“大力出奇跡”的做法。就是先收集大量的演示數(shù)據(jù)（Demonstration），然后采用行為克隆的方式。其實(shí)現(xiàn)在做離線強(qiáng)化學(xué)習(xí)的人挺少的，大家普遍都是直接進(jìn)行行為克隆。剛才提到的擴(kuò)散策略、ALOHA，還有近期在物理智能層面的 Pi 0，都是遵循這一個(gè)邏輯。

第二類 Sim2Real，采用這種方式的人相對(duì)少一些，但我覺得還是挺有意思的。其中最有名的應(yīng)該就是 2019 年 OpenAI 做的用 Sim2Real 方式轉(zhuǎn)魔方的項(xiàng)目。

第三類，有很多微調(diào)相關(guān)的做法，就是先進(jìn)行預(yù)訓(xùn)練，然后再做微調(diào)之類的操作。

另外第四類，你之前沒提到，我可以補(bǔ)充一下，就是用傳統(tǒng)控制來做驗(yàn)證的情況其實(shí)也是存在的。不過它最大的問題就是不太能泛化。比如說，你要是設(shè)計(jì)了一個(gè)轉(zhuǎn)筆的策略（policy），可能就只能轉(zhuǎn)某一種特定的筆，要是筆的質(zhì)量變?yōu)樵瓉淼?倍、長度變?yōu)樵瓉淼?倍，可能就沒辦法轉(zhuǎn)了。

第五類是基于模型的方法，感覺這類比較小眾。就是先學(xué)習(xí)一個(gè)模型，然后再去做控制。就像劍嵐說的，它的難點(diǎn)在于你不僅要預(yù)測狀態(tài)、幫助預(yù)測目標(biāo)數(shù)據(jù)，而且做建模本身就很困難。這類工作雖然小眾，但確實(shí)存在。我知道像加州理工學(xué)院（Caltech）、麻省理工學(xué)院（MIT）有人在做，他們研究諸如粒子動(dòng)力學(xué)（Particle Dynamics）之類的內(nèi)容，然后基于此開展工作。

羅劍嵐：我也來談?wù)勛约旱目捶ò伞Ｈ绻覀兿胍獙?shí)現(xiàn) AGI，要對(duì)人類智能進(jìn)行逆向工程，那所需的計(jì)算能力，單是用來處理人類的各種動(dòng)作行為，幾乎就是無窮無盡的。

就 Control 方法用于 Manipulation 來說，它存在不少問題。在機(jī)器人學(xué)剛開始形成一門學(xué)科、逐漸興起的時(shí)候，那時(shí)并沒有視覺相關(guān)的技術(shù)，就如同處在“盲人摸象”的狀況里。從理論構(gòu)建角度看，控制的核心是 HJB 方程，該方程要求輸入的數(shù)據(jù)起碼得是可微的，或者說要相對(duì)平滑，理想狀態(tài)下要比上一時(shí)刻更平滑才行。

然而，要是遇到高維度并且不平滑的輸入感知數(shù)據(jù)時(shí)，與之相關(guān)的那些理論基礎(chǔ)就會(huì)出現(xiàn)狀況，HJB 就會(huì)失去作用，如此一來，控制的基礎(chǔ)也就被動(dòng)搖了。一旦出現(xiàn)這種情況，不管在何種場景下，控制方法基本上就沒辦法發(fā)揮作用、失效了。

而機(jī)器人操作（Manipulation）必然是涉及感知這一要素的。如果你要處理感知相關(guān)的問題，就目前來看，最好的辦法是通過學(xué)習(xí)（Learning）的方式。既然操作（Manipulation）是需要感知參與的，那么操作就必然要借助學(xué)習(xí)了。

不過，這并不是說控制（Control）就完全沒有作用了。就拿現(xiàn)在機(jī)器人應(yīng)用中一個(gè)比較大的話題來說吧，比如在碼頭場景下，有體型巨大的機(jī)器人要完成搬運(yùn)貨物的任務(wù)，可能是四五個(gè)機(jī)器人一起協(xié)作，把貨物從里面取出來、然后再放上去。在這種情況下，我們應(yīng)該運(yùn)用運(yùn)動(dòng)規(guī)劃（Motion Planning）的方法。并且，我們不但要采用目前最快、最好的在線運(yùn)動(dòng)規(guī)劃模型，還要利用相關(guān)驗(yàn)證機(jī)制，把這些運(yùn)動(dòng)規(guī)劃都逐一驗(yàn)證一遍，確保其準(zhǔn)確性達(dá)到100%才行。要是不這樣做的話，就很容易出現(xiàn)機(jī)器人之間相互碰撞，或者機(jī)器人誤傷人之類的嚴(yán)重情況。

再說回操作。我們說的是那種有機(jī)械臂的機(jī)器人，它前方有一個(gè)工作區(qū)域，區(qū)域里有一些物體需要進(jìn)行操作?？瓷先ゲ呗詫W(xué)習(xí)在這種情況下并沒有那種特別復(fù)雜、特別難處理的動(dòng)力學(xué)問題，但關(guān)鍵在于，如果我們能夠解決其中哪怕僅僅 5% 或者 10% 的問題，那對(duì)于我們實(shí)現(xiàn)機(jī)器人走進(jìn)千家萬戶的夢想來說，都會(huì)是一個(gè)很大的進(jìn)步，機(jī)器人也會(huì)變得非常有用了。

第二點(diǎn)，來談?wù)劮抡娴膯栴}。我覺得當(dāng)前存在一個(gè)比較突出的點(diǎn)，就是如果我們采用基于學(xué)習(xí)的操作方法，涉及到仿真與實(shí)際應(yīng)用這兩方面對(duì)比的時(shí)候，會(huì)出現(xiàn)這樣一種情況：由于機(jī)器人目前還沒有被大規(guī)模部署，所以就沒辦法獲取到足夠多的實(shí)際數(shù)據(jù)，進(jìn)而也就難以開發(fā)出更好的模型。

當(dāng)大家圍繞“操作”這個(gè)核心進(jìn)行討論時(shí)，有人會(huì)說，操作能夠生成大量的數(shù)據(jù)。但要是采用仿真的話，其難點(diǎn)就在于要把仿真做得準(zhǔn)確、完善。

我并不是仿真方面的專家，所以只能從一些比較基本的原理角度出發(fā)。這就好比，要去做仿真就相當(dāng)于要去模擬整個(gè)宇宙。可要是我們有真實(shí)的數(shù)據(jù)的話，我們要做的其實(shí)就是構(gòu)造一個(gè)機(jī)器人的大腦。而宇宙是包含了大腦的，建一個(gè)宇宙比建一個(gè)大腦要難得多，所以我們應(yīng)該先去建大腦。

以特斯拉為例。特斯拉一開始在車輛投入使用前，可能還面臨數(shù)據(jù)不足之類的情況，可一旦它的車跑起來之后，情況就大不一樣了。我昨天還看了些相關(guān)數(shù)據(jù)，特斯拉現(xiàn)在一年生產(chǎn)出來的真實(shí)行駛數(shù)據(jù)能達(dá)到 500 億里程，這時(shí)它面臨的問題根本不是有沒有數(shù)據(jù)了，而是這些數(shù)據(jù)多得完全存不下，他們現(xiàn)在都沒有足夠的硬盤去存儲(chǔ)這些來自各個(gè)攝像頭等渠道的數(shù)據(jù)。

我們現(xiàn)在思考相關(guān)問題，總是想著仿真器能夠生成海量的數(shù)據(jù)，可實(shí)際上，真實(shí)世界里像特斯拉這樣的公司產(chǎn)生的數(shù)據(jù)量都已經(jīng)大到難以處理了，關(guān)鍵問題在于：我們要拿這些數(shù)據(jù)怎么辦。我們應(yīng)該是思考怎么去利用好這些數(shù)據(jù)，而不是僅僅著眼于仿真器能生成多少數(shù)據(jù)。

我確實(shí)覺得仿真是非常有用的。如果今天要開一家自動(dòng)駕駛公司，要是有人跟我說不打算構(gòu)建仿真器，那我肯定得問問這是為什么，因?yàn)闆]有仿真器的話，軟件集成之類的工作根本沒辦法開展，整個(gè)業(yè)務(wù)流程也會(huì)難以運(yùn)轉(zhuǎn)起來。仿真器對(duì)于像抓取放置（Pick and Place）這類相對(duì)簡單些的、涉及運(yùn)動(dòng)學(xué)（Kinematic）的操作問題還是挺有幫助的。

不過，操作（Manipulation）問題的核心在于，一方面，我們得先處理好視覺輸入；另一方面，我們還要處理非常復(fù)雜的物理相關(guān)情況，像物體之間的接觸、流體的影響以及物體的變形等等復(fù)雜因素。與其費(fèi)很大力氣去構(gòu)造一個(gè)像模擬整個(gè)宇宙那樣復(fù)雜又龐大的仿真，還不如利用真實(shí)的數(shù)據(jù)，用真實(shí)數(shù)據(jù)就不存在任何的 GAP，然后再去深入思考怎樣基于這些真實(shí)數(shù)據(jù)來制定出更好的策略，這就是我比較核心的一個(gè)觀點(diǎn)了。

石冠亞：我非常認(rèn)同劍嵐的這個(gè)觀點(diǎn)。哪怕是人也是如此。我們平時(shí)疊衣服、疊被子，我們之所以能做到這些，絕對(duì)不是因?yàn)槲覀儠?huì)去求解納維-斯托克斯方程。我們端起一杯水的時(shí)候，我們也不清楚這杯水具體的動(dòng)力學(xué)原理。人在進(jìn)行這些操作的時(shí)候，往往是憑借著直覺來更好地利用經(jīng)驗(yàn)和感覺的。

說到仿真器，很多時(shí)候它其實(shí)是有點(diǎn)“用力過猛”了，做了過度的模擬（Overkill）。我們沒必要去模擬所有的東西，只需要模擬那種憑直覺就能把握的、關(guān)鍵的部分就可以了，這其實(shí)也和 Locomotion 相關(guān)聯(lián)。

那為什么局部運(yùn)動(dòng)在現(xiàn)有的框架里是可行的呢？這是因?yàn)槟壳八旧现惶幚淼搅艘活惙抡嫦嚓P(guān)的問題，就是剛體動(dòng)力學(xué)方面的問題，它其實(shí)并沒有過多涉及到像流體、顆粒材料等等更復(fù)雜的情況。

羅劍嵐：談到直覺物理學(xué)，其實(shí)在操控（Manipulation）任務(wù)中是個(gè)很有意思的話題。換個(gè)角度來看，操控通常存在于一個(gè)較低維度的流形（Manifold）中，也就是說，我們并不需要真正去解那些復(fù)雜的物理方程。例如，許多動(dòng)態(tài)操作場景，比如鞭子的揮動(dòng)、筋膜的運(yùn)動(dòng)等，實(shí)際上幾乎無法用傳統(tǒng)方法去求解，因?yàn)樗鼈兩婕胺浅?fù)雜的偏微分方程（PDE），而這些問題本身的求解難度極高。

如果嘗試在偏微分方程的外環(huán)上進(jìn)行優(yōu)化，再在線上進(jìn)行實(shí)時(shí)計(jì)算，這種方法在人類操作中顯然是不現(xiàn)實(shí)的。我可以肯定，人類的大腦并不是通過求解偏微分方程來完成這些任務(wù)的。相反，人類依賴的是一種直覺物理（Intuitive physics），這種能力是通過與環(huán)境的長期交互逐步形成的。比如，當(dāng)你看到某個(gè)物體的位置，伸手去拿，或者在某處翻找，這些動(dòng)作看似簡單，卻反映了人類對(duì)物理世界的直覺理解。

事實(shí)上，這種能力的形成遠(yuǎn)早于現(xiàn)代科學(xué)的發(fā)展。幾萬年前，人類已經(jīng)可以鉆木取火、拉弓射箭，而現(xiàn)代科學(xué)和數(shù)學(xué)體系的建立不過近 300 年的事情。當(dāng)時(shí)，我們既沒有偏微分方程，也沒有用抽象的數(shù)學(xué)工具去理解世界。由此可見，人類大腦在操控和操作中一定不是通過解偏微分方程來實(shí)現(xiàn)的，而是通過直覺與環(huán)境交互形成了一種與物理世界高效對(duì)接的能力。

我們?cè)賮碚務(wù)勀７聦W(xué)習(xí)和強(qiáng)化學(xué)習(xí)，我覺得這兩者并非是完全相互排斥的。模仿學(xué)習(xí)能夠給我們一個(gè)很好的起始點(diǎn)，但如果要達(dá)到 100% 的成功率，那就必須得用強(qiáng)化學(xué)習(xí)了，也就是要和環(huán)境進(jìn)行交互，把最后的那部分性能提升上去。

而且我們從現(xiàn)在的相關(guān)工作中也能看到，強(qiáng)化學(xué)習(xí)其實(shí)原本是需要大量數(shù)據(jù)的。不過最新的成果顯示，它其實(shí)只需要和真實(shí)場景交互 1 到 2 個(gè)小時(shí)就行了，并且我相信在未來，連這 1 到 2 個(gè)小時(shí)都不需要，因?yàn)楹芏鄷r(shí)候它是在弄清楚一些非?；A(chǔ)的操作能力，一旦我們有了預(yù)訓(xùn)練，這個(gè)時(shí)間可能會(huì)縮短到 20 分鐘。

最后我再補(bǔ)充一點(diǎn)。我們?yōu)槭裁匆涯硞€(gè)指標(biāo)逼近到 99.9% 呢？

如今部署在全球的機(jī)器人大概有 500 萬臺(tái)，其中 95% 都是位置控制型的，它們就跟“瞎子”一樣，只是簡單地重復(fù)編碼好的程序。它們就是固定地從 A 點(diǎn)移動(dòng)到 B 點(diǎn)再到 C 點(diǎn)，從1961年通用汽車發(fā)明了第一條生產(chǎn)線起，一直到現(xiàn)在，我們所做的不過是在原有基礎(chǔ)上進(jìn)行了一些優(yōu)化，從根本上來說，其實(shí)并沒有太大的改變。

要想真正發(fā)揮作用，成功率實(shí)際上得是百分之百才行，99% 都太低了。每一次出現(xiàn)故障、失敗都是有成本的。要是在生產(chǎn)線上，成本體現(xiàn)就是整個(gè)生產(chǎn)線得停下來，直接反映就是你的資金收益在減少，得有人去彌補(bǔ)這個(gè)損失成本。

有人可能會(huì)講，你說的是工業(yè)機(jī)器人需要百分百的成功率，可家庭機(jī)器人有個(gè)百分之七八十的成功率就夠了。其實(shí)我也思考過這個(gè)問題，我可以舉個(gè)很形象的例子。就在昨天，我去伯克利的體育館打球，那兒有個(gè)自動(dòng)售賣機(jī)器人賣水，用的時(shí)候就是把信用卡貼上去，它就會(huì)把水拿出來遞給你。我過去這一個(gè)月里經(jīng)常去那兒，可昨天我把卡貼上去后，水本應(yīng)該從出口出來的，結(jié)果卻掉下去了，而且我還沒辦法把水取出來，這就產(chǎn)生了成本，明碼標(biāo)價(jià)就是那瓶水的價(jià)格，2.75 美元。所以說，這不是沒成本，任何情況都是有成本的。

大家再想象一下，要是星巴克的機(jī)器人每 5 個(gè)小時(shí)就把咖啡灑地上一次，又或者家里的機(jī)器人每周都把廚房的杯子、盤子之類的東西往地上摔一次，這些都是損失，畢竟這都是在和物理世界做交互。我倒不是說我們就別去做家用機(jī)器人了、只搞工業(yè)機(jī)器人。我覺得當(dāng)下是處于一個(gè)比較關(guān)鍵的階段，在急切需要半約束、受約束的環(huán)境里，這樣的環(huán)境能讓我們?nèi)パ邪l(fā)解決方案，探索新的科學(xué)成果。等我們把相關(guān)問題弄明白了，或許就能把成果拓展到家用機(jī)器人等領(lǐng)域了。而且家用機(jī)器人還涉及數(shù)據(jù)收集以及隱私方面的問題，畢竟誰也不想家里的機(jī)器人在自己睡覺或者做別的事情的時(shí)候盯著自己，或是把數(shù)據(jù)傳回去用于訓(xùn)練。

所以我覺得，我們現(xiàn)在所處的這個(gè)階段真的是首次開始系統(tǒng)、全面地去思考一種比較通用的解決方案，未來咱們不用太擔(dān)心數(shù)據(jù)方面的問題，數(shù)據(jù)會(huì)像飛輪轉(zhuǎn)起來一樣不斷積累、運(yùn)轉(zhuǎn)起來。那一旦到了那個(gè)階段，我們?cè)撛趺慈ニ伎歼@ 99.9% 成功率的問題呢？那肯定得是強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)相結(jié)合才行，這兩者并不是完全相互排斥的關(guān)系，關(guān)鍵是一定要和環(huán)境進(jìn)行交互，它是動(dòng)態(tài)變化的，而不是靜態(tài)的。

機(jī)器人可靠性難以衡量

王建明：好的，謝謝羅博士。盧老師，您一直研究強(qiáng)化學(xué)習(xí)，對(duì)于人形機(jī)器人的 RL，還有您剛才提及的引入物理交互和視覺交互的內(nèi)容，您可以詳細(xì)講講這套方法嗎？或者您認(rèn)為強(qiáng)化學(xué)習(xí)對(duì)人形機(jī)器人控制的可靠性方面，未來會(huì)以怎樣的速度迭代？

盧宗青：我先聊聊剛才提到的 Manipulation 方面的事。今年我們?cè)诓倏胤矫孀隽瞬簧俟ぷ鳎仁窃谀M器里用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。我發(fā)現(xiàn)只要把問題定義清晰了，強(qiáng)化學(xué)習(xí)是比較容易解決問題的，當(dāng)然這里指的是給手部添加觸覺信息的情況。

不過在模擬器里訓(xùn)練出的強(qiáng)化學(xué)習(xí)策略，解決不了實(shí)際問題。因?yàn)槲覀儼l(fā)現(xiàn)訓(xùn)練完后，模擬器里大多是基于點(diǎn)云的，但是很難泛化。真機(jī)采集的點(diǎn)云和模擬器里看到的點(diǎn)云完全不一樣，所以在我看來，Sim2Real 的 gap 比較難解決。

但是這項(xiàng)工作有個(gè)啟示，給我們傳遞了一個(gè)比較重要的信息：機(jī)器人要是具備觸覺信息，完成 Manipulation 任務(wù)就會(huì)更容易些。我覺得這也是個(gè)比較直觀的見解，畢竟盲人也能完成各種各樣的操控任務(wù)。

不過我認(rèn)為，對(duì)于 Manipulation 來說，就像剛才冠亞講的，這本身就是個(gè)大難題。其實(shí)對(duì)于某個(gè)特定的問題，不管是模擬器、Sim2Real，還是真機(jī)+RL，都能比較好地解決這個(gè)特定問題。最關(guān)鍵的是泛化問題，就是我要怎么得到一個(gè)策略，讓它可以完成各種各樣的操控任務(wù)呢？在我看來，這是非常難的。而且對(duì)于這個(gè)問題，目前來看，很難有數(shù)據(jù)來驅(qū)動(dòng)這樣一個(gè)模型的學(xué)習(xí)，這是比較關(guān)鍵的點(diǎn)。

所以對(duì)于你剛才問到的人形機(jī)器人相關(guān)內(nèi)容，人形機(jī)器人有兩條胳膊、兩只手，我們解決相關(guān)問題采取兩步走的方式，因?yàn)槟壳拔覀儧]有從機(jī)器人端采集下來的數(shù)據(jù)，或者說數(shù)據(jù)量沒那么多。我們前期會(huì)利用人的數(shù)據(jù)去生成人的姿態(tài)，輸入是視覺信息，輸出就是姿態(tài)。我們把這一步稱作“預(yù)訓(xùn)練”，也就是用互聯(lián)網(wǎng)上大量但質(zhì)量不算高的數(shù)據(jù)去訓(xùn)練模型，使其輸出手部的姿態(tài)。然后再依據(jù)一些真機(jī)的數(shù)據(jù)，比如遙操采集的數(shù)據(jù)，去做后訓(xùn)練（Post training），以此來實(shí)現(xiàn)泛化性。

我覺得這是在剛才提到的四條技術(shù)路線之外，另外一條可行且值得嘗試的技術(shù)路線。這條路線主要聚焦在泛化性上，而不只是著眼于如何完成某個(gè) Manipulation 任務(wù)的思路。

王建明：您如何看待人形機(jī)器人達(dá)到 99% 以上可靠性這一問題？還有，它未來的發(fā)展路徑和周期是怎樣的？

盧宗青：我個(gè)人覺得，要是依靠模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這些方法，人形機(jī)器人不太可能達(dá)到 99% 以上的可靠性。就好比人去抓東西，可能抓一萬次也會(huì)有一次失誤。畢竟它不像工業(yè)機(jī)器人處于固定場景中，我希望看到的具身 AI 的應(yīng)用，肯定是在開放場景里的應(yīng)用。就像劍嵐剛才說的，不同場景下的產(chǎn)品有不一樣的需求，在有些情況下，可能百分之七八十的成功率就夠了。

另外，對(duì)于我們這套技術(shù)方案而言，RL 主要是為了執(zhí)行上層模塊給出的指令，不管是姿態(tài)（Pose）也好，普通指令也好，本質(zhì)上是用于控制電機(jī)之類的控制量。所以在我看來，它的完成度并非特別關(guān)鍵，反而更上層的高層次策略或者像姿態(tài)生成模型這類做法，怎樣達(dá)到較高可靠性才更重要。

下層的 RL 策略，即便去訓(xùn)練，也就是那樣一個(gè)結(jié)果，在最佳情況下，能找到一個(gè)最優(yōu)策略（Optimal policy），可它的上限是由給定的問題本身決定的。至于怎么去給出這個(gè)問題，可能是我們需要進(jìn)一步思考的地方。

王建明：關(guān)于可靠性，也想聽聽朱老師的想法。您如何看待目前四足機(jī)器人的可靠性？在為客戶部署機(jī)器人時(shí)，傳統(tǒng)控制和強(qiáng)化學(xué)習(xí)哪個(gè)用得多？您之前也提到人形機(jī)器人 10 年前走出實(shí)驗(yàn)室很難，我們現(xiàn)在期望人形機(jī)器人能穩(wěn)定完成一些任務(wù)。

朱秋國：關(guān)于可靠性這個(gè)問題，從學(xué)術(shù)界角度看，很難將一種方法在實(shí)驗(yàn)中的可靠性（比如達(dá)到 99% 或者 90%）直接套用到產(chǎn)業(yè)產(chǎn)品中。我想其他老師也會(huì)認(rèn)同這一點(diǎn)，因?yàn)閷?shí)驗(yàn)數(shù)據(jù)和實(shí)際應(yīng)用中的可靠性不太一樣。

就產(chǎn)品可靠性而言，我認(rèn)為可以分為幾個(gè)階段，其中包括我們內(nèi)部也在討論的機(jī)器人本身硬件的可靠性問題，我們經(jīng)常會(huì)提到一個(gè)“無故障運(yùn)行時(shí)間”的概念。

“無故障運(yùn)行時(shí)間”是評(píng)判機(jī)器人是否穩(wěn)定可靠的關(guān)鍵指標(biāo)。比如在電力巡檢場景中，客戶要求機(jī)器人在三個(gè)月內(nèi)不能出一次問題。

那如何評(píng)判機(jī)器人的穩(wěn)定可靠性呢？正如幾位老師所講，主要涉及幾個(gè)方面。一是硬件本身的問題，對(duì)于機(jī)器人而言，連接的部件、關(guān)節(jié)越多越復(fù)雜，出問題的概率就越大。所以要讓復(fù)雜的人形或四足機(jī)器狗在行業(yè)應(yīng)用中長久保持穩(wěn)定，就得提高硬件本身的可靠性。而在提高可靠性方面，首要解決的就是系統(tǒng)本身的可靠性問題，像機(jī)械結(jié)構(gòu)、電控系統(tǒng)以及底層軟件系統(tǒng)能否長期穩(wěn)定可靠，這是個(gè)很大的挑戰(zhàn)。

到了第二步，我們會(huì)更關(guān)注軟件算法層面的問題，比如基于傳統(tǒng)方法和基于模型的方法。從理論上講，只要代碼沒寫錯(cuò)，基本不會(huì)出什么問題。但要是結(jié)合其他算法，比如在機(jī)器人完成自主導(dǎo)航時(shí)，要讓它實(shí)現(xiàn)精準(zhǔn)定位，情況就不一樣了。

這里面就存在挑戰(zhàn)，因?yàn)樗惴ū旧?/span>還要解決環(huán)境動(dòng)態(tài)變化，像隨季節(jié)改變等環(huán)境變化時(shí)的適應(yīng)性問題。所以，第二步可能要著重解決軟件算法層面對(duì)于可靠性的評(píng)估問題。由此可見，產(chǎn)業(yè)界做可靠性和之前講的情況不太一樣，這是我們目前遇到的主要問題。

另外，關(guān)于四足機(jī)器人用 RL 還是 Control 的問題，目前更多還是用 Control 方法來進(jìn)行實(shí)際運(yùn)行操作。不過，現(xiàn)在我們已經(jīng)開始逐漸嘗試，尤其是面對(duì) Locomotion 能力提升的情況，我們?cè)谙朕k法把 RL 方法結(jié)合進(jìn)來，不管是傳統(tǒng)的 SLAM 方法，還是新型的 Position+Navigation 這類方法，都在做相應(yīng)部署。到今年年底，我們會(huì)試著在相對(duì)固定的環(huán)境中，采用 RL 方法去適應(yīng)不同地形等應(yīng)用場景。

但我們面臨的一個(gè)關(guān)鍵挑戰(zhàn)是，在這種場景下，如果機(jī)器人出現(xiàn)翻倒或其他問題，那要如何確保機(jī)器人不去破壞原場景，不碰壞周邊的瓶瓶罐罐？我們考慮或許得引入 RL 或者一些規(guī)則進(jìn)去，這樣當(dāng)機(jī)器人出現(xiàn)上述狀況時(shí)，就能保證它不會(huì)產(chǎn)生額外風(fēng)險(xiǎn)，進(jìn)而確保機(jī)器人在場景應(yīng)用中的安全性。

從應(yīng)用角度看，四足機(jī)器人發(fā)展到現(xiàn)在已經(jīng)沒什么本質(zhì)問題了。就運(yùn)動(dòng)能力而言，雖說有時(shí)會(huì)展示一些極限運(yùn)動(dòng)能力，像從幾米高的地方跳下來還能保持穩(wěn)定，但從應(yīng)用層面來講，其實(shí)并不需要這么酷炫的動(dòng)作。所以在我看來，當(dāng)下四足機(jī)器人的 Locomotion 能力，已經(jīng)可以滿足很多場景下的運(yùn)動(dòng)需求了，這方面是沒問題的。

剛才盧老師說得很對(duì)，人形機(jī)器人的關(guān)節(jié)復(fù)雜度更高，四足機(jī)器人就 12 個(gè)關(guān)節(jié)，人形機(jī)器人卻有幾十個(gè)關(guān)節(jié)。在應(yīng)用過程中，如何保證其本身的穩(wěn)定性是個(gè)很大的挑戰(zhàn)。所以人形機(jī)器人確實(shí)還需要更長時(shí)間去發(fā)展。我跟很多人聊這個(gè)問題時(shí)，大家常常迫切希望看到人形機(jī)器人能在現(xiàn)實(shí)生活中應(yīng)用起來，但我覺得這得循序漸進(jìn)，得先看人形機(jī)器人適合在哪些場景中應(yīng)用。

比如現(xiàn)在把人形機(jī)器人提供給高校老師當(dāng)作課題科研平臺(tái)，這是沒問題的。讓它站在咖啡機(jī)前給大家倒杯咖啡，或許也還行。但要是讓它走進(jìn)家庭、走向工業(yè)真正投入應(yīng)用，我覺得還有很長的路要走，這會(huì)是個(gè)不斷持續(xù)迭代的過程。不管是硬件層面，還是剛才提到的算法層面，特別是 Manipulation 層面，都得用更長遠(yuǎn)的眼光去看待人形機(jī)器人的應(yīng)用問題。

王建明：好的，謝謝朱老師。石老師如何看待當(dāng)下人形機(jī)器人在控制方面迭代的速度呢？我看你們有不少相關(guān)工作是關(guān)于 H2O、OmniH2O 方面，通過這些工作如何看待目前四足和人形機(jī)器人控制的可靠性問題？

石冠亞：我們做 Humanoid sim2real 相關(guān)工作大概有一年半了，MPC、RL 方面的工作也都做了，所以對(duì)人形機(jī)器人的可靠性挺有感觸的。

我很認(rèn)同朱老師剛才的觀點(diǎn)，尤其是他對(duì)于當(dāng)下哪些任務(wù)能實(shí)現(xiàn)、哪些任務(wù)可能還得等很多年的判斷。我再補(bǔ)充幾點(diǎn)：第一，Safe 和 RL 一樣，是個(gè)很寬泛的概念，不能一概而論，Safe 有多個(gè)維度。最底層的是硬件的可靠性、穩(wěn)定性，這非常重要。比如 Chris Atkeson 教授，他是電影《超能陸戰(zhàn)隊(duì)》里大白機(jī)器人原型的創(chuàng)作者，他認(rèn)為除非做成大白那種機(jī)器人，否則 Safe 是不可能實(shí)現(xiàn)的，意思就是要實(shí)現(xiàn)安全，得讓硬件本身就安全，無論怎么折騰都不會(huì)傷人，這和算法沒關(guān)系，更多是結(jié)構(gòu)、設(shè)計(jì)上怎么做到柔順性（Compliance）之類的。

第二，很多人也在討論，Safe 本身是一方面，另一方面是 Recover，也就是兜底。我覺得現(xiàn)在對(duì)很多機(jī)器人來說，Recover 可能比 Safe 本身還難。像波士頓動(dòng)力與現(xiàn)代的合作、Agility Robotics 的產(chǎn)品 Digit 與亞馬遜倉儲(chǔ)的合作，還有 Figure 與寶馬的合作，我覺得對(duì)它們而言，機(jī)器人摔倒這事的影響，遠(yuǎn)不如摔倒后爬不起來的影響大，它們目前的痛點(diǎn)就在沒有兜底，機(jī)器人摔倒后不容易爬起來。而四足機(jī)器人現(xiàn)在有相對(duì)成熟的方案，本身就很穩(wěn)定，即便有點(diǎn)趔趄甚至摔倒了，也能很快爬起來，人形機(jī)器人之前在兜底這塊就比較困難，這都是不同維度的情況。

另外，談 Safe 就跟談毒性不能拋開劑量一樣，拋開泛化性、成本談 Safe 也不合理，到底要達(dá)到百分之多少的安全程度呢？一方面得看任務(wù)是不是對(duì)安全性要求極高，比如 Space X 火箭回收的安全要求肯定和其他機(jī)器人不一樣。另一方面，泛化性也很重要，我很認(rèn)同朱老師的判斷，像一些簡單任務(wù)，不需要很強(qiáng)的泛化性，比如在戶外走走，只做 Locomotion，或者重復(fù)性任務(wù)，比如不停地給客人端咖啡，以現(xiàn)在的技術(shù)是比較有望打造出可靠系統(tǒng)的。

中間那層我稱之為面向企業(yè)（ToB）應(yīng)用，區(qū)別于面向消費(fèi)者（ToC），機(jī)器人在企業(yè)應(yīng)用中，像在工廠造車之類的場景，需要一定的泛化性，但又不需要特別強(qiáng)的泛化性。比如寶馬與 Figure 合作中，機(jī)器人只需不斷安裝電池，安裝電池雖有五個(gè)步驟，可能存在一些不確定性，但這些不確定性是可以控制住的。然后車型是有限的，比如裝寶馬的七八個(gè)車型，我覺得在短期未來，從安全性角度這是可以去追求的方向。

但要是問什么時(shí)候能把人形機(jī)器人放進(jìn)千家萬戶，讓它完成各種不同任務(wù)，像掃地、看孩子、做飯，還要求達(dá)到 99.999% 的安全程度，我覺得目前技術(shù)還達(dá)不到，我們還有兩三個(gè)問題沒解決，哪怕是人可能也較難做到這點(diǎn)。

要是問我期望的技術(shù)路線，我不太相信 One Shot Safe，就是部署了就百分百安全。我覺得在現(xiàn)實(shí)世界中得有糾錯(cuò)機(jī)制，剛部署時(shí)可能還是會(huì)出些問題，這里我指的是在開放環(huán)境里機(jī)器人怎么實(shí)現(xiàn)安全，目前我們還沒找到解決方案。我暢想的解決方案是，一開始可能會(huì)有不安全的時(shí)候，或許可以加入人工干預(yù)環(huán)節(jié)（Human in the loop），比如讓人幫忙做些標(biāo)注等，然后它能漸近性地（asymptolical）越來越好，我覺得漸近性安全（Smtonically safe）是目前我們能期望的最好狀態(tài)了。

最后，Safe 還有另外一層含義，很多做安全性研究的人，是有比較特定的、可以驗(yàn)證的，類似創(chuàng)建規(guī)則那樣的安全概念，這種 Safe 我們現(xiàn)在是有工具去實(shí)現(xiàn)的，比如規(guī)定機(jī)器人不能撞到物體，這種情況下，像可達(dá)性（reachiability）等很多控制理論的工具就能拿來用了。

關(guān)于人形機(jī)器人的 Safe 問題，很多時(shí)候沒辦法給出一個(gè)明確的 Safe 定義。比如我們之前聊的很多 Manipulation 的例子，像開門，什么叫不安全的開門呢？可以列出一萬種不同的故障情況，所以我覺得這很難定義。

總結(jié)來說，首先硬件的安全很重要；其次，兜底恢復(fù)能力（Feel safe）很重要，有時(shí)候在很多場景里它比安全本身還關(guān)鍵；第三，談安全一定要結(jié)合場景對(duì)泛化性的需求程度。最后，我們課題組做的很多工作，包括很多控制器（Controller）相關(guān)工作，其實(shí)是針對(duì)比較特定的、可驗(yàn)證的、像創(chuàng)建規(guī)則里涉及的機(jī)器人碰撞這類安全問題，而很多操控方面的安全是沒辦法這么去定義的。

Make RL Great Again

王建明：對(duì)于剛才探討的那些話題，各位老師看看還有沒有要補(bǔ)充的呢？

石冠亞：我能不能問其他老師幾個(gè)問題？機(jī)會(huì)難得。其實(shí)我有個(gè)思索已久的問題，我感覺現(xiàn)在 RL 算法本身的更新近乎停滯了。我想討論一下 RL 算法本身還有沒有創(chuàng)新空間？我一直覺得這些 RL 算法并不是專門為機(jī)器人設(shè)計(jì)的，它們太通用了。為什么 PPO 既可以用于語言模型的人類反饋強(qiáng)化學(xué)習(xí)（RHF），又能用于機(jī)器人學(xué)習(xí)呢？這本身不就有點(diǎn)奇怪嗎？包括對(duì)于學(xué)生而言，我們還要不要去做一些強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)研究，去找到一種特別適合機(jī)器人領(lǐng)域的 RL 算法呢？

盧宗青：我先來回答一下。就像冠亞剛才說的，目前在 RL 算法層面的研究確實(shí)不多，從 PPO 到 SAC 之后，沒有特別大的進(jìn)展。在我看來，RL 本質(zhì)上是一個(gè) MDP，我們思考的是用什么方法來解決這個(gè)數(shù)學(xué)問題，所以它本身就是比較通用的的數(shù)學(xué)方法表述（Math method formulation）。

從數(shù)學(xué)角度講，它是在實(shí)踐中比較好的解決算法。比如 PPO 在實(shí)踐中就是比較好的方法，實(shí)際上它是策略梯度（Policy grading）加上價(jià)值函數(shù)（Radio function）這樣一種演員 - 評(píng)論家（Atercritic）框架。

對(duì)于機(jī)器人來說，能不能設(shè)計(jì)出一個(gè)好的強(qiáng)化學(xué)習(xí)方法呢？我覺得可以從機(jī)器人學(xué)習(xí)的特性角度出發(fā)來進(jìn)行設(shè)計(jì)。我個(gè)人認(rèn)為是可行的。因?yàn)闄C(jī)器人的一些約束條件（Constrain）和我們通常研究算法、做實(shí)驗(yàn)時(shí)的約束條件是不同的。如果把這些約束條件考慮到算法設(shè)計(jì)中，肯定會(huì)產(chǎn)生一些差異。就像劍嵐做的 Real world 的強(qiáng)化學(xué)習(xí)，和已有的方法肯定不一樣，它結(jié)合了離線（Offline）和在線（Online）的方法來做機(jī)器人學(xué)習(xí)。

總的來說，從強(qiáng)化學(xué)習(xí)算法角度，要得到一個(gè)特別好的通用算法是比較難的。但對(duì)于機(jī)器人學(xué)習(xí)而言，我們能否更好地定制一個(gè)針對(duì)機(jī)器人學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法，我覺得還有很多可以探索的空間。

羅劍嵐：我談?wù)勛约旱睦斫狻?017、2018 年的時(shí)候我就覺得別去搞 MuJoCo，因?yàn)闆]有解決實(shí)際問題。我們當(dāng)時(shí)的問題就是為什么在 PPO 和 SAC 之后，沒有新的算法出來？或許得看看 PPO 和 SAC 是怎么被發(fā)明出來的。當(dāng)時(shí)它們是為了解決一些根本性問題，像在 MuJoCo 里小人跑不起來、Humanoid 站不起來這類問題，等這些問題解決了，MuJoCo 基準(zhǔn)測試（Benchmark）被攻克了，自然就沒新算法出現(xiàn)了。

所以我更多地在想，要是再有進(jìn)展，一定要從根本上想清楚我們要解決的核心問題是什么。要是真有下一輪強(qiáng)化學(xué)習(xí)基準(zhǔn)測試的突破、面臨重大挑戰(zhàn)時(shí)，得先想好要解決什么樣的大問題，別重蹈覆轍。

具體到這個(gè)問題上，RL的下一個(gè)前沿方向在哪？分開來講，對(duì)于 Locomotion 和 Manipulation，我覺得朱老師總結(jié)得很好，Locomotion 應(yīng)該用 Control，Control 肯定是個(gè)解決方案。原因很簡單，不管是 Locomotion 還是別的情況，都是有模型的，沒模型機(jī)器人根本造不出來，既然有模型，那就得用 Model-based control，而且確切知道模型是什么后，要思考如何與 RL 較好地結(jié)合起來。具體來說，得考慮一些特定指標(biāo)（Specific metrics），要是有模擬器，可能就不太需要考慮樣本效率了，英偉達(dá)想賣顯卡，估計(jì)也不會(huì)太考慮這個(gè)。

那比如要考慮性能（Performance）、安全性（Safety）等方面，思考它們?cè)鯓痈玫赜袡C(jī)結(jié)合，我覺得這是個(gè)挺有意思的待解決問題。據(jù)我所知，現(xiàn)在就算是像 PPO 里“Teacher Student”模式，Sim2Real GAP 還是存在。要是真用控制的話，在處理物理模擬、進(jìn)行下一步模擬事件等涉及樣本物理、控制移動(dòng)、物理移動(dòng)等情況時(shí)，怎么用好這套機(jī)制來做自己想做的事？

Manipulation 和 Locomotion 相比，現(xiàn)在零次學(xué)習(xí)（Zero）的訓(xùn)練時(shí)間要一到兩個(gè)小時(shí)，我覺得還能進(jìn)一步縮短。要是想縮短的話，就得思考怎么構(gòu)建一些基于視覺的通用能力，這可能就得回頭想想怎么構(gòu)建數(shù)據(jù)集、怎么構(gòu)建任務(wù)以及怎么運(yùn)用強(qiáng)化學(xué)習(xí)了。

再往遠(yuǎn)一點(diǎn)說，可能五年后會(huì)有 100 萬臺(tái)機(jī)器人部署在現(xiàn)實(shí)世界，不斷傳回大量數(shù)據(jù)，而那些數(shù)據(jù)都是異構(gòu)的、隱藏的、廣泛的，那我們?cè)撛趺醋鲱A(yù)訓(xùn)練呢？因?yàn)閺?qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練和行為克隆的預(yù)訓(xùn)練不一樣，這也是為什么 BC+RL 看起來沒太大區(qū)別，它們的訓(xùn)練目標(biāo)不一樣，一個(gè)是最大化數(shù)據(jù)集的對(duì)數(shù)似然（Maximize dataset log likeable），另一個(gè)是最大化價(jià)值函數(shù)（Maximize value function），所以實(shí)際上是超越數(shù)據(jù)集去發(fā)現(xiàn)新東西。

我們要怎么進(jìn)行預(yù)訓(xùn)練呢？能不能模擬物理情況，利用 Meta 幫忙驗(yàn)證算法基準(zhǔn)（Benchmark），搞出更具擴(kuò)展性（scalable）的強(qiáng)化學(xué)習(xí)呢？在存在大量異構(gòu)數(shù)據(jù)的這種情況下，要如何進(jìn)行預(yù)訓(xùn)練（Pre training），并且實(shí)現(xiàn)快速應(yīng)用（fast application）呢？我說的可是在真正大規(guī)模（massive scale）的情形下，這或許會(huì)是一個(gè)比較關(guān)鍵的重點(diǎn)所在。

我覺得在我個(gè)人未來五年的研究計(jì)劃里肯定得有這一項(xiàng)內(nèi)容。但為了做這件事，不可能說在開源算法開發(fā)的時(shí)候，真的把每個(gè)算法都放到 1 萬臺(tái)機(jī)器人上去測試，那樣成本太高，對(duì)實(shí)際情況也會(huì)造成不小的影響。

總結(jié)一下，為什么 PPO、SAC 之后沒什么新算法出現(xiàn)，就是因?yàn)樗鼈儼旬?dāng)時(shí)要解決的問題處理得很好了，我們現(xiàn)在需要新問題。我確實(shí)覺得，強(qiáng)化學(xué)習(xí)原則上提供了一種算法框架，如果它從根本上來說沒問題、是合理可靠的，那不能因?yàn)楝F(xiàn)在有一些困難、存在局限性，就徹底放棄它，我們應(yīng)該讓它逐步變得更好，這樣才能朝著更高更好的目標(biāo)邁進(jìn)。因?yàn)樗还馐歉嬖V你怎么復(fù)制、怎么預(yù)測、怎么從數(shù)據(jù)里找特征，要是想達(dá)到很高的優(yōu)化程度，比如 99.99%、100%，光有數(shù)據(jù)不行，還得有優(yōu)化，這是很關(guān)鍵的，所以未來的解決方案里肯定得有優(yōu)化這一環(huán)節(jié)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《005參謀方略》

舉報(bào)/認(rèn)領(lǐng)