機器人ChatGPT來了：大模型進現(xiàn)實世界，DeepMind重量級突破

堅果2000 2023-07-29 發(fā)布于安徽

展開全文

機器之心報道

編輯：澤南、陳萍

給機器人發(fā)命令，從沒這么簡單過。

我們知道，在掌握了網(wǎng)絡中的語言和圖像之后，大模型終究要走進現(xiàn)實世界，「具身智能」應該是下一步發(fā)展的方向。

把大模型接入機器人，用簡單的自然語言代替復雜指令形成具體行動規(guī)劃，且無需額外數(shù)據(jù)和訓練，這個愿景看起來很美好，但似乎也有些遙遠。畢竟機器人領域，難是出了名的。

然而 AI 的進化速度比我們想象得還要快。

本周五，谷歌 DeepMind 宣布推出 RT-2：全球第一個控制機器人的視覺 - 語言 - 動作（VLA）模型。

現(xiàn)在不再用復雜指令，機器人也能直接像 ChatGPT 一樣操縱了。

RT-2 到達了怎樣的智能化程度？DeepMind 研究人員用機械臂展示了一下，跟 AI 說選擇「已滅絕的動物」，手臂伸出，爪子張開落下，它抓住了恐龍玩偶。

在此之前，機器人無法可靠地理解它們從未見過的物體，更無法做把「滅絕動物」到「塑料恐龍玩偶」聯(lián)系起來這種有關推理的事。

跟機器人說，把可樂罐給泰勒?斯威夫特：

看得出來這個機器人是真粉絲，對人類來說是個好消息。

ChatGPT 等大語言模型的發(fā)展，正在為機器人領域掀起一場革命，谷歌把最先進的語言模型安在機器人身上，讓它們終于擁有了一顆人工大腦。

在 DeepMind 在最新提交的一篇論文中研究人員表示，RT-2 模型基于網(wǎng)絡和機器人數(shù)據(jù)進行訓練，利用了 Bard 等大型語言模型的研究進展，并將其與機器人數(shù)據(jù)相結合，新模型還可以理解英語以外的指令。

谷歌高管稱，RT-2 是機器人制造和編程方式的重大飛躍?！赣捎谶@一變化，我們不得不重新考慮我們的整個研究規(guī)劃了，」谷歌 DeepMind 機器人技術主管 Vincent Vanhoucke 表示。「之前所做的很多事情都完全變成無用功了?！?/span>

RT-2 是如何實現(xiàn)的？

DeepMind 這個 RT-2 拆開了讀就是 Robotic Transformer —— 機器人的 transformer 模型。

想要讓機器人能像科幻電影里一樣聽懂人話，展現(xiàn)生存能力，并不是件容易的事。相對于虛擬環(huán)境，真實的物理世界復雜而無序，機器人通常需要復雜的指令才能為人類做一些簡單的事情。相反，人類本能地知道該怎么做。

此前，訓練機器人需要很長時間，研究人員必須為不同任務單獨建立解決方案，而借助 RT-2 的強大功能，機器人可以自己分析更多信息，自行推斷下一步該做什么。

RT-2 建立在視覺 - 語言模型（VLM）的基礎上，又創(chuàng)造了一種新的概念：視覺 - 語言 - 動作（VLA）模型，它可以從網(wǎng)絡和機器人數(shù)據(jù)中進行學習，并將這些知識轉化為機器人可以控制的通用指令。該模型甚至能夠使用思維鏈提示，比如哪種飲料最適合疲憊的人 (能量飲料)。

RT-2 架構及訓練過程

其實早在去年，谷歌就曾推出過 RT-1 版本的機器人，只需要一個單一的預訓練模型，RT-1 就能從不同的感官輸入（如視覺、文本等）中生成指令，從而執(zhí)行多種任務。

作為預訓練模型，要想構建得好自然需要大量用于自監(jiān)督學習的數(shù)據(jù)。RT-2 建立在 RT-1 的基礎上，并且使用了 RT-1 的演示數(shù)據(jù)，這些數(shù)據(jù)是由 13 個機器人在辦公室、廚房環(huán)境中收集的，歷時 17 個月。

DeepMind 造出了 VLA 模型

前面我們已經(jīng)提到 RT-2 建立在 VLM 基礎之上，其中 VLMs 模型已經(jīng)在 Web 規(guī)模的數(shù)據(jù)上訓練完成，可用來執(zhí)行諸如視覺問答、圖像字幕生成或物體識別等任務。此外，研究人員還對先前提出的兩個 VLM 模型 PaLI-X（Pathways Language and Image model）和 PaLM-E（Pathways Language model Embodied）進行了適應性調整，當做 RT-2 的主干，并將這些模型的視覺 - 語言 - 動作版本稱為 RT-2-PaLI-X 以及 RT-2-PaLM-E 。

為了使視覺 - 語言模型能夠控制機器人，還差對動作控制這一步。該研究采用了非常簡單的方法：他們將機器人動作表示為另一種語言，即文本 token，并與 Web 規(guī)模的視覺 - 語言數(shù)據(jù)集一起進行訓練。

對機器人的動作編碼基于 Brohan 等人為 RT-1 模型提出的離散化方法。

如下圖所示，該研究將機器人動作表示為文本字符串，這種字符串可以是機器人動作 token 編號的序列，例如「1 128 91 241 5 101 127 217」。

該字符串以一個標志開始，該標志指示機器人是繼續(xù)還是終止當前情節(jié)，然后機器人根據(jù)指示改變末端執(zhí)行器的位置和旋轉以及機器人抓手等命令。

由于動作被表示為文本字符串，因此機器人執(zhí)行動作命令就像執(zhí)行字符串命令一樣簡單。有了這種表示，我們可以直接對現(xiàn)有的視覺 - 語言模型進行微調，并將其轉換為視覺 - 語言 - 動作模型。

在推理過程中，文本 token 被分解為機器人動作，從而實現(xiàn)閉環(huán)控制。

實驗

研究人員對 RT-2 模型進行了一系列定性和定量實驗。

下圖展示了 RT-2 在語義理解和基本推理方面的性能。例如，對于「把草莓放進正確的碗里」這一項任務，RT-2 不僅需要對草莓和碗進行表征理解，還需要在場景上下文中進行推理，以知道草莓應該與相似的水果放在一起。而對于「拾起即將從桌子上掉下來的袋子」這一任務，RT-2 需要理解袋子的物理屬性，以消除兩個袋子之間的歧義并識別處于不穩(wěn)定位置的物體。

需要說明的是，所有這些場景中測試的交互過程在機器人數(shù)據(jù)中從未見過。