Google DeepMind最近发布了Robotics Transformer 2 (RT-2),这是一种用于控制机器人的视觉-语言-动作 (VLA) 人工智能模型。
RT-2 使用微调的 LLM 来输出运动控制命令。它可以执行训练数据中未明确包含的任务,并且在紧急技能评估方面比基线模型提高 3 倍左右。
DeepMind 使用两种不同的底层视觉 LLM 基础模型,训练了 RT-2 的两种变体:分别是基于PaLM-E的 12B 参数版本和基于PaLI-X 的55B 参数版本。大语言模型在通用视觉语言数据集和机器人特定数据的组合上进行了共同微调。该模型学习输出机器人运动命令向量,该向量被简单地视为一串整数:实际上是模型学习的一种新语言。最终模型能够接受机器人工作空间的图像和用户命令(例如“捡起即将从桌子上掉下来的袋子”),并从中生成运动命令来执行任务。
根据 DeepMind 的说法:
RT-2 不仅展示了人工智能的进步,展示如何迅速渗透到机器人领域,而且还展示了更多通用机器人的巨大前景。虽然要在以人为本的环境中打造有用的机器人还有大量工作要做,但 RT-2 向人们展示了机器人技术令人兴奋的未来。
Google Robotics 和 DeepMind 已经发布了多个使用 LLM 进行机器人控制的系统。2022 年, Google 的SayCan和Code-as-Policies发布,前者使用 LLM 生成机器人的特别行动计划,后者使用 LLM 生成用于执行机器人控制的 Python 代码。两者都使用纯文本大语言模型来处理用户输入,视觉组件由单独的机器人模块处理。上半年 Google 的PaLM-E,它可以处理来自机器人传感器的多模式输入数据,并输出一系列高级操作步骤。
RT-2 建立在之前的实现RT-1 的基础上。RT 系列的关键思想是训练模型直接输出机器人命令。RT-2 和 RT-1 都接受图像和任务的文本描述作为命令输入。然而,RT-1 使用不同视觉模块的管道来生成视觉标记,用以输入到 LLM,而 RT-2 使用单一视觉语言模型,例如 PaLM-E。
DeepMind 通过 6,000 多项试验评估了 RT-2。有研究人员特别对其新功能感兴趣:即执行机器人特定训练数据中不存在的任务,但这些任务是从其视觉语言预训练中出现的。这个团队在三个任务类别上测试了 RT-2:符号理解、推理和人类识别。与基线相比,RT-2 的“平均成功率是最佳基线的 3 倍以上”。
在《Hack News》关于这项工作的讨论区中,有一位用户这样评论道:
看起来这项工作(包括许多机器人学习工作)仍然停留在位置/速度控制上,而不是阻抗控制上。本质上是输出要去哪里,无论是使用控制器的闭环还是使用运动规划的开环。这似乎大大降低了数据要求,但感觉却是任务的一个限制。机器人操纵之所以困难,是因为不仅需要考虑世界上正在发生的事情,还需要考虑我们的互动如何改变它,还有我们需要如何对此做出反应。
RT-2 目前尚未开源,但RT-1 的代码和数据已经开源,开发者们可以广为利用。
本文为 @ 场长 创作并授权21CTO发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。