Google 旗下的 DeepMind 发表 RT-2(Robotic Transformer 2),它是一种与众不同的视觉-语言-行动(vision-language-action)模型,使用网络和机器人的数据进行学习,并将这些知识转化为控制机器人的通用指令。
RT-2 教导机器人辨识视觉和语言,解释指令并推断哪些物体最符合要求。过去训练机器人需要很长的时间,研究人员必须单独规划研究方向,如今借助 RT-2 等 VLA 模型的强大功能,机器人可在取得大量数据后,推断下一步该做什么。
DeepMind 在一篇论文表示,新模型以网络和机器人数据进行训练,也利用自家Bard 等大型语言模型的研究进展,与机器人自身数据相互结合,例如决定需要移动哪个机器手臂关节等,甚至能够理解英语以外的其他语言指令。
DeepMind 举例,RT-2 可让机器人在没有经过特定训练的情况下辨识并扔掉垃圾,以 AI 试图理解垃圾是什么以及通常如何处理垃圾,来引导行动。
DeepMind 研究人员在像是厨房的测试环境利用机械手臂测试 RT-2,《纽约时报》看完机械手臂的现场测试指出,一名研究人员下达「捡起绝种动物」的指令,机器手臂顺利从 3 个小物中捡起 1 只恐龙。不过,机器手臂也会把汽水口味辨识错误,把水果误认成白色,可见 RT-2 目前应用还不够完美。
Google 涉足更智能的机器人应用是从去年开始,当时宣布在机器人上使用 PaLM 模型,建立全新 PaLM-SayCan 机器人,将大型语言模型和机器人技术整合在一起。
RT-2 未来持续发展和测试下,Google 的机器人通过大型语言模型在行动上更聪明,不需要复杂的指令将能完成任务,仿佛让人们距离皮克斯电影 WALL-E 描述的未来世界更近一步。