DeepMind · 世界模型

DeepMind 发布 Gemini Robotics-ER 1.6 具身推理模型

DeepMind 推出 Gemini Robotics-ER 1.6,这是一款专为自主机器人设计的具身推理模型,核心能力在于增强空间推理与多视角场景理解。相比前代,新版本在复杂物理环境中对物体位置、姿态和交互路径的判断更加精准,使机器人能更可靠地完成抓取、导航等真实世界任务。该模型将多模态感知与空间推理深度融合,为机器人从实验室走向开放环境提供了关键能力升级。

域名
deepmind.google
评分
5 · 重大发布
发布
2026-04-13

导读

DeepMind 发布 Gemini Robotics-ER 1.6,一款专注于具身推理(embodied reasoning)的多 模态模型,把视觉、空间理解、动作规划在统一模型中端到端打通。ER 是 Embodied Reasoning 的缩写,表示模型不仅能识别物体,还能理解物体之间的物理关系、预测动作后果、生成可执 行的机器人控制序列。

相比前代 Robotics-ER 1.0,1.6 版本在真实世界任务上的成功率有显著提升。模型能处理多 步骤复杂操作,例如"把红色杯子放到蓝色盘子右边再倒水"这类涉及多对象、多动作、空间 约束的指令。训练数据混合了大量第一视角视频、机器人遥操作记录和模拟环境交互。

这条线对机器人创业公司的意义在于:之前需要分别训练 perception、planning、control 三 个独立模型再做集成,Robotics-ER 1.6 把这三件事统一到一个端到端架构。API 开放给学术 研究和有资质的工业合作方,DeepMind 也在筹建配套的机器人评测平台。

原文摘要

Gemini Robotics ER 1.6: Enhancing spatial reasoning and multi-view understanding for autonomous robotics.