DeepMind · 世界模型
DeepMind 发布 Gemini Robotics-ER 1.6 具身推理模型
DeepMind 推出 Gemini Robotics-ER 1.6,这是一款专为自主机器人设计的具身推理模型,核心能力在于增强空间推理与多视角场景理解。相比前代,新版本在复杂物理环境中对物体位置、姿态和交互路径的判断更加精准,使机器人能更可靠地完成抓取、导航等真实世界任务。该模型将多模态感知与空间推理深度融合,为机器人从实验室走向开放环境提供了关键能力升级。
- 域名
deepmind.google- 评分
- 5 · 重大发布
- 发布
- 2026-04-13
导读
DeepMind 发布 Gemini Robotics-ER 1.6,一款专注于具身推理(embodied reasoning)的多 模态模型,把视觉、空间理解、动作规划在统一模型中端到端打通。ER 是 Embodied Reasoning 的缩写,表示模型不仅能识别物体,还能理解物体之间的物理关系、预测动作后果、生成可执 行的机器人控制序列。
相比前代 Robotics-ER 1.0,1.6 版本在真实世界任务上的成功率有显著提升。模型能处理多 步骤复杂操作,例如"把红色杯子放到蓝色盘子右边再倒水"这类涉及多对象、多动作、空间 约束的指令。训练数据混合了大量第一视角视频、机器人遥操作记录和模拟环境交互。
这条线对机器人创业公司的意义在于:之前需要分别训练 perception、planning、control 三 个独立模型再做集成,Robotics-ER 1.6 把这三件事统一到一个端到端架构。API 开放给学术 研究和有资质的工业合作方,DeepMind 也在筹建配套的机器人评测平台。
原文摘要
Gemini Robotics ER 1.6: Enhancing spatial reasoning and multi-view understanding for autonomous robotics.