Gemini Robotics-ER 1.6:Google让机器人学会读仪表,准确率93%
Google DeepMind今天发布了Gemini Robotics-ER 1.6,这是其具身推理(Embodied Reasoning)模型的重大升级。简单说:以前机器人只能“看”和“动”,现在它能“想”了——而且想得相当靠谱。 两个模型,一个大脑一双腿 理解这次升级的关键是Googl
Google DeepMind今天发布了Gemini Robotics-ER 1.6,这是其具身推理(Embodied Reasoning)模型的重大升级。简单说:以前机器人只能“看”和“动”,现在它能“想”了——而且想得相当靠谱。
两个模型,一个大脑一双腿
理解这次升级的关键是Google的双模型架构设计:
- Gemini Robotics-ER是“大脑”——负责空间理解、任务规划、成败判断,但不直接控制机械臂
- Gemini Robotics 1.5(VLA)是“四肢”——把视觉输入和指令翻译成电机动作
ER模型不碰机械臂,它告诉VLA“下一步该干什么”。这种架构分离让推理和执行各自优化,避免了单一模型既要想又要动的妥协。
指向能力:比“指一下”复杂得多
ER 1.6的pointing(指向)能力是整个空间推理的基础。它不只是识别物体位置,还能:
- 精确计数场景中特定物品的数量
- 做关系推理(“最小的那个”“把X移到Y的位置”)
- 规划运动轨迹和抓取点
- 执行约束条件(“指出所有能放进蓝色杯子的东西”)
在内测基准中,ER 1.6能正确识别场景中的锤子、剪刀、画笔、钳子数量,且不会“幻觉”出不存在的东西。而ER 1.5会漏数锤子和画笔、完全忽略剪刀,还会凭空“看到”不存在的独轮车。对机器人来说,幻觉检测是致命的——机器人会试图抓取空气。
成功检测:机器人什么时候算“干完了”
知道任务何时完成,和知道怎么开始一样重要。ER 1.6的success detection让机器人能自主决定:重试失败步骤,还是进入下一阶段。
这比想象中难。现代机器人通常有多个摄像头(俯视+腕部),系统需要融合不同视角的信息,还要应对遮挡和动态变化。ER 1.6在多视角推理上显著提升,能更好地跨摄像头流整合信息。
仪表读取:从23%到93%的跨越
这是ER 1.6最亮眼的新能力。与Boston Dynamics合作开发,专门针对工业设施巡检场景——让Spot机器人去读模拟表盘、压力计、液位计。
仪表读取需要极其复杂的视觉推理:精确感知指针、液位、刻度、容器边界,还要理解它们之间的关系。比如视液镜需要估算液体填充量并校正摄像头透视畸变;有些表盘有多个指针对应不同小数位,需要组合解读。
准确率对比:
| 模型 | 仪表读取准确率 |
|---|---|
| Gemini Robotics-ER 1.5 | 23% |
| Gemini 3.0 Flash | 67% |
| Gemini Robotics-ER 1.6 | 86% |
| ER 1.6 + Agentic Vision | 93% |
注意:ER 1.5的23%不具备agentic vision能力,和其他模型不是同一架构的公平对比。但93%这个数字本身已经足以说明——在工业巡检场景中,AI读表已经接近实用水平。
Agentic Vision是关键加速器:模型先放大图像看细节,用pointing和代码执行估算比例和间隔,最后结合世界知识做解读。这种“先看、再算、后判断”的链式推理,比直接输出答案靠谱得多。
安全性:迄今最安全的机器人模型
Google宣称ER 1.6是“迄今最安全的机器人模型”,在对抗性空间推理任务上表现出更高的安全策略遵从度。对于要在真实工厂里跑的机器人,这一点至关重要。
开发者可用
Gemini Robotics-ER 1.6已通过Gemini API和Google AI Studio开放给开发者。如果你在做机器人、工业巡检或具身智能方向,值得立刻上手测试。
为什么这很重要
具身智能的瓶颈从来不在“动”,而在“想”。能读仪表、能判断任务成败、能多视角推理——这些能力把机器人从“遥控工具”推向“自主代理”。93%的仪表读取准确率意味着:在可预见的未来,工厂巡检可以真的交给机器人完成,不再需要人拿着手电筒去看压力表了。
读者评论
0 条暂无评论,来分享你的看法吧
相关推荐
结合当前内容、你的浏览习惯和搜索偏好推荐。
智谱GLM-5V-Turbo实测:设计稿直出代码,多模态编程的拐点到了?
智谱GLM-5V-Turbo实测:设计稿直出代码,多模态编程的拐点到了? 2026年4月2日,智谱发布GLM-5V-Turbo——首个原生多模态Coding基座模型。这不是又一个"能看图的模型",而是把视觉理解和代码生成从底层焊在一起的工程体系。 为什么这个发布值得关注 过去一年,A
本地部署 DeepSeek、Qwen 这类模型前,团队最容易忽略的 5 个现实问题
显卡、量化、并发、知识库接入、运维值守,这些比单次跑通演示更重要。

