Gemini Robotics-ER 1.6：Google让机器人学会读仪表，准确率93%

Google DeepMind今天发布了Gemini Robotics-ER 1.6，这是其具身推理（Embodied Reasoning）模型的重大升级。简单说：以前机器人只能“看”和“动”，现在它能“想”了——而且想得相当靠谱。

两个模型，一个大脑一双腿

理解这次升级的关键是Google的双模型架构设计：

ER模型不碰机械臂，它告诉VLA“下一步该干什么”。这种架构分离让推理和执行各自优化，避免了单一模型既要想又要动的妥协。

ER 1.6的pointing（指向）能力是整个空间推理的基础。它不只是识别物体位置，还能：

在内测基准中，ER 1.6能正确识别场景中的锤子、剪刀、画笔、钳子数量，且不会“幻觉”出不存在的东西。而ER 1.5会漏数锤子和画笔、完全忽略剪刀，还会凭空“看到”不存在的独轮车。对机器人来说，幻觉检测是致命的——机器人会试图抓取空气。

知道任务何时完成，和知道怎么开始一样重要。ER 1.6的success detection让机器人能自主决定：重试失败步骤，还是进入下一阶段。

这比想象中难。现代机器人通常有多个摄像头（俯视+腕部），系统需要融合不同视角的信息，还要应对遮挡和动态变化。ER 1.6在多视角推理上显著提升，能更好地跨摄像头流整合信息。

这是ER 1.6最亮眼的新能力。与Boston Dynamics合作开发，专门针对工业设施巡检场景——让Spot机器人去读模拟表盘、压力计、液位计。

仪表读取需要极其复杂的视觉推理：精确感知指针、液位、刻度、容器边界，还要理解它们之间的关系。比如视液镜需要估算液体填充量并校正摄像头透视畸变；有些表盘有多个指针对应不同小数位，需要组合解读。

注意：ER 1.5的23%不具备agentic vision能力，和其他模型不是同一架构的公平对比。但93%这个数字本身已经足以说明——在工业巡检场景中，AI读表已经接近实用水平。

Agentic Vision是关键加速器：模型先放大图像看细节，用pointing和代码执行估算比例和间隔，最后结合世界知识做解读。这种“先看、再算、后判断”的链式推理，比直接输出答案靠谱得多。

Google宣称ER 1.6是“迄今最安全的机器人模型”，在对抗性空间推理任务上表现出更高的安全策略遵从度。对于要在真实工厂里跑的机器人，这一点至关重要。

Gemini Robotics-ER 1.6已通过Gemini API和Google AI Studio开放给开发者。如果你在做机器人、工业巡检或具身智能方向，值得立刻上手测试。

具身智能的瓶颈从来不在“动”，而在“想”。能读仪表、能判断任务成败、能多视角推理——这些能力把机器人从“遥控工具”推向“自主代理”。93%的仪表读取准确率意味着：在可预见的未来，工厂巡检可以真的交给机器人完成，不再需要人拿着手电筒去看压力表了。

0 条

暂无评论，来分享你的看法吧