返回广场

Gemini Robotics-ER 1.6:Google让机器人学会读仪表,准确率93%

Google DeepMind今天发布了Gemini Robotics-ER 1.6,这是其具身推理(Embodied Reasoning)模型的重大升级。简单说:以前机器人只能“看”和“动”,现在它能“想”了——而且想得相当靠谱。 两个模型,一个大脑一双腿 理解这次升级的关键是Googl

Google DeepMind今天发布了Gemini Robotics-ER 1.6,这是其具身推理(Embodied Reasoning)模型的重大升级。简单说:以前机器人只能“看”和“动”,现在它能“想”了——而且想得相当靠谱。

两个模型,一个大脑一双腿

理解这次升级的关键是Google的双模型架构设计:

  • Gemini Robotics-ER是“大脑”——负责空间理解、任务规划、成败判断,但不直接控制机械臂
  • Gemini Robotics 1.5(VLA)是“四肢”——把视觉输入和指令翻译成电机动作

ER模型不碰机械臂,它告诉VLA“下一步该干什么”。这种架构分离让推理和执行各自优化,避免了单一模型既要想又要动的妥协。

指向能力:比“指一下”复杂得多

ER 1.6的pointing(指向)能力是整个空间推理的基础。它不只是识别物体位置,还能:

  • 精确计数场景中特定物品的数量
  • 做关系推理(“最小的那个”“把X移到Y的位置”)
  • 规划运动轨迹和抓取点
  • 执行约束条件(“指出所有能放进蓝色杯子的东西”)

在内测基准中,ER 1.6能正确识别场景中的锤子、剪刀、画笔、钳子数量,且不会“幻觉”出不存在的东西。而ER 1.5会漏数锤子和画笔、完全忽略剪刀,还会凭空“看到”不存在的独轮车。对机器人来说,幻觉检测是致命的——机器人会试图抓取空气。

成功检测:机器人什么时候算“干完了”

知道任务何时完成,和知道怎么开始一样重要。ER 1.6的success detection让机器人能自主决定:重试失败步骤,还是进入下一阶段。

这比想象中难。现代机器人通常有多个摄像头(俯视+腕部),系统需要融合不同视角的信息,还要应对遮挡和动态变化。ER 1.6在多视角推理上显著提升,能更好地跨摄像头流整合信息。

仪表读取:从23%到93%的跨越

这是ER 1.6最亮眼的新能力。与Boston Dynamics合作开发,专门针对工业设施巡检场景——让Spot机器人去读模拟表盘、压力计、液位计。

仪表读取需要极其复杂的视觉推理:精确感知指针、液位、刻度、容器边界,还要理解它们之间的关系。比如视液镜需要估算液体填充量并校正摄像头透视畸变;有些表盘有多个指针对应不同小数位,需要组合解读。

准确率对比:

模型仪表读取准确率
Gemini Robotics-ER 1.523%
Gemini 3.0 Flash67%
Gemini Robotics-ER 1.686%
ER 1.6 + Agentic Vision93%

注意:ER 1.5的23%不具备agentic vision能力,和其他模型不是同一架构的公平对比。但93%这个数字本身已经足以说明——在工业巡检场景中,AI读表已经接近实用水平。

Agentic Vision是关键加速器:模型先放大图像看细节,用pointing和代码执行估算比例和间隔,最后结合世界知识做解读。这种“先看、再算、后判断”的链式推理,比直接输出答案靠谱得多。

安全性:迄今最安全的机器人模型

Google宣称ER 1.6是“迄今最安全的机器人模型”,在对抗性空间推理任务上表现出更高的安全策略遵从度。对于要在真实工厂里跑的机器人,这一点至关重要。

开发者可用

Gemini Robotics-ER 1.6已通过Gemini API和Google AI Studio开放给开发者。如果你在做机器人、工业巡检或具身智能方向,值得立刻上手测试。

为什么这很重要

具身智能的瓶颈从来不在“动”,而在“想”。能读仪表、能判断任务成败、能多视角推理——这些能力把机器人从“遥控工具”推向“自主代理”。93%的仪表读取准确率意味着:在可预见的未来,工厂巡检可以真的交给机器人完成,不再需要人拿着手电筒去看压力表了。

写评论

读者评论

0

暂无评论,来分享你的看法吧

相关推荐

结合当前内容、你的浏览习惯和搜索偏好推荐。