返回广场

Qwen3.6-Plus首超Claude:Agent编程基准的新格局

Qwen3.6-Plus首超Claude:Terminal-Bench 61.6分背后的Agent编程新格局 4月2日,通义实验室发布Qwen3.6-Plus,一个数字让整个AI编程圈炸了: Terminal-Bench 2.0得分61.6,超过Claude Opus 4.5的59.3 。

Qwen3.6-Plus首超Claude:Terminal-Bench 61.6分背后的Agent编程新格局

4月2日,通义实验室发布Qwen3.6-Plus,一个数字让整个AI编程圈炸了:Terminal-Bench 2.0得分61.6,超过Claude Opus 4.5的59.3。这是中文模型首次在主流Agent编程基准上击败Anthropic旗舰。

但如果你只看这一个数字就换模型,大概率会踩坑。我们把完整成绩单摊开,看看真正的格局是什么。

完整成绩单:没有绝对的赢家

基准测试Qwen 3.6-PlusClaude Opus 4.5Gemini 3 Pro
Terminal-Bench 2.061.659.3
SWE-bench Verified78.880.9
SWE-bench Pro56.657.1
SWE-bench Multilingual73.877.5
OmniDocBench v1.591.287.7
RealWorldQA85.477.0

三行数据三个故事:Qwen赢终端操作和文档理解,Claude赢SWE-bench全家桶,Gemini赢多语言仓库级任务。两年前第一名和最后一名差15-20分,现在差距收窄到个位数——前沿模型的差距正在消失,选模型的逻辑从"谁最强"变成了"你要干什么"

三个被忽略的硬伤

阿里不会在发布会上提这三个数字,但第三方评测数据清清楚楚:

1. 26.5%的代码幻觉率——BridgeBench发现Qwen3.6-Plus在约四分之一的推理链中会编造代码行为的虚假描述。在交互式编码中你能发现并纠正,但在自主Agent循环中模型自己验证自己?那是地雷。

2. 11.5秒的首Token延迟——always-on推理的代价。Agent循环中一个任务动辄几十次工具调用,每次11秒冷启动,累积起来体验极差。后续吞吐158 tokens/s倒是很快,但TTFT是硬伤。

3. 43.3%的安全任务成功率——涉及认证代码、加密操作的任务,模型失败率超过一半。这不是Qwen独有的问题,但确实比竞品更差。

预览期的数据收割陷阱

最关键的一条藏在服务条款里:预览期间提交的prompt和补全会被用于改进模型

Qwen3.6-Plus目前在OpenRouter上免费(qwen/qwen3.6-plus-preview:free),但免费AI从来不是真的免费。如果你把公司私有代码喂进去,你就在帮阿里训练下一代模型。对于个人学习无所谓,对于企业用户这是红线。

什么时候该用,什么时候别碰

适合的场景:

  • 前端组件生成:多模态理解+文档解析能力确实强,OmniDocBench 91.2分碾压级
  • 快速原型验证:免费+百万Token上下文,扔整个代码库进去问重构方案,试错成本为零
  • 文档密集型任务:API文档解析、规格书理解是它的绝对主场

不适合的场景:

  • 生产环境Agent管道:无SLA、预览状态、行为可能随时变更
  • 安全敏感代码:认证、加密、权限相关,43.3%成功率不够看
  • 高频工具调用循环:11.5秒TTFT在紧密反馈循环中是灾难

新格局的本质:选模型不如选组合

阿里一周内连发三个模型,发布节奏已经追平西方实验室。Qwen3.6-Plus明确兼容OpenClaw、Claude Code和Cline——这不是在做一个模型,是在抢Agent部署层的入口。

对开发者来说,真正的变化是:Claude不再是Agent编程的唯一答案。终端操作选Qwen,仓库重构选Claude,多语言项目选Gemini——根据任务类型选模型,而不是无脑选"最强"的那个。这才是2026年Agent开发者的正确姿势。

别用预览版跑生产,别喂私有代码给免费模型,别被一个基准数字忽悠——这三条记住就够了。

写评论

读者评论

0

暂无评论,来分享你的看法吧

相关推荐

结合当前内容、你的浏览习惯和搜索偏好推荐。