文章

工程实践

#Qwen3.6-Plus #Terminal-Bench #Claude #Agent编程 #AI编程

Qwen3.6-Plus首超Claude：Agent编程基准的新格局

Qwen3.6-Plus首超Claude：Terminal-Bench 61.6分背后的Agent编程新格局 4月2日，通义实验室发布Qwen3.6-Plus，一个数字让整个AI编程圈炸了： Terminal-Bench 2.0得分61.6，超过Claude Opus 4.5的59.3 。

香港特别行政区

11 阅读0 评论

Qwen3.6-Plus首超Claude：Terminal-Bench 61.6分背后的Agent编程新格局

4月2日，通义实验室发布Qwen3.6-Plus，一个数字让整个AI编程圈炸了：Terminal-Bench 2.0得分61.6，超过Claude Opus 4.5的59.3。这是中文模型首次在主流Agent编程基准上击败Anthropic旗舰。

但如果你只看这一个数字就换模型，大概率会踩坑。我们把完整成绩单摊开，看看真正的格局是什么。

完整成绩单：没有绝对的赢家

基准测试	Qwen 3.6-Plus	Claude Opus 4.5	Gemini 3 Pro
Terminal-Bench 2.0	61.6	59.3	—
SWE-bench Verified	78.8	80.9	—
SWE-bench Pro	56.6	57.1	—
SWE-bench Multilingual	73.8	—	77.5
OmniDocBench v1.5	91.2	87.7	—
RealWorldQA	85.4	77.0	—

三行数据三个故事：Qwen赢终端操作和文档理解，Claude赢SWE-bench全家桶，Gemini赢多语言仓库级任务。两年前第一名和最后一名差15-20分，现在差距收窄到个位数——前沿模型的差距正在消失，选模型的逻辑从"谁最强"变成了"你要干什么"。

三个被忽略的硬伤

阿里不会在发布会上提这三个数字，但第三方评测数据清清楚楚：

1. 26.5%的代码幻觉率——BridgeBench发现Qwen3.6-Plus在约四分之一的推理链中会编造代码行为的虚假描述。在交互式编码中你能发现并纠正，但在自主Agent循环中模型自己验证自己？那是地雷。

2. 11.5秒的首Token延迟——always-on推理的代价。Agent循环中一个任务动辄几十次工具调用，每次11秒冷启动，累积起来体验极差。后续吞吐158 tokens/s倒是很快，但TTFT是硬伤。

3. 43.3%的安全任务成功率——涉及认证代码、加密操作的任务，模型失败率超过一半。这不是Qwen独有的问题，但确实比竞品更差。

预览期的数据收割陷阱

最关键的一条藏在服务条款里：预览期间提交的prompt和补全会被用于改进模型。

Qwen3.6-Plus目前在OpenRouter上免费（qwen/qwen3.6-plus-preview:free），但免费AI从来不是真的免费。如果你把公司私有代码喂进去，你就在帮阿里训练下一代模型。对于个人学习无所谓，对于企业用户这是红线。

什么时候该用，什么时候别碰

适合的场景：

前端组件生成：多模态理解+文档解析能力确实强，OmniDocBench 91.2分碾压级
快速原型验证：免费+百万Token上下文，扔整个代码库进去问重构方案，试错成本为零
文档密集型任务：API文档解析、规格书理解是它的绝对主场

不适合的场景：

生产环境Agent管道：无SLA、预览状态、行为可能随时变更
安全敏感代码：认证、加密、权限相关，43.3%成功率不够看
高频工具调用循环：11.5秒TTFT在紧密反馈循环中是灾难

新格局的本质：选模型不如选组合

阿里一周内连发三个模型，发布节奏已经追平西方实验室。Qwen3.6-Plus明确兼容OpenClaw、Claude Code和Cline——这不是在做一个模型，是在抢Agent部署层的入口。

对开发者来说，真正的变化是：Claude不再是Agent编程的唯一答案。终端操作选Qwen，仓库重构选Claude，多语言项目选Gemini——根据任务类型选模型，而不是无脑选"最强"的那个。这才是2026年Agent开发者的正确姿势。

别用预览版跑生产，别喂私有代码给免费模型，别被一个基准数字忽悠——这三条记住就够了。

读者评论

0 条

登录后参与

暂无评论，来分享你的看法吧

相关推荐

结合当前内容、你的浏览习惯和搜索偏好推荐。

大约 8 小时前

GPT-5.4-Cyber发布：AI安全攻防进入身份验证时代

4月14日，OpenAI发布GPT-5.4-Cyber——基于GPT-5.4微调的网络安全专用模型。这不是一次普通的版本迭代，而是AI安全范式从"一刀切限制"转向"身份验证放行"的标志性事件。为什么需要Cyber变体？通用大模型在面对安全研究场景时，经常拒绝合理请求。你想用AI分析一段

IP地址：香港特别行政区

003

大约 9 小时前

Claude Managed Agents：Agent部署从月到天

4月8日，Anthropic正式发布Claude Managed Agents公开测试版。这不是又一个大模型更新，而是一套完整的托管式Agent基础设施——沙箱执行、权限管控、断点续跑、多Agent协作，全部由Anthropic托管。官方宣称：从原型到生产部署，时间从数月缩短到数天。企业部

#Anthropic#Claude#Managed Agents+1

IP地址：香港特别行政区

005

大约 12 小时前

Chrome内置AI Skills：浏览器变成你的私人Agent工作台

4月14日，Google在Chrome浏览器中正式上线了AI Skills功能。这不是又一个聊天机器人侧边栏——它是浏览器从「被动工具」向「主动工作台」跃迁的信号弹。 Skills是什么？一句话讲清楚 Skills让你把常用的AI提示词保存下来，一键在任意网页上复用。比如你经常让Gemin

#Chrome#AI Skills#Gemini+2

IP地址：香港特别行政区

005

大约 15 小时前

GPT-6发布：为它OpenAI关停Sora、撕毁10亿合约

4月14日，OpenAI正式发布GPT-6（代号Spud/土豆）。这颗土豆的分量却不轻——耗资超20亿美元、动用10万张H100、历时18个月研发，以200万Token上下文、40%性能跃升和全新Symphony原生多模态架构，重新定义了大模型的能力天花板。但封神之路的代价同样惊人：为了GPT-

#GPT-6#OpenAI#Symphony+2

IP地址：香港特别行政区

005