新 Agent 基准把“会不会干活”单独拎出来，Claude 与 GLM 暂时跑在前面

Artificial Analysis 这周新发了一套专门测 Agent 的基准，Claude Fable 和 GLM 5.2 分别在各自组别排在前面；我们的判断是，这比又一张传统榜单更值得看，因为它试图回答一个更现实的问题：模型到底能不能把事做完。

这是什么

这套测试来自 Artificial Analysis，核心不是考模型“知道多少”，而是考它“能不能规划步骤并执行任务”。所谓 Agent（能调用工具、分步骤完成目标的 AI 系统），一直被行业当成大模型走向生产力的下一站，但过去很多榜单更像考试排名，和真实办公、检索、操作软件之间还有距离。

这次基准的一个重点，是它相对“新”，还没有被大量厂商围着优化，因此短期内更能看出模型原始的任务执行能力。按照目前结果，Claude Fable 和 GLM 5.2 在各自比较组里表现突出。我们注意到，这也让国内模型在“能干活”这件事上，不再只是在语言能力上陪跑。

行业怎么看

行业对这类新基准普遍欢迎，因为它把评价标准从“会不会说”往“会不会做”推进了一步。对企业客户来说，这种变化很关键：真正决定采购的，往往不是模型在公开题库上多拿几分，而是它能否稳定完成报表整理、资料检索、流程跟进这类任务。

但反对意见也很明确。第一，基准再接近真实，也还是基准，不等于企业现场。一个模型在测试里会规划，不代表接进公司系统后也能稳定执行。第二，新榜单短期不“刷分”，不代表之后不会被针对性优化。第三，Agent 表现不仅取决于模型本身，还取决于工具接口、权限设计和工作流编排，这些往往比底座模型更影响落地结果。

所以我们的判断是：这类榜单值得看，但不能单看排名。它更像风向标，说明行业正在把注意力从“更会聊天”转向“更会交付结果”。

对普通人的影响

对企业 IT： 选型标准会慢慢变化。过去先看通用能力和价格，接下来会更看重任务完成率、调用内部系统的稳定性，以及能否接入现有流程。

对个人职场： 会写、会总结仍然重要，但“把任务拆开、交给 AI、再验收结果”的能力会变得更值钱。未来被替代的未必是某个岗位，而是岗位里那些标准化执行环节。

对消费市场： 普通用户会看到更多“能代办”的产品，而不只是聊天机器人。但体验是否真的变好，还要看它犯错率高不高、执行是否可控，而不是宣传页写得多聪明。

新 Agent 基准把“会不会干活”单独拎出来，Claude 与 GLM 暂时跑在前面

这是什么

行业怎么看

对普通人的影响

相关推荐

智谱把 GLM-5.2 重点押注长流程任务，大模型竞争开始从会答题转向会干活

GLM-5.2冲到网页开发榜第二，但国产模型离真正商用还差一段路

一则 Reddit 讨论点破本地 Agent 价值：省钱之外，更关键是可控与可持续

Unsloth Studio 靠本地大模型前端出圈，但离主流企业工具还差一步

本地编程 Agent 开始能干活了，但离“放手使用”还差一层管理

开发者把 85%-90% 的 AI 计算放本地，混合式 Agent 正从极客玩具走向降本方案