Artificial Analysis 这周新发了一套专门测 Agent 的基准,Claude Fable 和 GLM 5.2 分别在各自组别排在前面;我们的判断是,这比又一张传统榜单更值得看,因为它试图回答一个更现实的问题:模型到底能不能把事做完。

这是什么

这套测试来自 Artificial Analysis,核心不是考模型“知道多少”,而是考它“能不能规划步骤并执行任务”。所谓 Agent(能调用工具、分步骤完成目标的 AI 系统),一直被行业当成大模型走向生产力的下一站,但过去很多榜单更像考试排名,和真实办公、检索、操作软件之间还有距离。

这次基准的一个重点,是它相对“新”,还没有被大量厂商围着优化,因此短期内更能看出模型原始的任务执行能力。按照目前结果,Claude Fable 和 GLM 5.2 在各自比较组里表现突出。我们注意到,这也让国内模型在“能干活”这件事上,不再只是在语言能力上陪跑。

行业怎么看

行业对这类新基准普遍欢迎,因为它把评价标准从“会不会说”往“会不会做”推进了一步。对企业客户来说,这种变化很关键:真正决定采购的,往往不是模型在公开题库上多拿几分,而是它能否稳定完成报表整理、资料检索、流程跟进这类任务。

但反对意见也很明确。第一,基准再接近真实,也还是基准,不等于企业现场。一个模型在测试里会规划,不代表接进公司系统后也能稳定执行。第二,新榜单短期不“刷分”,不代表之后不会被针对性优化。第三,Agent 表现不仅取决于模型本身,还取决于工具接口、权限设计和工作流编排,这些往往比底座模型更影响落地结果。

所以我们的判断是:这类榜单值得看,但不能单看排名。它更像风向标,说明行业正在把注意力从“更会聊天”转向“更会交付结果”。

对普通人的影响

对企业 IT: 选型标准会慢慢变化。过去先看通用能力和价格,接下来会更看重任务完成率、调用内部系统的稳定性,以及能否接入现有流程。

对个人职场: 会写、会总结仍然重要,但“把任务拆开、交给 AI、再验收结果”的能力会变得更值钱。未来被替代的未必是某个岗位,而是岗位里那些标准化执行环节。

对消费市场: 普通用户会看到更多“能代办”的产品,而不只是聊天机器人。但体验是否真的变好,还要看它犯错率高不高、执行是否可控,而不是宣传页写得多聪明。