第三方评测机构Artificial Analysis本周更新了Agent 能力排行榜(衡量AI 模型自主完成多步骤任务的能力),阿里通义千问的 Qwen3.6 27B 与 Anthropic的 Claude Sonnet 4.6 并列第一,同时超过谷歌 Gemini 2 .1 Pro Preview 、OpenAI GPT-5 . 2和5.3,以及国内 M iniMax 2.7。这个结果让不少业内人士感到意外——因为27 B( 270 亿参数)在大模型里属于「中小体量」,通常被认为能力上限低于千亿级别的旗舰模型。

这是什么

参数( parameter )可以粗略理解为模型的「神经元数量」,数字越大,模型越重、运行成本越高。 Qwen3.6 27B 的27 B,对比 GP T-4 级别模型普遍超过1 000B ,体量差距悬殊。

Artificial Analysis的Agent评测( Agentic Index)测的不是「回答问题有多准」,而是「能不能自主拆解任务、调用工具、完成多步骤目标」—— 这更接近企业实际部署AI 助手时的真实需求。此次 Qwen3.6 27B 的得分提升,主要来自编程任务和工具调用两个维度,而非通用问答。

阿里方面没有单独发布技术说明,但从模型行为来看,这一版本的训练明显针对Agent 场景做了专项优化,而非追求全面提升。

行业怎么看

乐观的解读是:「小模型专项训练」的路线正在被验证。过去两年,业界普遍认为Agent 能力需要超大模型才能支撑,这个结果动摇了这一假设。如果 270 亿参数能做到旗舰级别的 Agent表现,企业部署成本将大幅下降—— 大模型的API 调用费用是很多中小企业落地的实际障碍。

但也有值得警惕的地方。首先,Artificial Analysis的编程评测只用了Terminal Bench Hard和Sci Code两个子项,覆盖面偏窄,跑分结果未必能反映真实编程场景的全貌。其次,「并列第一」发生在一个特定评测框架内,换一套评测标准,排名可能完全不同。我们注意到,Reddit 讨论区里已有用户指出,这两个测试集的选择本身存在争议,可能对某类训练方式更友好。此外,Qwen系列模型的实际部署体验(稳定性、长上下文表现)与跑分之间历来存在落差,需要更多真实使用反馈来验证。

对普通人的影响

对企业IT: 如果小参数模型的 Agent 能力持续提升,私有化部署(把模型跑在自己服务器上而非调用云端API )的可行性门槛会进一步降低,对数据安全敏感的行业值得持续关注这一趋势。

对个人职场: 短期内感知不明显,但这类评测结果会加速AI 编程助手、自动化工作流工具的迭代速度,使用这类工具的人会更快看到功能更新。

对消费市场: 模型变小、变便宜,意味着更多创业公司有能力在细分场景做出可用的AI 产品,消费端的 AI 应用数量和质量都会受益,但同质化竞争也会随之加剧。