Article Not Found

第三方评测机构Artificial Analysis本周更新了Agent 能力排行榜（衡量AI 模型自主完成多步骤任务的能力），阿里通义千问的 Qwen3.6 27B 与 Anthropic的 Claude Sonnet 4.6 并列第一，同时超过谷歌 Gemini 2 .1 Pro Preview 、OpenAI GPT-5 . 2和5.3，以及国内 M iniMax 2.7。这个结果让不少业内人士感到意外——因为27 B（ 270 亿参数）在大模型里属于「中小体量」，通常被认为能力上限低于千亿级别的旗舰模型。

这是什么

参数（ parameter ）可以粗略理解为模型的「神经元数量」，数字越大，模型越重、运行成本越高。 Qwen3.6 27B 的27 B，对比 GP T-4 级别模型普遍超过1 000B ，体量差距悬殊。

Artificial Analysis的Agent评测（ Agentic Index）测的不是「回答问题有多准」，而是「能不能自主拆解任务、调用工具、完成多步骤目标」—— 这更接近企业实际部署AI 助手时的真实需求。此次 Qwen3.6 27B 的得分提升，主要来自编程任务和工具调用两个维度，而非通用问答。

阿里方面没有单独发布技术说明，但从模型行为来看，这一版本的训练明显针对Agent 场景做了专项优化，而非追求全面提升。

行业怎么看
乐观的解读是：「小模型专项训练」的路线正在被验证。过去两年，业界普遍认为Agent 能力需要超大模型才能支撑，这个结果动摇了这一假设。如果 270 亿参数能做到旗舰级别的 Agent表现，企业部署成本将大幅下降—— 大模型的API 调用费用是很多中小企业落地的实际障碍。
但也有值得警惕的地方。首先，Artificial Analysis的编程评测只用了Terminal Bench Hard和Sci Code两个子项，覆盖面偏窄，跑分结果未必能反映真实编程场景的全貌。其次，「并列第一」发生在一个特定评测框架内，换一套评测标准，排名可能完全不同。我们注意到，Reddit 讨论区里已有用户指出，这两个测试集的选择本身存在争议，可能对某类训练方式更友好。此外，Qwen系列模型的实际部署体验（稳定性、长上下文表现）与跑分之间历来存在落差，需要更多真实使用反馈来验证。
对普通人的影响

对企业IT： 如果小参数模型的 Agent 能力持续提升，私有化部署（把模型跑在自己服务器上而非调用云端API ）的可行性门槛会进一步降低，对数据安全敏感的行业值得持续关注这一趋势。

对个人职场： 短期内感知不明显，但这类评测结果会加速AI 编程助手、自动化工作流工具的迭代速度，使用这类工具的人会更快看到功能更新。

对消费市场： 模型变小、变便宜，意味着更多创业公司有能力在细分场景做出可用的AI 产品，消费端的 AI 应用数量和质量都会受益，但同质化竞争也会随之加剧。

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

Related Reading

It 's a Big One

Qwen3 .6 27B Ties Claude Sonnet 4.6 on A gentic Benchmark

Google Lets AI Recompose Your Photos After the Shot

Google Engineers Want One Ruleset for Production - Ready AI Code — Harder Than It Sounds

Your AI Isn 't D umb — It Just Needs Constraints

A Low -Code Platform's Internal Doc Got Pushed as AI News — The Filter Is Broken