GLM 5.2

找到 1 篇关于此标签的文章

新 Agent 基准把“会不会干活”单独拎出来，Claude 与 GLM 暂时跑在前面

Artificial Analysis 新发布一套 Agent 基准，重点不再是“会不会答题”，而是“大模型能否规划并执行任务”。Claude Fable 和 GLM 5.2 分别在各自组别领先。值得关心的是，行业开始从参数和跑分，转向更接近真实工作的执行能力。