代码生成

找到 4 篇关于此标签的文章

小米 MiMo 耗六倍算力仍出废代码，大模型竞争正从跑分转向交付效率

近日一项复杂编程测试显示，小米 MiMo 2.5 Pro 耗费 6 倍算力仍未交付可用代码，而 DeepSeek 等模型高效完成。这表明大模型跑分已无法反映真实开发水平，企业选型应更关注实际交付率与成本。

MistralDevstral

Devstral Small 2 代码跑分首破 80% — Mistral 可能被严重低估

一位开发者自建基准测试显示，Mistral 的 Devstral Small 2 在 8 项代码工程任务中得分超 80%，首次有本地模型跑赢多个闭源对手。开源代码模型的真实能力，可能被标准测试掩盖了。

GLM开源模型

GLM 5.1代码能力登顶：中国开源模型的商业拐点来了

GLM 5.1在代码竞技场排名中位列开源模型前三，据社区反馈甚至超越ChatGPT与Gemini，这迫使每一家依赖外包软件开发的中小企业重新估算IT预算。

Qwen3.5 与 Gemma4 及云端大模型对比：Python Turtle 绘图基准测试

Reddit 用户对本地与云端大模型进行 Python Turtle 绘图基准测试，发现 Gemma4 与 Gemini 在视觉风格上高度相似，本地量化模型表现强劲。