返回首页
代码生成
找到 4 篇关于此标签的文章
小米MiMo
小米 MiMo 耗六倍算力仍出废代码,大模型竞争正从跑分转向交付效率
近日一项复杂编程测试显示,小米 MiMo 2.5 Pro 耗费 6 倍算力仍未交付可用代码,而 DeepSeek 等模型高效完成。这表明大模型跑分已无法反映真实开发水平,企业选型应更关注实际交付率与成本。
May 61 分钟
MistralDevstral
Devstral Small 2 代码跑分首破 80% — Mistral 可能被严重低估
一位开发者自建基准测试显示,Mistral 的 Devstral Small 2 在 8 项代码工程任务中得分超 80%,首次有本地模型跑赢多个闭源对手。开源代码模型的真实能力,可能被标准测试掩盖了。
Apr 301 分钟
GLM开源模型
GLM 5.1代码能力登顶:中国开源模型的商业拐点来了
GLM 5.1在代码竞技场排名中位列开源模型前三,据社区反馈甚至超越ChatGPT与Gemini,这迫使每一家依赖外包软件开发的中小企业重新估算IT预算。
Apr 101 分钟
Qwen3.5Gemma4
Qwen3.5 与 Gemma4 及云端大模型对比:Python Turtle 绘图基准测试
Reddit 用户对本地与云端大模型进行 Python Turtle 绘图基准测试,发现 Gemma4 与 Gemini 在视觉风格上高度相似,本地量化模型表现强劲。
Apr 61 分钟