这是什么
Reddit 用户给 Qwen 3.6 27B 和 Gemma 4 31B 同一个 Prompt:写一个吃豆人网页游戏。在 M5 Max MacBook 上,Qwen 花 18 分钟吐出 33946 个 token(模型生成的最小文本单位),代码长、视觉花哨;Gemma 仅用 3 分 51 秒和 6209 个 token,游戏逻辑却更清晰、碰撞更顺畅、幽灵行为更合理。评委判 Gemma 胜出——输出更多的模型,反而输了。
行业怎么看
这个测试戳中了评价体系的盲区:benchmark 都在比"答得对不对",很少比"答得省不省"。支持方认为这正是本地部署的核心价值——有限算力下快速拿到能用的结果,Google 在模型效率上的工程优化开始见效。
但反对声音同样值得听:这是单次测试,样本太小;Qwen 的长输出包含更复杂的动画逻辑,换创意设计任务可能反转;且两个模型可能针对不同场景优化,直接对比未必公平。我们更关心的判断是:"效率"应该成为选型的新维度。本地部署下,每个多余的 token 都是电费和时间。
对普通人的影响
对企业 IT:选型别只看 benchmark 排行,要在自己的硬件上跑真实任务。生成效率直接影响并发能力和服务器成本。
对个人职场:用本地模型时"精炼"比"详细"更实用,学会写约束性 Prompt(如"不超过200行代码")比换更大模型更划算。
对消费市场:M 系列芯片等本地 AI 硬件普及后,"轻量高效"模型的商业价值会持续上升,这不是技术偏好,是成本逻辑。