Article Not Found

Gemma 4 仅用1/5 token跑赢Qwen 3.6 — 本地部署开始拼效率

这是什么

Reddit 用户给 Qwen 3.6 27B 和 Gemma 4 31B 同一个 Prompt：写一个吃豆人网页游戏。在 M5 Max MacBook 上，Qwen 花 18 分钟吐出 33946 个 token（模型生成的最小文本单位），代码长、视觉花哨；Gemma 仅用 3 分 51 秒和 6209 个 token，游戏逻辑却更清晰、碰撞更顺畅、幽灵行为更合理。评委判 Gemma 胜出——输出更多的模型，反而输了。

行业怎么看

这个测试戳中了评价体系的盲区：benchmark 都在比"答得对不对"，很少比"答得省不省"。支持方认为这正是本地部署的核心价值——有限算力下快速拿到能用的结果，Google 在模型效率上的工程优化开始见效。

但反对声音同样值得听：这是单次测试，样本太小；Qwen 的长输出包含更复杂的动画逻辑，换创意设计任务可能反转；且两个模型可能针对不同场景优化，直接对比未必公平。我们更关心的判断是："效率"应该成为选型的新维度。本地部署下，每个多余的 token 都是电费和时间。

对普通人的影响

对企业 IT：选型别只看 benchmark 排行，要在自己的硬件上跑真实任务。生成效率直接影响并发能力和服务器成本。

对个人职场：用本地模型时"精炼"比"详细"更实用，学会写约束性 Prompt（如"不超过200行代码"）比换更大模型更划算。

对消费市场：M 系列芯片等本地 AI 硬件普及后，"轻量高效"模型的商业价值会持续上升，这不是技术偏好，是成本逻辑。

Gemma 4 仅用1/5 token跑赢Qwen 3.6 — 本地部署开始拼效率

这是什么

行业怎么看

对普通人的影响

Related Reading

Gemma 4 Beats Qwen 3.6 With 1/5 The Tokens — Local AI Era Demands Efficiency

Google DeepMind AI Co-Clinician: Medical LLMs Ditch Solo for Decision Support

Rewriting Micro GPT in Futhark: AI Learning Returns to Building From Scratch

DeepSeek Multimodal Test: Instant OCR, Fails Color Blind Cards, Coding Wins Most

Zig Founder: AI Code Has a "Digital Smell" — Open Source Raises Defenses

Microsoft Red Teams 100 AI Agents: Single Safety ≠ Network Security