NVIDIA 发布的 NVFP4 量化版 Gemma-4-26B,6 项核心基准测试中精度损失全部控制在 0.7% 以内,AIME 2025 甚至反超满血版 — 4 位量化已经不再是'能用'的妥协,而是'好用'的选择。
这是什么
NVIDIA 发布了 Gemma-4-26B 的 NVFP4 量化版本(NVFP4:NVIDIA 自研 4 位浮点数量化格式,用更少位数存储模型参数以降低显存占用)。模型体积压缩至 18.8GB,可在 32GB 显存的 RTX 5090 上以 80% 显存占用运行,上下文窗口约 5 万 token。
关键数据:GPQA Diamond 从 80.30% 降至 79.90%,MMLU Pro 从 85.00% 降至 84.80%,LiveCodeBench 从 80.50% 降至 79.80% — 降幅均在噪声范围内。AIME 2025 和 IFBench 两项反而略有提升。
行业怎么看
我们注意到,NVFP4 不是通用标准,而是 NVIDIA 硬件生态的一部分。它只在 NVIDIA GPU 上高效运行,这实际上是在用量化格式锁定开发者 — AMD 和 Intel 的 GPU 目前无法原生支持 NVFP4 推理。量化技术的进步也让'大模型必须上云'的叙事开始松动,26B 参数模型能在消费级显卡跑出接近满血的质量,企业本地部署门槛显著降低。
但值得警惕的是:NVFP4 的基准测试数据来自 NVIDIA 官方,实际业务场景(长文本、复杂推理链)的退化幅度可能更大。社区已有声音质疑,这种量化在 RAG(检索增强生成,即让模型先查资料再回答的技术)场景下的召回率是否还能保持稳定。
对普通人的影响
对企业 IT:本地部署 26B 级别模型的硬件门槛从 A100 降到了消费级显卡,中小企业可以认真评估'数据不出内网'的 AI 方案了。
对个人职场:量化技术成熟意味着'懂本地部署'的工程师议价能力上升,需求正从'能用 API'转向'能跑本地'。
对消费市场:NVIDIA 正用 NVFP4 给 RTX 5090 加一条购买理由 — 买显卡不只是打游戏,还能跑大模型。