4 比特量化能把模型占用压到原来的四分之一左右,而不少模型的困惑度(衡量模型预测质量的指标)并不会明显恶化;我们的判断是,这不是“压缩算法很神”,而是 GPTQ 把模型参数之间的联动关系算进去了。

这是什么

这篇来自 r/LocalLLaMA 的帖子,没有发布新产品,而是把 GPTQ(Gradient Post-Training Quantization,一种训练后量化方法)为什么有效,从数学上重新推了一遍。

核心点很简单:GPTQ 不把每个权重当作彼此独立的数字去硬压缩。它在把某个权重强行映射到 4 比特网格后,会根据 Hessian(近似描述误差曲面弯曲程度的二阶信息)反推出,周围其他权重该如何小幅调整,来“吸收”这次量化带来的误差。

原作者还补了几个工程上真正有用的细节:比如实际代码里为什么要做 1% 的阻尼,为什么生产实现更常用 Cholesky 分解而不是直接求逆,以及为什么取 Hessian 的行而不是列,背后是内存访问效率问题。值得我们关心的是,这类内容不是论文摘要,而是把“能跑”和“跑得稳”之间那层窗户纸捅破了。

行业怎么看

行业里对量化一直有共识:这是大模型落地绕不开的一步,尤其是本地部署、边缘设备和中小企业私有化场景。显存省下来,才谈得上更低成本、更广覆盖。

但这篇帖子提醒我们,量化的竞争早就不是“能不能压到 4 比特”,而是“压完以后还能不能保住效果”。GPTQ 的价值,就在于它不是单点裁剪,而是带补偿的整体调整。这也是为什么同样是 4 比特,不同实现的实际效果会差很多。

反对意见也很明确:第一,这类补偿依赖 Hessian 近似,数学上成立不等于所有模型、所有任务都同样稳;第二,困惑度不明显变差,并不自动等于对话、代码、复杂推理都不掉点;第三,工程实现里的数值稳定性很脆弱,阻尼、分解方法、内存布局都可能影响最终结果。换句话说,量化不是“免费午餐”,而是一套需要经验的精细活。

对普通人的影响

对企业 IT:如果企业想在本地服务器上跑模型,量化质量直接决定硬件采购成本。会做补偿的 4 比特量化,可能让一张卡能跑的模型等级上一个台阶。

对个人职场:这意味着会用开源模型的人,未来不只比拼“会不会调 Prompt”,还会比拼部署和压缩常识。懂一点量化,正在变成实用技能,而不是纯研究话题。

对消费市场:更成熟的量化方案,会推动更多“端侧 AI”(直接跑在手机、电脑等本地设备上的 AI)出现。用户看到的结果,不一定是模型更聪明,而是响应更快、离线可用、价格更低。