事件概述

r/LocalLLaMA 社区的一位基 准测试贡献者发布了针对 Qwen3.5-9B 超过 35 种社 区 GGUF 量化版本的 KL 散度(KLD)评测结果,截至撰 稿时该帖子已获得 56 个赞。此次分析通 过衡量各量化版本相对于 BF16 基准的概率分布漂移,为本地部署决策提供 了一项独立于数据集的保 真度指标。

该评测方法明确将 KLD 置于困 惑度(PPL)之上。作者指出:" PPL 存在噪声,可能因运气而获 得更好的分数。KLD 更优,因为它不依赖数据集,而是基于基准模 型本身。"

为何值得关注

对于在本地或 边缘设备上运行 Qwen3.5-9B 的工程团队而言,量化方 案的选择直接影响推理保真度、显存占用与存储成本。相 比依赖某个模型托管平台碰巧推送的量 化版本,这份对比为从业者提供了一个有排 名、可复现的决策依据。

数据清 晰呈现出一道保真度断崖:Q8_0 和 Q6_K 变体 的 KLD 分数均低于 0.005,而 Q4 区间的量化版本则 跃升至 0.015–0.026——分布漂移扩大了 3 至 20 倍。对于追求每 GB 精 度最优的团队而言,Q6_K 档位在 质量大幅劣化之前提供了最佳的性价 比平衡点。

技术细节

顶级梯队:Q8_0 集 群(KLD < 0.002)

所有 Q8_0 变体的得分集中在一个极窄的区 间内。表现最优的几个版本:

  • eaddario/Qwen3.5-9B -Q8_0 — 8.873 GiB,KLD:0.001198(最低记录值)
  • unsloth/Qwen3 .5-9B-UD-Q8_K_XL — 12.083 GiB,KLD:0.001243
  • bartowski/Qwen_Qwen3.5-9B-Q8_0 — 8.89 GiB,KLD:0.001405
  • lmstudio-community/Qwen3.5-9B-Q8_0 — 8.873 GiB,KLD: 0.001410

值得注意的是,unsloth/Qwen3.5-9B-UD-Q8_K_XL 以 12.083 GiB 的体积实现了相近的保真度—— 比标准 Q8_0 大出 36%,而 KLD 的改善 幅度却极为有限。对于显存受限的部署场景,标准 Q8_0 仍是毫无悬念的默认选择。

中级梯队:Q6_K 区 间(KLD 0.002–0.005)

Q6_K 变体在有效缩减体 积的同时,将保真度损失控制在可接受范围内:

  • unsloth/Qwen 3.5-9B-UD-Q6_K_XL — 8.156 GiB,KLD:0.001910
  • bartowski/Qwen_Qwen3.5-9B-Q6_ K_L — 7.592 GiB,KLD:0.002371
  • bartowski/Qwen_Qwen3.5-9B-Q6_K — 7. 134 GiB,KLD:0.002813

bartowski/Q6_K 变体相较标准 Q8_0 节 省了 1.76 GiB,KLD 仅上升约 0.0016—— 对于大多数无需精确匹配输出分布的生 产用例而言,这一代价完全可以接受。

Q5 区间: 逼近断崖(KLD 0.006–0.010)

Q5 变体呈现出渐进式的 质量退化:

  • bartowski/Qwen_Qwen3.5-9B-Q5_K_L — 6.976 GiB,KLD: 0.006068
  • bartowski/Qwen_Qwen3.5-9B-Q5_K_M — 6.392 GiB,KLD:0.006604
  • bartowski/Qwen_Qwen3.5-9B-Q5_K_S — 6.078 GiB,KLD:0.008110

在大 多数 bartowski 变体中,从 Q6_K 到 Q5_K_M 的 KLD 大约翻倍,表 明在此压缩级别下存在不可忽视的信息损 失。

Q4 及以下:急剧退化(KLD 0.015–0.026)

Q4 档位的 KLD 分数比 Q8_0 基准高出 3 至 10 倍:

  • bartowski/Qwen_Qwen3.5-9B-Q4_K_L — 6.188 GiB,KLD:0.015064
  • bartowski/Qwen_Qwen3.5-9B-Q4_K_M — 5.485 GiB,KLD:0.016754
  • bartowski/Qwen_Qwen3 .5-9B-IQ4_XS — 4.846 GiB,KLD:0.025705

值得特别注意的是,eaddario/Qwen 3.5-9B-Q6_K 尽管名为 Q6 量化,KLD 却异 常高达 0.021010——比多个 Q4 变体还要差—— 这暗示该构建版本可能存在特定的打包或量化工 件问题。工程师应对这一离 群值保持审慎态度,并进行独立验证。

PPL 分数

所 有变体的困惑度分数密集地分布在约 19.17 至 19.71 的区间内,印证了作者的判断:对于该 压缩范围内的量化版本选择,PPL 的区分度不足。 KLD 的离散程度才是更可靠的参 考信号。

后续值得关注的动向

  • Qwen3.5 更广泛的发布动态: 社区量化版本的扩增通常在模型发布后的 30 天内加速。预计会出现更多基于 i Matrix 的 IQ 量化版本,可能对当前 Q5/Q4 的 KLD 排名形 成挑战。
  • Unsloth UD 系列的扩展:UD-Q 8_K_XL 和 UD-Q6_K_XL 变体采用了非标准量 化方案,以牺牲文件大小换取更高保真度。值 得关注 unsloth 是否会在更低比特 位区间发布更新的 UD 量化版本。
  • llama.cpp 量化算 法改进:llama.cpp 上游对 GGUF 量化内 核的任何修改都可能使现有排名失 效——建议在未来 30 天内持续关注 llama.cpp 代 码仓库中与量化相关的 PR 动态。
  • 结果复现:本次 KLD 评测所使 用的方法论与工具并未随 原帖发布。独立复现将有效增强对排名结果的可 信度,尤其是针对 eaddario Q6_K 异常值的解 释。