Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

事件概述

r/LocalLLaMA 社区的一位基准测试贡献者发布了针对 Qwen3.5-9B 超过 35 种社区 GGUF 量化版本的 KL 散度（KLD）评测结果，截至撰稿时该帖子已获得 56 个赞。此次分析通过衡量各量化版本相对于 BF16 基准的概率分布漂移，为本地部署决策提供了一项独立于数据集的保真度指标。

该评测方法明确将 KLD 置于困惑度（PPL）之上。作者指出：" PPL 存在噪声，可能因运气而获得更好的分数。KLD 更优，因为它不依赖数据集，而是基于基准模型本身。"

为何值得关注

对于在本地或边缘设备上运行 Qwen3.5-9B 的工程团队而言，量化方案的选择直接影响推理保真度、显存占用与存储成本。相比依赖某个模型托管平台碰巧推送的量化版本，这份对比为从业者提供了一个有排名、可复现的决策依据。

数据清晰呈现出一道保真度断崖：Q8_0 和 Q6_K 变体的 KLD 分数均低于 0.005，而 Q4 区间的量化版本则跃升至 0.015–0.026——分布漂移扩大了 3 至 20 倍。对于追求每 GB 精度最优的团队而言，Q6_K 档位在质量大幅劣化之前提供了最佳的性价比平衡点。

技术细节

顶级梯队：Q8_0 集群（KLD < 0.002）

所有 Q8_0 变体的得分集中在一个极窄的区间内。表现最优的几个版本：

eaddario/Qwen3.5-9B -Q8_0 — 8.873 GiB，KLD：0.001198（最低记录值）
unsloth/Qwen3 .5-9B-UD-Q8_K_XL — 12.083 GiB，KLD：0.001243
bartowski/Qwen_Qwen3.5-9B-Q8_0 — 8.89 GiB，KLD：0.001405
lmstudio-community/Qwen3.5-9B-Q8_0 — 8.873 GiB，KLD： 0.001410

值得注意的是，unsloth/Qwen3.5-9B-UD-Q8_K_XL 以 12.083 GiB 的体积实现了相近的保真度—— 比标准 Q8_0 大出 36%，而 KLD 的改善幅度却极为有限。对于显存受限的部署场景，标准 Q8_0 仍是毫无悬念的默认选择。

中级梯队：Q6_K 区间（KLD 0.002–0.005）

Q6_K 变体在有效缩减体积的同时，将保真度损失控制在可接受范围内：

unsloth/Qwen 3.5-9B-UD-Q6_K_XL — 8.156 GiB，KLD：0.001910
bartowski/Qwen_Qwen3.5-9B-Q6_ K_L — 7.592 GiB，KLD：0.002371
bartowski/Qwen_Qwen3.5-9B-Q6_K — 7. 134 GiB，KLD：0.002813

bartowski/Q6_K 变体相较标准 Q8_0 节省了 1.76 GiB，KLD 仅上升约 0.0016—— 对于大多数无需精确匹配输出分布的生产用例而言，这一代价完全可以接受。

Q5 区间：逼近断崖（KLD 0.006–0.010）

Q5 变体呈现出渐进式的质量退化：

bartowski/Qwen_Qwen3.5-9B-Q5_K_L — 6.976 GiB，KLD： 0.006068
bartowski/Qwen_Qwen3.5-9B-Q5_K_M — 6.392 GiB，KLD：0.006604
bartowski/Qwen_Qwen3.5-9B-Q5_K_S — 6.078 GiB，KLD：0.008110

在大多数 bartowski 变体中，从 Q6_K 到 Q5_K_M 的 KLD 大约翻倍，表明在此压缩级别下存在不可忽视的信息损失。

Q4 及以下：急剧退化（KLD 0.015–0.026）

Q4 档位的 KLD 分数比 Q8_0 基准高出 3 至 10 倍：

bartowski/Qwen_Qwen3.5-9B-Q4_K_L — 6.188 GiB，KLD：0.015064
bartowski/Qwen_Qwen3.5-9B-Q4_K_M — 5.485 GiB，KLD：0.016754
bartowski/Qwen_Qwen3 .5-9B-IQ4_XS — 4.846 GiB，KLD：0.025705

值得特别注意的是，eaddario/Qwen 3.5-9B-Q6_K 尽管名为 Q6 量化，KLD 却异常高达 0.021010——比多个 Q4 变体还要差—— 这暗示该构建版本可能存在特定的打包或量化工件问题。工程师应对这一离群值保持审慎态度，并进行独立验证。

PPL 分数

所有变体的困惑度分数密集地分布在约 19.17 至 19.71 的区间内，印证了作者的判断：对于该压缩范围内的量化版本选择，PPL 的区分度不足。 KLD 的离散程度才是更可靠的参考信号。

后续值得关注的动向

Qwen3.5 更广泛的发布动态： 社区量化版本的扩增通常在模型发布后的 30 天内加速。预计会出现更多基于 i Matrix 的 IQ 量化版本，可能对当前 Q5/Q4 的 KLD 排名形成挑战。
Unsloth UD 系列的扩展：UD-Q 8_K_XL 和 UD-Q6_K_XL 变体采用了非标准量化方案，以牺牲文件大小换取更高保真度。值得关注 unsloth 是否会在更低比特位区间发布更新的 UD 量化版本。
llama.cpp 量化算法改进：llama.cpp 上游对 GGUF 量化内核的任何修改都可能使现有排名失效——建议在未来 30 天内持续关注 llama.cpp 代码仓库中与量化相关的 PR 动态。
结果复现：本次 KLD 评测所使用的方法论与工具并未随原帖发布。独立复现将有效增强对排名结果的可信度，尤其是针对 eaddario Q6_K 异常值的解释。

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

为何值得关注

技术细节

顶级梯队：Q8_0 集群（KLD < 0.002）

中级梯队：Q6_K 区间（KLD 0.002–0.005）

Q5 区间：逼近断崖（KLD 0.006–0.010）

Q4 及以下：急剧退化（KLD 0.015–0.026）

PPL 分数

后续值得关注的动向

相关推荐

一则 Reddit 讨论点破本地 Agent 价值：省钱之外，更关键是可控与可持续

Unsloth Studio 靠本地大模型前端出圈，但离主流企业工具还差一步

本地编程 Agent 开始能干活了，但离“放手使用”还差一层管理

开发者把 85%-90% 的 AI 计算放本地，混合式 Agent 正从极客玩具走向降本方案

一则 Reddit 提问暴露新需求：本地大模型开始试探心理分析，但风险先于机会

4 比特量化没把模型“压坏”，关键不在压缩而在补偿计算

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

为何值得关注

技术细节

顶级梯队：Q8_0 集 群（KLD < 0.002）

中级梯队：Q6_K 区 间（KLD 0.002–0.005）

Q5 区间： 逼近断崖（KLD 0.006–0.010）

Q4 及以下：急剧退化（KLD 0.015–0.026）

PPL 分数

后续值得关注的动向

相关推荐

一则 Reddit 讨论点破本地 Agent 价值：省钱之外，更关键是可控与可持续

Unsloth Studio 靠本地大模型前端出圈，但离主流企业工具还差一步

本地编程 Agent 开始能干活了，但离“放手使用”还差一层管理

开发者把 85%-90% 的 AI 计算放本地，混合式 Agent 正从极客玩具走向降本方案

一则 Reddit 提问暴露新需求：本地大模型开始试探心理分析，但风险先于机会

4 比特量化没把模型“压坏”，关键不在压缩而在补偿计算

顶级梯队：Q8_0 集群（KLD < 0.002）

中级梯队：Q6_K 区间（KLD 0.002–0.005）

Q5 区间：逼近断崖（KLD 0.006–0.010）