返回首页
TurboQuant
找到 2 篇关于此标签的文章
TurboQuantKV缓存
KV 缓存压缩出现独立评估工具 — 推理优化的重心正转向基础设施
KV 缓存是大模型长文本推理的显存大户,现在有人为 TurboQuant 压缩方案写了独立评估工具。这意味着推理优化正从'能不能跑'走向'怎么跑得稳'。
May 51 分钟
llama.cppQwen3
GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx
ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化, 在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度,并支持 260k 上下文窗口。
Apr 161 分钟