MTP

找到 2 篇关于此标签的文章

消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低

一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s，背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案，关心本地部署的人值得留意这个趋势。

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

llama.cpp 开始支持 MTP 多 token 预测，目前适配 Qwen3.5。结合张量并行成熟，本地推理框架与云端服务之间的速度差距正在收窄，对本地部署大模型的可行性有实质提升。