返回首页
MTP
找到 2 篇关于此标签的文章
QwenRTX 3090
消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低
一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s,背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案,关心本地部署的人值得留意这个趋势。
5d ago1 分钟
llama.cppMTP
llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了
llama.cpp 开始支持 MTP 多 token 预测,目前适配 Qwen3.5。结合张量并行成熟,本地推理框架与云端服务之间的速度差距正在收窄,对本地部署大模型的可行性有实质提升。
May 41 分钟