llama.cpp
找到 30 篇关于此标签的文章
消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低
一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s,背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案,关心本地部署的人值得留意这个趋势。
llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了
llama.cpp 开始支持 MTP 多 token 预测,目前适配 Qwen3.5。结合张量并行成熟,本地推理框架与云端服务之间的速度差距正在收窄,对本地部署大模型的可行性有实质提升。
Reddit 社区盘点开源 AI 名人堂:巨头定基调,社区干脏活
Reddit 社区梳理开源 AI 模型名人堂,涵盖 Meta、DeepSeek 等巨头与 llama.cpp 等独立项目。这表明大模型繁荣并非巨头独角戏,而是依赖社区生态的严密分工。
三张显卡跑Agent集群 — 本地AI的瓶颈从显存转向编排
一位开发者用3张AMD显卡搭建多Agent本地协作环境,让小模型各干各的、云端大模型当监工。这暴露了本地AI的新瓶颈:跑得动不够,还得编排得好。
Mistral 3.5 推理 bug 被开源团队修复 — 大模型交付质检亮红灯
开源团队 Unsloth 修复了 Mistral Medium 3.5 的推理缺陷,起因是一个核心参数配置错误。这暴露出大模型公司在交付商业产品时质检流程严重缺位,企业客户需警惕“社区公测”模式带来的业务风险。
Gemma 4 模型文件现身 HuggingFace — 开源社区跑在了官方工具链前面
有人将 gemma-4-31B-it-DFlash 上传至 HuggingFace,但 llama.cpp 尚不支持运行。开源模型迭代速度正把部署工具链甩在身后,拿到模型却用不起来,成了新尴尬。
消费级显卡跑长文本提速10倍 — 本地部署大模型的等待焦虑被新算法终结
开源项目 PFlash 让 RTX 3090 显卡处理 12 万字长文本的等待时间从 4 分钟缩至 24 秒。这标志着消费级硬件跑长文本大模型不再有首字延迟的致命痛点,本地化部署的商业可行性大幅提升。
Qwen3.6 GGUF Benchmarks
Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.
GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx
ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化, 在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度,并支持 260k 上下文窗口。
Gemma 4 与 Qwen 3.5 GGUF 深度评测:oobabooga 的 量化基准分析
oobabooga 发布五份 GGUF 量化基准报告,采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评 测。
Gemma 4 越狱系统提示词流传,开源权重 模型的安全边界再受考验
一段声称可绕过 Gemma 4 安全过滤机 制的系统提示词在 Reddit 上获得 112 个赞,涉及 GGUF 与 MLX 两种量化格式。
本 地 AI 最棒
一篇来自 Reddit 的帖子称赞本地 AI 工具,但不含任何可核实的新闻、数据 或技术进展。
Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores
社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基 准测试显示,Q8_0 变体得分接近 0.001,Q5 以 下质量急剧下降。
端侧AI 模型部署实战五(Android大模型加载)
Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.
llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models
llama-server 现已支持通过 Google Gemma-4 E2A 与 E4A 多模态模型在本地运行语音转文字推理, 大幅扩展了这一开源推理引擎的应用边界。
Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件
Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本,覆盖从 1-bit(60.7 GB)到 BF16(457 GB)的完整量化梯度,大幅降低本地部署门槛。
MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon
社区贡献者发布 MiniMax-M2.7(229B MoE)的首批 GGUF 量化版本,提供 Q3_K_L(110GB)和 Q8_0(243GB)两种规格,现已上架 HuggingFace。
KV缓存压缩技术突破:本地大模型部署成本的结构性重写
llama.cpp实现6.8倍KV缓存压缩,131K上下文显存从8.2GB降至1.2GB,直接重写本地部署AI的硬件采购逻辑。
本地OCR模型崛起:票据识别外包的终结倒计时
llama.cpp现已支持本地运行OCR模型,企业文档识别可脱离云端API,倒逼每年千万级票据外包市场重新定价。
本地 LLM 在 8-9 次链式调用后工具调用准确率下降
Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障,原因是注意力稀释而非上下文限制。
Qwen 3.5 35B 基准测试:AMD Strix Halo 上的 Vulkan 与 ROCm 对决
在 AMD Ryzen AI MAX+ 395 上,Vulkan 在令牌生成方面胜出(约 57.5 t/s),而 ROCm 在提示处理方面领先(约 1052 t/s)。
修复 llama.cpp 中 Gemma 4 工具调用问题:根本原因解析
llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。
通过系统提示词控制 Gemma 4 思考令牌
用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。
RTX 5070 12GB 显存本地 LLM 部署指南
在配备 12GB 显存的 RTX 5070 平台上,为聊天、创意写作及音乐生成选择本地 AI 模型的完整指南。
Google Edge Gallery 应用:来自 LocalLLaMA 社区的首次体验
一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验,认为其表现令人印象深刻。
Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试
在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。
Gemma-4 E4B 视觉基准测试:得分 0.27 远低于 Qwen3.5-4B 的 0.5
社区测试显示,Gemma-4 E4B 在 100 项视觉任务中仅得 0.27 分,远低于 Qwen3.5-4B 的 0.5 基准分,引发对多模态应用的担忧。
llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志
llama-bench 从 b8679 版本起新增 -fitc 和 -fitt 标志,使开发者能更精细地控制基准测试的时间输出格式。
GGML 新增 Q1_0 1 比特量化:以 1.15GB 运行 8B 模型
GGML 现已支持 Q1_0 1 比特量化,将 Bonsai 8B 模型压缩至 1.15GB,实现纯 CPU 推理,大幅降低部署门槛。
llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速
一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化,使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。