llama.cpp

找到 30 篇关于此标签的文章

QwenRTX 3090

消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低

一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s，背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案，关心本地部署的人值得留意这个趋势。

5d ago1 分钟

llama.cppMTP

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

llama.cpp 开始支持 MTP 多 token 预测，目前适配 Qwen3.5。结合张量并行成熟，本地推理框架与云端服务之间的速度差距正在收窄，对本地部署大模型的可行性有实质提升。

May 41 分钟

RedditMeta

Reddit 社区盘点开源 AI 名人堂：巨头定基调，社区干脏活

Reddit 社区梳理开源 AI 模型名人堂，涵盖 Meta、DeepSeek 等巨头与 llama.cpp 等独立项目。这表明大模型繁荣并非巨头独角戏，而是依赖社区生态的严密分工。

May 31 分钟

AMD R9700本地部署

三张显卡跑Agent集群 — 本地AI的瓶颈从显存转向编排

一位开发者用3张AMD显卡搭建多Agent本地协作环境，让小模型各干各的、云端大模型当监工。这暴露了本地AI的新瓶颈：跑得动不够，还得编排得好。

May 31 分钟

MistralUnsloth

Mistral 3.5 推理 bug 被开源团队修复 — 大模型交付质检亮红灯

开源团队 Unsloth 修复了 Mistral Medium 3.5 的推理缺陷，起因是一个核心参数配置错误。这暴露出大模型公司在交付商业产品时质检流程严重缺位，企业客户需警惕“社区公测”模式带来的业务风险。

May 21 分钟

GemmaGoogle

Gemma 4 模型文件现身 HuggingFace — 开源社区跑在了官方工具链前面

有人将 gemma-4-31B-it-DFlash 上传至 HuggingFace，但 llama.cpp 尚不支持运行。开源模型迭代速度正把部署工具链甩在身后，拿到模型却用不起来，成了新尴尬。

May 21 分钟

PFlashllama.cpp

消费级显卡跑长文本提速10倍 — 本地部署大模型的等待焦虑被新算法终结

开源项目 PFlash 让 RTX 3090 显卡处理 12 万字长文本的等待时间从 4 分钟缩至 24 秒。这标志着消费级硬件跑长文本大模型不再有首字延迟的致命痛点，本地化部署的商业可行性大幅提升。

May 11 分钟

UnslothQwen3.6

Qwen3.6 GGUF Benchmarks

Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.

Apr 173 分钟

llama.cppQwen3

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化，在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度，并支持 260k 上下文窗口。

Apr 161 分钟

Gemma 4Qwen3.5

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

oobabooga 发布五份 GGUF 量化基准报告，采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评测。

Apr 151 分钟

Gemma-4Google-De epMind

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

一段声称可绕过 Gemma 4 安全过滤机制的系统提示词在 Reddit 上获得 112 个赞，涉及 GGUF 与 MLX 两种量化格式。

Apr 151 分钟

LocalLLaMAllama.cpp

本地 AI 最棒

一篇来自 Reddit 的帖子称赞本地 AI 工具，但不含任何可核实的新闻、数据或技术进展。

Apr 151 分钟

Qwen3.5GGUF

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基准测试显示，Q8_0 变体得分接近 0.001，Q5 以下质量急剧下降。

Apr 141 分钟

llama.cppAndroid

端侧AI 模型部署实战五(Android大模型加载)

Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.

Apr 143 分钟

llama.cppGemma-4

llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models

llama-server 现已支持通过 Google Gemma-4 E2A 与 E4A 多模态模型在本地运行语音转文字推理，大幅扩展了这一开源推理引擎的应用边界。

Apr 121 分钟

UnslothMiniMax-M2.7

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本，覆盖从 1-bit（60.7 GB）到 BF16（457 GB）的完整量化梯度，大幅降低本地部署门槛。

Apr 121 分钟

MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7（229B MoE）的首批 GGUF 量化版本，提供 Q3_K_L（110GB）和 Q8_0（243GB）两种规格，现已上架 HuggingFace。

Apr 121 分钟

本地部署显存优化

KV缓存压缩技术突破：本地大模型部署成本的结构性重写

llama.cpp实现6.8倍KV缓存压缩，131K上下文显存从8.2GB降至1.2GB，直接重写本地部署AI的硬件采购逻辑。

Apr 111 分钟

OCR本地部署

本地OCR模型崛起：票据识别外包的终结倒计时

llama.cpp现已支持本地运行OCR模型，企业文档识别可脱离云端API，倒逼每年千万级票据外包市场重新定价。

Apr 101 分钟

Qwen-32Bllama.cpp

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障，原因是注意力稀释而非上下文限制。

Apr 81 分钟

Qwen3.5LocalAI

Qwen 3.5 35B 基准测试：AMD Strix Halo 上的 Vulkan 与 ROCm 对决

在 AMD Ryzen AI MAX+ 395 上，Vulkan 在令牌生成方面胜出（约 57.5 t/s），而 ROCm 在提示处理方面领先（约 1052 t/s）。

Apr 81 分钟

Gemma 4llama.cpp

修复 llama.cpp 中 Gemma 4 工具调用问题：根本原因解析

llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。

Apr 81 分钟

Gemma 4Qwen3

通过系统提示词控制 Gemma 4 思考令牌

用户难以像控制 Qwen-30B-A3B 那样，通过系统提示词可靠地切换 Gemma 4 的推理模式，暴露了模型在思考令牌控制上的实践缺口。

Apr 81 分钟

Ollamallama.cpp

RTX 5070 12GB 显存本地 LLM 部署指南

在配备 12GB 显存的 RTX 5070 平台上，为聊天、创意写作及音乐生成选择本地 AI 模型的完整指南。

Apr 81 分钟

Google Edge Galleryon-device LLM

Google Edge Gallery 应用：来自 LocalLLaMA 社区的首次体验

一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验，认为其表现令人印象深刻。

Apr 71 分钟

Gemma 4llama.cpp

Gemma 4 本地 CUDA 设置：精度陷阱与真实基准测试

在本地 CUDA 上运行 Gemma 4 时，若 KV 缓存边界处的数据类型不严格匹配，输出将静默退化。

Apr 71 分钟

Gemma-4Qwen3.5

Gemma-4 E4B 视觉基准测试：得分 0.27 远低于 Qwen3.5-4B 的 0.5

社区测试显示，Gemma-4 E4B 在 100 项视觉任务中仅得 0.27 分，远低于 Qwen3.5-4B 的 0.5 基准分，引发对多模态应用的担忧。

Apr 71 分钟

llama.cppllama-bench

llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志

llama-bench 从 b8679 版本起新增 -fitc 和 -fitt 标志，使开发者能更精细地控制基准测试的时间输出格式。

Apr 61 分钟

GGMLllama.cpp

GGML 新增 Q1_0 1 比特量化：以 1.15GB 运行 8B 模型

GGML 现已支持 Q1_0 1 比特量化，将 Bonsai 8B 模型压缩至 1.15GB，实现纯 CPU 推理，大幅降低部署门槛。

Apr 61 分钟

llama.cppIntel Arc

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化，使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。

Apr 61 分钟

llama.cpp

消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

Reddit 社区盘点开源 AI 名人堂：巨头定基调，社区干脏活

三张显卡跑Agent集群 — 本地AI的瓶颈从显存转向编排

Mistral 3.5 推理 bug 被开源团队修复 — 大模型交付质检亮红灯

Gemma 4 模型文件现身 HuggingFace — 开源社区跑在了官方工具链前面

消费级显卡跑长文本提速10倍 — 本地部署大模型的等待焦虑被新算法终结

Qwen3.6 GGUF Benchmarks

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的 量化基准分析

Gemma 4 越狱系统提示词流传，开源权重 模型的安全边界再受考验

本 地 AI 最棒

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

端侧AI 模型部署实战五(Android大模型加载)

llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

KV缓存压缩技术突破：本地大模型部署成本的结构性重写

本地OCR模型崛起：票据识别外包的终结倒计时

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 3.5 35B 基准测试：AMD Strix Halo 上的 Vulkan 与 ROCm 对决

修复 llama.cpp 中 Gemma 4 工具调用问题：根本原因解析

通过系统提示词控制 Gemma 4 思考令牌

RTX 5070 12GB 显存本地 LLM 部署指南

Google Edge Gallery 应用：来自 LocalLLaMA 社区的首次体验

Gemma 4 本地 CUDA 设置：精度陷阱与真实基准测试

Gemma-4 E4B 视觉基准测试：得分 0.27 远低于 Qwen3.5-4B 的 0.5

llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志

GGML 新增 Q1_0 1 比特量化：以 1.15GB 运行 8B 模型

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

本地 AI 最棒