Gemma 4
找到 14 篇关于此标签的文章
Google 让 Gemma 4 生成速度翻倍 — 小模型带大模型跑的"投机解码"成主流
Google 发布 Gemma 4 系列 MTP 模型,通过"投机解码"技术实现最高 2 倍加速且输出质量不变。这意味着本地部署大模型的实用性显著提升,算力门槛进一步降低。
谷歌 Gemma 4 修好对话模板 — 本地跑大模型的体验又往前挪了一步
谷歌开源模型 Gemma 4 的对话模板 bug 本周被修复,社区量化版同步更新。这不是大新闻,但说明本地部署 AI 的可用性正在被细节打磨一点点推高。
教程上新丨一键部署Gemma 4 31B,最高256K上下文,能力媲美Qwen3.5 397B
Google DeepMind 开 源 Gemma 4 31 B 现已登 陆 OpenBayes, 一 键部署, 256 K 上下文,Apache 2.0 授 权, 基 准 测 试表 现 媲美 Qwen 3 .5 397B。
Gemma 4 与 Qwen 3.5 GGUF 深度评测:oobabooga 的 量化基准分析
oobabooga 发布五份 GGUF 量化基准报告,采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评 测。
Gemma 4 audio with MLX
Google's Gemma 4 E2B model can transcribe audio locally on macOS using MLX and a single uv run command.
修复 llama.cpp 中 Gemma 4 工具调用问题:根本原因解析
llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。
通过系统提示词控制 Gemma 4 思考令牌
用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。
Gemma 4 发布时 Google 禁用了隐藏的 MTP 头部
开发者在 Gemma 4 的 LiteRT 文件中发现了多 token 预测权重;Google 确认 MTP 存在但被故意禁用,旨在确保兼容性与广泛可用性。
Gemma 4 31B 在 EuroEval 五项欧洲语言评测中跻身前三
Gemma 4 31B 在 EuroEval 多语言排行榜中表现强劲,芬兰语位列第 1,丹麦语、法语和意大利语位列第 2。
Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试
在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。
深入谷歌 DeepMind Gemma 4 发布:背后所需的一切
Reddit 社区帖子剖析了谷歌 DeepMind 开源模型 Gemma 4 发布背后的工程挑战与物流协调细节。
在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记
开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。
在设备上运行私有AI手机助手:Gemma 4与PokeClaw
PokeClaw在Android上本地运行Gemma 4来控制任何应用——无云端、无数据泄露、无订阅。
Gemma 4 llama.cpp Issues Resolved With Recent Fixes
Google Gemma 4 models now run correctly in llama.cpp after critical fixes for output quality and crashes