MoE

找到 6 篇关于此标签的文章

TinygradBlackwell

Tinygrad 在 Blackwell 集群上测 MoE — 本地 AI 社区开始玩最贵的硬件乐高

有人在 Blackwell + M3 Ultra 的 RDMA 集群上跑 Tinygrad 测 MoE 模型，近 2TB 显存。这不是企业发布，而是社区极客的自发实验——本地派正在用最激进的硬件组合，试探开源框架的极限。

Qwen3.6-27B 与 Coder-Next 实测打平 — 选模型不看跑分看场景

一位开发者用 20 小时实测发现，Qwen3.6-27B 与 MoE 架构的 Coder-Next 整体胜率持平，但在不同任务上表现天差地别。更意外的是：关闭「思考模式」反而更稳定。传统跑分正在失灵，场景选型才是关键。

MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7（229B MoE）的首批 GGUF 量化版本，提供 Q3_K_L（110GB）和 Q8_0（243GB）两种规格，现已上架 HuggingFace。

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试：完整速度结果

社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试，结果显示 MoE 模型在速度与质量比方面表现最佳。

在 vLLM 上运行 Gemma 4 26B-A4B：社区故障排查笔记

开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一，DGX Spark GB10 上的 INT4 量化版本速度过慢。

llama.cppQwen Coder

APEX 量化与 K-Quants：为何 MoE 编码模型需要不同的压缩策略

APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度，在跨文件编码代理任务中表现优于通用的 K-quants 方法。