返回首页

MoE

找到 6 篇关于此标签的文章

TinygradBlackwell

Tinygrad 在 Blackwell 集群上测 MoE — 本地 AI 社区开始玩最贵的硬件乐高

有人在 Blackwell + M3 Ultra 的 RDMA 集群上跑 Tinygrad 测 MoE 模型,近 2TB 显存。这不是企业发布,而是社区极客的自发实验——本地派正在用最激进的硬件组合,试探开源框架的极限。

May 31 分钟
QwenCoder-Next

Qwen3.6-27B 与 Coder-Next 实测打平 — 选模型不看跑分看场景

一位开发者用 20 小时实测发现,Qwen3.6-27B 与 MoE 架构的 Coder-Next 整体胜率持平,但在不同任务上表现天差地别。更意外的是:关闭「思考模式」反而更稳定。传统跑分正在失灵,场景选型才是关键。

May 31 分钟
MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7(229B MoE)的首批 GGUF 量化版本,提供 Q3_K_L(110GB)和 Q8_0(243GB)两种规格,现已上架 HuggingFace。

Apr 121 分钟
llama.cppQwen

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试:完整速度结果

社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试,结果显示 MoE 模型在速度与质量比方面表现最佳。

Apr 61 分钟
Gemma 4vLLM

在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记

开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。

Apr 61 分钟
llama.cppQwen Coder

APEX 量化与 K-Quants:为何 MoE 编码模型需要不同的压缩策略

APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度,在跨文件编码代理任务中表现优于通用的 K-quants 方法。

Apr 61 分钟