两台 128GB 小主机跑起 MiMo-2.5，本地大模型正在逼近企业可用线

两台 128GB 机器、消费级 8060 显卡、356 tokens/s 预填充和 15 tokens/s 生成速度，这组数字说明一件事：本地大模型部署的门槛还很高，但已经开始摸到企业可用线。

这是什么

这条讨论来自 Reddit 的 LocalLLaMA 社区。一位开发者把 MiMo-2.5 跑在两台本地机器上：使用 Proxmox 虚拟化平台、容器、USB4 网络互联，以及基于 ROCm（AMD 的 AI 计算软件栈）的 llama.cpp 推理框架。结果是，在较短上下文条件下，模型能达到 356 tokens/s 的预填充速度和 15 tokens/s 的生成速度。

翻成非技术语言，这意味着：过去只有云上高价服务器才能较稳定完成的事，现在一部分可以在“拼装式本地方案”上实现。它还不算开箱即用，但已经不是纯概念验证。

行业怎么看

我们认为，这类进展对行业有两个信号。第一，企业部署大模型不再只有“买云资源”这一条路，尤其是对数据敏感、算账精细的组织，本地推理开始具备讨论价值。第二，真正的瓶颈正在从“模型能不能跑”转向“系统能不能稳定运维”。原帖里最有信息量的，不是跑起来本身，而是作者反复提到构建后端很折腾：vLLM（面向大模型高吞吐服务的推理框架）总有兼容问题，SGLang（偏数据中心场景的模型服务框架）对消费级硬件并不友好。

这也是需要泼一点冷水的地方。消费级硬件跑大模型，看上去省钱，但隐性成本并不低：驱动兼容、框架适配、网络互联、容器管理，最后都要转成 IT 人员时间。对多数企业来说，硬件便宜不等于总成本更低。另一个风险是性能数字带有条件限制，这次结果是在 1% 或约 1 万上下文长度下测得，离复杂生产环境还有距离。

对普通人的影响

对企业 IT：本地部署大模型会更常进入选型清单，尤其是涉及内网数据、合规要求和固定工作流的场景。但短期内，部署难度仍高，真正适合有技术团队的公司先试。

对个人职场：懂一点模型部署、推理框架和本地算力配置的人，会比只会“调用现成工具”的人更有稀缺性。值得我们关心的是，AI 岗位正从“会用”走向“会落地”。

对消费市场：高内存小主机、消费级显卡和家庭实验室设备的需求可能继续增加。但在普通消费者层面，本地跑大模型离“像装软件一样简单”还有明显距离。

两台 128GB 小主机跑起 MiMo-2.5，本地大模型正在逼近企业可用线

这是什么

行业怎么看

对普通人的影响

相关推荐

Claude 将要求部分用户实名认证，AI 平台开始把风控前置到入口

一个离线单文件工具走红，说明本地大模型真正卡点已从训练转向接入

一条 Reddit 求助帖值得重视：本地文件 AI 正从玩具变成刚需

有人想把自然语言翻成“注意力语法”，判断是想压缩推理成本但还很早期

新 Agent 基准把“会不会干活”单独拎出来，Claude 与 GLM 暂时跑在前面

智谱把 GLM-5.2 重点押注长流程任务，大模型竞争开始从会答题转向会干活