这是什么

Reddit 用户用 16 台 Nvidia DGX Spark(Nvidia 推出的个人 AI 超算工作站)搭成集群,跑通了 434GB 的 GLM-5.1 大模型。这位搭建者表示,配置过程比预想顺利,单节点更新约 20 分钟,网络配置可通过脚本批量完成。他选择 Spark 而非数据中心级的 H100 集群,核心逻辑只有一个:统一内存(CPU 与 GPU 共享同一块大容量内存)。传统显卡显存通常在百 GB 以内,而统一内存架构能直接撑起超大模型对内存的饥渴需求。

行业怎么看

我们注意到,大模型推理的瓶颈正在悄然转移。以前行业拼算力速度,现在超大参数模型让内存容量成了卡脖子的难题。用工作站集群替代昂贵的数据中心显卡,是一种务实的“以容量换速度”策略。但这套方案并非没有代价。首先,多节点集群的网络延迟不可避免,16 台机器的通信效率远不如单台整机柜;其次,这位搭建者计划未来引入 Mac Studio 做理解与生成分流(将大模型“理解问题”和“生成答案”拆到不同硬件处理),这本身就说明单一 Spark 集群在处理吞吐量上仍有短板,需要靠复杂架构来修补。

对普通人的影响

  • 对企业 IT:自建本地大模型推理服务的物理门槛正在降低,中小企业用工作站集群代替千万级机房成为可能,数据不出域的方案有了落地抓手。
  • 对个人职场:AI 基础设施运维正从纯软件走向软硬一体,懂集群网络配置和硬件调优的工程师将产生新的职业溢价。
  • 对消费市场:苹果 Mac 系列的统一内存设计正意外吃到 AI 红利,未来极可能成为大模型推理端的热门硬件选型。