发生了什么

AWS 本 周发布了一份在 Amazon SageMaker HyperPod 上运行生成式 AI 推理的技术最佳实践指南。SageMaker HyperPod 是 AWS 面向基础模型工作负载推出的托管集群平台。这篇由 AWS ML Blog 团队撰写的文章,系统梳理了部署模式、自动扩缩容架构与成本优化策略—— 据 AWS 官方文档,AWS 声称企业可将总 拥有成本(TCO)降低最高 40%,同时加快模型上线速度。

该 指南覆盖了完整的部署生命周期:通过 SageMaker AI 控制台一键创建集群、从 S3、 FSx for Lustre 和 SageMaker JumpStart 加载模型,以及通过双层 Kubernetes 自动扩缩容架构实 现生产级扩展。

为何重要

GPU 基础设施管理始终是企业 AI 部署中 摩擦最高的环节之一。按峰值流量配置资源的团队往 往会过度分配容量;而按平均负载配置的团队则在流量骤增 时频繁遭遇瓶颈。这两种失败模式直接转化为资金 浪费或用户体验下降——在生产规模下,两者都难以接受。

HyperPod 的 价值主张在于操作层面的抽象化:团队可以享有 Kubernetes 的灵活性,同时无需承担节点配置、驱动管理和健康监控等繁琐的基础工作。对于正 在评估 GPU 基础设施自建与采购方案的 C TO 而言,如果供应商文档中 40% TCO 降低的 说法在实际场景中得到验证,将从根本上改变自 建与外购的决策天平。

将 JumpStart 作为零代码部署路径进 行集成,对于那些希望在标准基础模型上快速推进 、无需定制 MLOps 流水线的团队而言同样值得关注。不过,这背 后也存在一贯的取舍:便捷性与可配置性之间的平 衡。

技术细节

集群架构

HyperPod 集群以 Amazon EKS 作为编排控制平面运 行。配置流程提供两条路径:

  • 快速配置:使用预配置的 Kubernetes 控制器和附加组件自动创建默认资源。
  • 自定义配置:支持与已 有 VPC、IAM 和 EKS 配置集成,适合已有既定 基础设施的团队。

Kubernetes 控制器和附加组件可在集群创建时单独启用或 禁用,赋予平台团队对托管组件运行环境的精细化控制。

双层自动扩 缩容

自动扩缩容架构是本指南中技术含量 最高的部分。AWS 将两种不同的 Kubernetes 扩缩容工具结 合使用:

  • KEDA(Kubernetes Event-Driven Autoscaling):负责 Pod 层面的扩缩容, 响应实时需求信号,动态调整推理副 本数量。
  • Karpenter:负责节点层面的扩缩容,根据 KEDA 产 生的 Pod 调度压力,自动创建或释放 EC 2 GPU 实例。

这种分层架构实现了缩 容至零(scale-to-zero)的能力——集群可在空闲期 间完全释放 GPU 节点,并在需求出现时按需重新创建。对于流量呈 现尖峰或不可预测特征的工作负载而言,这很可 能是所宣称成本节省的主要来源,尽管 AWS 在已 发布的指南中并未按组件拆解 TCO 数 据。

推理部署 Operator

该平台内置了 InferenceEndpoint Config 自定义资源,将模型部署抽象为声明式 Kubernetes 清单文件。支 持的模型来源包括:

  • Amazon S3 存储桶(自定义模 型或经过微调的模型)
  • FSx for Lustre(高吞吐量存储,适用于大型模型权 重文件)
  • SageMaker JumpStart(托管模型中心,零代码部署路径)

AWS 为每条部署路径提供了示例 Notebook。对于标准部 署场景,该 Operator 无需编写自定义服务代码;但对于有非 标准服务需求的团队,仍需自行准备容器镜像。

FSx for Lustre 在此场景中的价值

冷启动时从 S3 加载大型基础模型权重会带来显著延迟,进而削弱缩容 至零的经济效益——如果一个节点加载 700 亿参数模型需 要四分钟,那么释放节点所节省的成本可能无法抵消用 户端承受的延迟损失。FSx for Lustre 作为高性能并行文件系统,能 够在节点启动时实现更快的权重加载,从而解决这一问题。将 FSx 与 S3 并列作为一级 模型来源,说明 AWS 已意识到这一权衡的 存在,尽管指南中并未披露具体的冷启动基准测试数据。

值得持续关注的方向
  • 基准验证:40 % TCO 降低的说法来源于 AWS 自身 ,尚未经过独立测试验证。建议关注未 来 30 天内可能出现的第三方成本分析或客户案例,以确认或 修正该数字在特定工作负载下的实际表 现。
  • Karpenter GPU 支持的成熟度:Karpenter 对 GPU 实例的支持在 历史上一直落后于 CPU 实例覆盖范围。建议持 续关注 AWS 发布说明中关于 Karpenter GPU 节点配置的更新,尤其是针对 p 5(H100)和 trn2(Trainium2)等新实例系列的支持情况。
  • GCP 与 Azure 的竞争回应:Google 的 GKE Autopilot 和 Azure 的 AKS(结合 KEDA) 已具备与之重叠的能力。如果 HyperPod 凭借 TC O 叙事在企业市场获得牵 引力,预计两家厂商将及时更新各自的产品定 位。
  • JumpStart 模型目录扩展:零代码的 JumpStart 部署路径,其 价值取决于目录中可用模型的丰富程度。建 议重点追踪 JumpStart 的新增模型动态, 尤其是 Llama 3.x 和 Mistral 系列变体——这两类模型 驱动着企业微调工作负载的大多数需求。
  • 缩容至零延迟数据的披露:随着越来越多的团队将 HyperP od 用于生产推理,预计社区将陆续发布基于 KEDA 与 Karpenter 组合架 构的冷启动延迟基准测试——这是 AWS 目前尚未公开的关 键变量。