事件概 述
Amazon Web Services 在 AWS Machine Learning Blog 上发布了 Nova Forge SDK 系列教程的第二篇,提供了一份 使用数据混合技术对 Amazon Nova 模型进行微调 的实操指南。该指南涵盖从环境配置到模型评估的五阶段 完整工作流,面向具备 SageMaker HyperPod 基础设施访 问权限的工程师群体。
本文直接延续系 列第一篇的内容——第一篇介绍了 SDK 的基本概念并演 示了如何发起定制化实验。第二篇则专 注于数据混合这一核心技术,即在有监督微调过程中,将客 户专属训练数据与 Amazon 精选 数据集进行融合的方法。
为何 值得关注
这篇文章用具体数字 验证了数据混合的实际价值。据 AWS 披露,在微 调阶段将客户数据与 Amazon 精选数据集混合使用,在 一项涵盖 1,420 个叶节 点类别的客户声音(Voice of Customer)分 类任务中实现了 F1 分数提 升 12 个百分点,同时将 Massive Multitask Language Understanding(MMLU)得分保持在接近基线的水平。AWS 指 出,若仅使用客户数据对开源模型进行微调,会导致模型几 乎完全丧失通用能力——这正是业 界熟知的"灾难性遗忘"问题,而数据混合正 是为解决这一问题而设计的。
对于正在评 估是在 AWS 上微调私有模型还是开源替代方案的工程团 队而言,这一基准对比——尽管仅限 于单一分类任务——提供了一个关于两者权 衡的具体参考数据点。1,420 个类别的分类规 模,也表明该技术适用于大规模企 业级分类体系场景。
技术细节
AWS 所记录的工作流分为五个阶段:
- 环境配置: 安装 Nova Forge SDK 并配置 AWS 资源。SDK 依赖 SageMaker HyperPod CLI 工具链,通过 Nova Forge 入驻流程中提供的私有 S3 存储 桶进行分发。
- 数据准备:对训练数据进行加载、清洗、转换、验证和划 分。
- 训练配置:配置 SageMaker HyperPod 运行时、MLflow 实验追踪参数以 及数据混合比例。
- 模型训练:使用 Low-Rank Adaptation(LoRA)启动有 监督微调任务,并通过 HyperPod 进行全程监控。
- 模型评估:针 对微调后的检查点运行公开基准测试和特定领域评估。
参
考硬件配置使用 ml.p5.48xlarge 实例——AWS 的顶级 GPU 计算节点——
训练和评估阶段各分配四个实例。AWS 明确建
议在提交完整训练任务之前,先使用 max_steps=5 进行短周期测试运
行以验证配置,这也间接承认了该实例级
别的成本风险。
微调采用 LoRA(Low-Rank Adaptation)方法,相较
于全参数微调,可显著减少可训练参数量——在 HyperPod
的 ml.p5.48xlarge 规模下,这一约束尤为重要。实验追踪通过
Amazon SageMaker MLflow 完成,整个工具链保持在 AWS 生态内闭环。
Nova Forge 的访问目前仍处于受控阶段:SDK 分发存储桶和入驻 凭证需单独申请,意味着团队无法在未经 AWS 预 先注册的情况下自助接入。所需 IAM 权限横 跨 SageMaker、Amazon S3 和 Amazon CloudWatch 三个服务。
基础设施前 置条件
搭建运行环境需要满足以下条件:
- 已获得 Nova Forge 访问权限的 AWS 账户
- 在 Amazon EKS 上运行的 SageMaker HyperPod 集群, 包含已配置的 GPU 计算节点和执行角色
- 一个 SageMaker MLflow 应用实 例
- 具备 SageMaker、S3 和 CloudWatch 权限的 IAM 角色
- SageMaker Studio Notebook 或同等 Jupyter 运行环境
对 于尚未运行 HyperPod 工作负载的团队而言,EKS 依 赖项会带来不可忽视的配置成 本。AWS 在文中提供了 HyperPod 入 门文档的链接以供集群配置参考,但并未将 相关步骤内联至本教程中。
后续看 点
- Nova Forge SDK 系列第三篇:AWS 已将本系列定位为持续更新的连 载内容。下一篇很可能聚焦于评估方法论、模 型部署或进阶混合策略——根据第一 篇到第二篇的更新节奏,预计将在数周内发布,建 议持续关注 AWS ML Blog。
- Nova Forge 正式开放: SDK 目前仍需通过 AWS 完成入驻申请,表明其 仍处于受控访问阶段。若后续向更广泛用户或自 助方式开放,将大幅降低企业采用的 门槛。
- 竞争对手的微调工具链:Google 的 Vertex AI 和 Azure AI Studio 均提供托管微调流水线。AWS 发布关 于缓解灾难性遗忘的详细基准数据,将对 竞争对手形成压力,促使其公布 各自托管模型微调产品在数据混合方面的对 等测试结果。
- LoRA 配置参数细 节:文章将 LoRA 列为微调方法, 但未披露实现 F1 提升 12 个百分点所 使用的 rank、alpha 或 dropout 具体参数。后 续文章或社区复现尝试或许会补充这些细节。
- 定价透明度:AWS 在文中未直接给出费用数
字,而是将读者引导至 SageMaker 定价页面查阅
ml.p5.48xlarge的相关费率。以 p5 实例当前按需定价计算,四实 例训练任务的费用支出相当可观——建 议关注后续是否会有针对 Nova Forge 的专 项定价公告。