Article Not Found

事件概述

Amazon Web Services 在 AWS Machine Learning Blog 上发布了 Nova Forge SDK 系列教程的第二篇，提供了一份使用数据混合技术对 Amazon Nova 模型进行微调的实操指南。该指南涵盖从环境配置到模型评估的五阶段完整工作流，面向具备 SageMaker HyperPod 基础设施访问权限的工程师群体。

本文直接延续系列第一篇的内容——第一篇介绍了 SDK 的基本概念并演示了如何发起定制化实验。第二篇则专注于数据混合这一核心技术，即在有监督微调过程中，将客户专属训练数据与 Amazon 精选数据集进行融合的方法。

为何值得关注

这篇文章用具体数字验证了数据混合的实际价值。据 AWS 披露，在微调阶段将客户数据与 Amazon 精选数据集混合使用，在一项涵盖 1,420 个叶节点类别的客户声音（Voice of Customer）分类任务中实现了 F1 分数提升 12 个百分点，同时将 Massive Multitask Language Understanding（MMLU）得分保持在接近基线的水平。AWS 指出，若仅使用客户数据对开源模型进行微调，会导致模型几乎完全丧失通用能力——这正是业界熟知的"灾难性遗忘"问题，而数据混合正是为解决这一问题而设计的。

对于正在评估是在 AWS 上微调私有模型还是开源替代方案的工程团队而言，这一基准对比——尽管仅限于单一分类任务——提供了一个关于两者权衡的具体参考数据点。1,420 个类别的分类规模，也表明该技术适用于大规模企业级分类体系场景。

技术细节

AWS 所记录的工作流分为五个阶段：

环境配置： 安装 Nova Forge SDK 并配置 AWS 资源。SDK 依赖 SageMaker HyperPod CLI 工具链，通过 Nova Forge 入驻流程中提供的私有 S3 存储桶进行分发。
数据准备：对训练数据进行加载、清洗、转换、验证和划分。
训练配置：配置 SageMaker HyperPod 运行时、MLflow 实验追踪参数以及数据混合比例。
模型训练：使用 Low-Rank Adaptation（LoRA）启动有监督微调任务，并通过 HyperPod 进行全程监控。
模型评估：针对微调后的检查点运行公开基准测试和特定领域评估。

参考硬件配置使用 ml.p5.48xlarge 实例——AWS 的顶级 GPU 计算节点—— 训练和评估阶段各分配四个实例。AWS 明确建议在提交完整训练任务之前，先使用 max_steps=5 进行短周期测试运行以验证配置，这也间接承认了该实例级别的成本风险。

微调采用 LoRA（Low-Rank Adaptation）方法，相较于全参数微调，可显著减少可训练参数量——在 HyperPod 的 ml.p5.48xlarge 规模下，这一约束尤为重要。实验追踪通过 Amazon SageMaker MLflow 完成，整个工具链保持在 AWS 生态内闭环。

Nova Forge 的访问目前仍处于受控阶段：SDK 分发存储桶和入驻凭证需单独申请，意味着团队无法在未经 AWS 预先注册的情况下自助接入。所需 IAM 权限横跨 SageMaker、Amazon S3 和 Amazon CloudWatch 三个服务。

基础设施前置条件

搭建运行环境需要满足以下条件：

已获得 Nova Forge 访问权限的 AWS 账户
在 Amazon EKS 上运行的 SageMaker HyperPod 集群，包含已配置的 GPU 计算节点和执行角色
一个 SageMaker MLflow 应用实例
具备 SageMaker、S3 和 CloudWatch 权限的 IAM 角色
SageMaker Studio Notebook 或同等 Jupyter 运行环境

对于尚未运行 HyperPod 工作负载的团队而言，EKS 依赖项会带来不可忽视的配置成本。AWS 在文中提供了 HyperPod 入门文档的链接以供集群配置参考，但并未将相关步骤内联至本教程中。

后续看点

Nova Forge SDK 系列第三篇：AWS 已将本系列定位为持续更新的连载内容。下一篇很可能聚焦于评估方法论、模型部署或进阶混合策略——根据第一篇到第二篇的更新节奏，预计将在数周内发布，建议持续关注 AWS ML Blog。
Nova Forge 正式开放： SDK 目前仍需通过 AWS 完成入驻申请，表明其仍处于受控访问阶段。若后续向更广泛用户或自助方式开放，将大幅降低企业采用的门槛。
竞争对手的微调工具链：Google 的 Vertex AI 和 Azure AI Studio 均提供托管微调流水线。AWS 发布关于缓解灾难性遗忘的详细基准数据，将对竞争对手形成压力，促使其公布各自托管模型微调产品在数据混合方面的对等测试结果。
LoRA 配置参数细节：文章将 LoRA 列为微调方法，但未披露实现 F1 提升 12 个百分点所使用的 rank、alpha 或 dropout 具体参数。后续文章或社区复现尝试或许会补充这些细节。
定价透明度：AWS 在文中未直接给出费用数字，而是将读者引导至 SageMaker 定价页面查阅 ml.p5.48xlarge 的相关费率。以 p5 实例当前按需定价计算，四实例训练任务的费用支出相当可观——建议关注后续是否会有针对 Nova Forge 的专项定价公告。

AWS Nova Forge SDK Tutorial: Fine-Tune Nova Models With Data Mixing

事件概述

为何值得关注

技术细节

基础设施前置条件

后续看点

Related Reading

Full Head , Blank Page : How I Pulled 100 Content Ideas in One Session

That 'Free Tool ' in Your Browser May Be Stealing Client Passwords

Sent the Quote , Heard Nothing ? Here 's What Fixed It

Wrong Note App W rec ked My Client Files — I Learned the Hard Way

Your AI Account : Are You the Only One Using It?

Your Files , Your Server : Esc aping Big - Platform Lock -In

AWS Nova Forge SDK Tutorial: Fine-Tune Nova Models With Data Mixing

事件概 述

为何 值得关注

技术细节

基础设施前 置条件

后续看 点

Related Reading

Full Head , Blank Page : How I Pulled 100 Content Ideas in One Session

That 'Free Tool ' in Your Browser May Be Stealing Client Passwords

Sent the Quote , Heard Nothing ? Here 's What Fixed It

Wrong Note App W rec ked My Client Files — I Learned the Hard Way

Your AI Account : Are You the Only One Using It?

Your Files , Your Server : Esc aping Big - Platform Lock -In

事件概述

为何值得关注

基础设施前置条件

后续看点