发生了什么

AWS 发布了一份技术指南,展示了如何在 Amazon SageMaker AI 的无服务器模型定制服务上,利用可验证奖励强化学习(RLVR)微调 Qwen 2.5 7B Instruct,以支持智能体工具调用。该微调模型在未见过的工具和保留场景下,工具调用奖励得分比基础模型提高了 57%。该流程涵盖三种智能体行为的数据集准备、分层奖励函数设计、训练配置及部署,团队无需管理 GPU 采购或 RL 基础设施。

为何重要

基础大语言模型(LLM)经常幻觉函数名称、传递格式错误的参数,或在应请求澄清时调用工具。这些故障是生产环境 AI 智能体部署的主要障碍。RLVR 非常适合工具调用,因为正确性是可客观验证的:要么调用了正确的函数并传入正确的参数,要么没有。SageMaker 的无服务器方法消除了操作负担——包括 rollout 与训练阶段间的内存编排、奖励基础设施和检查点管理——这些通常使自管 RL 对小型团队而言不切实际。支持的模型系列包括 Qwen、Llama、DeepSeek、Amazon Nova 和 GPT-OSS,涵盖的技术包括 SFT、DPO 和 RLVR。

亚太视角

Qwen 2.5 7B 由阿里巴巴开发,被中国及东南亚开发者广泛用于构建多语言智能体,特别是涉及中文、印尼语、泰语和越南语的工作流。在 AWS 基础设施上专门针对工具调用微调 Qwen,为亚太团队提供了一条通往生产级智能体的直接路径,无需切换到西方起源的基础模型。在新加坡、东京或悉尼基于阿里云或 AWS 构建的团队,可利用其现有的 Qwen 技术栈复制此流程,由 SageMaker 处理原本需要专职 MLOps 人员才能解决的 RL 复杂性。

本周行动项

克隆 AWS 示例数据集格式以涵盖描述的三种智能体行为(工具使用、澄清、直接响应),从您自己的 API 架构中创建 50–100 个标注示例,并使用 Qwen 2.5 7B 作为基础模型运行 SageMaker 无服务器 RLVR 作业,以在投入完整训练前建立基准工具调用奖励得分。