发生了什么
Andrew Ng 在 No Priors 播客中表示:"Agentic AI 的 瓶颈已不再是写代码,而是搞清楚该构建什么,以 及如何让 Agent 真正在生产环境中稳定运行。" 这一判断出现在本周稀土掘金发布的一 篇分析文章中,并得到了企业工程团队内 部日益明显的现实印证:Agent 框架已趋于成熟,LLM 也能可靠地生 成代码,然而真正达到生产级别的 Agentic 系统在各类组织中依然凤 毛麟角。
这种转变是结 构性的,而非技术性的。Sebastian Raschka 在其 Components of A Coding Agent 一文中梳理了六个成熟的开源组 件——Planner(规划器)、Code Generator(代码生成器)、Executor(执行器)、Ver ifier(验证器)、Memory(记忆模块)和 Orchestrator(编排器)——团队今 天就可以将它们组装起来。真 正悬而未决的层面在这一 切之上:谁来负责生产环境中的 Agent,如 何衡量其成功与否,以及出现故 障时该如何应对。
为何重要
在 推进 Agentic 产品最为积极的公司内 部,一个新的运营角色正在悄然成形。这一岗位有 时被称为 Agent Deployment Manager,有时被称为 Agentic Operations Lead——AI西 经东译 EP81 中对此有所探讨—— 两年前这个职能根本不存在。它有 别于传统的产品管理:岗位持有者需要理解推理模型的行为机制、设计提示策 略,并在 ReAct 和 LATS 等编排模式之间做出取 舍。它同样有别于纯粹的工程岗位:核心交付物是运营稳定性,而非交付的代码。
上述分析预测,这一职能不会固化为一个独立的岗位类别 ,而是会作为一种嵌入式能力渗透进每一 个构建 Agentic 产品的团队——工程师将 Agent 运营作为核心能力,与实现技能并驾齐驱。对于工程管 理者而言,这在 12 至 24 个月的窗口期内对招 聘和职级评定都有直接影响。
以下三种生产环 境故障模式揭示了这一差距的真实存在:
- 边界漂移( Boundary drift):一个被要求"审查 PR 并给出建议"的代码审查 Agent,开始直接修改代码,将安全告警误判为风格问题,并对相同代码块给出相 互矛盾的建议——这不是模型能力的失败,而是任务定义与验证机 制的失败。
- 评估基础设施缺失:在没有量化指标的情况下 部署 Agent,团队将无从判断模型升级究 竟改善还是劣化了系统行为。当用户不主 动反馈时,用户反馈回路根本无从 发挥作用。
- 多 Agent 信任崩塌:协作在系统层 面发生瓦解,而这是任何 单一 Agent 基准测试都无法预测的。
技术细节
本周 发表于 arXiv 的 CoopEval 论文——通过囚 徒困境和合作博弈场景评估 LLM Agent 的行为表现——得 出了一个反直觉的发现:在多 Agent 环境中,更强的推理能力与更低的合 作率呈正相关。更强的模型能更精准地估算对方 的预期背叛概率,并提前采取防御策略。在单轮博弈中,这是局部理性的选 择;但在多轮协作任务中,这会将整个系统推向次优的 Nash 均衡。
由此引出的设计启示是 :在每个 Agent 节点都接入当前最强模型, 并非合作型多 Agent 系统的正确架构。要实现 稳定协作,需要在 Agent 之间引入显式的承诺机制和声誉追踪机 制。分析中附带了一个具有代表性的协调模式示例:
class AgentCoordinator:
def __init__(self):
self.reputation_scores = {} # agent_id -> score
self.commitment_log = [] # committed task records
def assign_task(
self, task, agents):
ranked = sorted(
agents,
key=lambda a: self.reputation_scores.get(a.id, 0.5),
reverse=True
)
selected = ranked[0]
commitment = {"agent_id": selected.id, "task_id": task.id}在评估层面,该 分析提出了一套四维度的生产环境 Agent 评估框架:
- 任务成功率( Task Success Rate)——通过单元测试和集成测试实现自动化度量,在存 在标注数据的情况下与 ground truth 进行比对
- 可靠性与稳定性(Reliability and Stability)——相同 输入下的输出一致性,以及随时间推移的行为 漂移检测
- 边界行为(Boundary Behavior)——当任务超出 Agent 定义范 围时,是否能正确拒绝或优雅降级
- 人工交接 质量(Human Handoff Quality)——人工操作员能否在五分钟内, 借助 Agent 提供的上下文信息完成接管
值得关注的动向
未来 30 天内,请重点关注以下信 号:在已建立 LLM 基础设施团 队的公司中,是否出现带有 Agentic Operations 或 Agent Reliability 头衔的招 聘职位——这将是该角色正式化速度超出 预期的早期信号。持续追踪 CoopEval 论文的引用情 况及后续研究;若合作能力负 相关这一结论在更多模型家族中得到验证,将 迫使 LangGraph、AutoGen 等多 Agent 编排框架进 行架构层面的调整。此外,还需 关注主要云服务商是否会 为其 Agent 托管产品附加 SLA 或可观测性工具——一旦出 现,意味着基础设施层正在追上 Ng 所指出的运营需求。