Article Not Found

01 触发事件

Lenny's Newsletter 这篇最新实操内容，核心不是模型发布，而是 Claire 用 Claude Code 和 Codex 演示了几类 AI agent loops：heartbeat、cron、webhook、goal-based loop，以及一个会继续派生 subagents 的 PR review loop 和 skills loop。

原文最值得记的一句，其实不是功能清单，而是这个判断：

A loop is just a prompt that fires itself, nothing more exotic than that.

这句话把整个 agent 叙事往下拽了一层。

不是“自治体”神话，不是 AGI 前夜，也不是某种只有 frontier lab 才能掌握的新 engineering discipline。它更接近一个被重新包装过的老概念：调度系统 + 状态检查 + LLM 作为执行器。

另一个值得抓住的点，是原文直接把成本问题拉到了台前。文中明确说，goal loop 如果 success criteria 模糊，就会“keep running and keep charging without meaningful progress”。这不是使用建议，这是产品边界。

我没在 Claude Code 或 Codex 内部跑过他们的 loop runtime，所以这点我可能误判；但从文章透露的信息看，至少在当前阶段，这场竞争还不是“谁更智能”，而是“谁更能让开发者把自动化任务写成可控的 token burn”。

02 这事的真正含义

这事表面上看，是 Claude Code 和 Codex 都在教用户如何写 loop。

真正的含义是：AI coding tool 的竞争，正在从单次交互式 completion，转向持续运行的任务系统。

这才是它在说的事。

过去一代 coding assistant 的基本单位是 request-response：你提一个问题，模型吐一个答案，session 结束。即便有长上下文、diff edit、terminal 调用，本质还是人驱动的同步式工作流。

loop 把单位换掉了。

新的基本单位，不再是“一个 prompt”，而是“一个可持续触发、可验证终止、可派生子任务的 job”。一旦单位从 prompt 变成 job，产品竞争的关键指标也会改：

不只是模型质量，而是 validation 设计
不只是响应速度，而是 runtime observability
不只是 context window，而是长期任务的 state management
不只是 token 单价，而是单位有效结果成本

这里最关键的，不是 loop 会不会写，而是谁来承担“定义完成”的责任。

goal-based loop 听上去强大，但它天然有一个结构性问题：模型很擅长生成行动，没那么擅长定义严格 completion boundary。原文给出的建议是“让 Codex 写自己的 goals，参考 OpenAI 的 guide”。这很实用，但也暴露出一个尴尬现实：如果用户连任务完成条件都要交给模型来写，那么真正被定价的商品就不是 inference，而是“可验证任务规范”。

这会把 developer tools 往更像 workflow software 的方向推。

Claude Code、Codex、Cursor、Cline 这类产品，下一阶段 moat 不一定来自最强基模，而可能来自三个层面：

loop 模板库
与 repo / CI / Slack / issue tracker 的深集成
对 runaway token cost 的 guardrail

我没拿到这些产品在真实企业环境里的 retention 数据，所以这点我可能看得偏早；但如果 loop 成为主流交互范式，那么“能写代码”会迅速商品化，“能把自动化任务安全跑起来”才开始有 switching cost。

03 历史类比 / 结构对照

更合适的类比，不是 2022 年 ChatGPT，而是 2014 年前后的 AWS。

为什么。

因为当年真正改变开发范式的，不是“服务器可以租”这个事实本身，而是 cloud 把一堆已有能力——计算、存储、队列、调度、监控——打包成默认可调用的 primitives。开发者不再从零搭基础设施，而是组合 primitives 去交付业务。

agent loop 现在像极了那个阶段。

heartbeat、cron、webhook，本来就是老 primitives。文章自己也承认这一点：新东西不是调度，而是把调度目标从 batch job 换成 AI agent。换句话说，今天的 Claude Code 和 Codex，正在尝试把 AI 执行器接到传统 automation stack 上，再提供一层 prompt-native orchestration。

这和早年 cloud 的路径几乎一致：不是发明新计算，而是把旧计算重新产品化。

这里还有一个更值得警惕的结构对照：当基础能力被封装得足够简单时，应用层会先爆发，随后成本与治理问题集中反噬。

AWS 时代的问题是：

resource sprawl
权限边界失控
bill shock

agent loop 时代的问题会变成：

subagent sprawl
success criteria 漂移
token bill shock
难以审计的自动决策链

原文里最重要的产品洞察，其实是这一句：

The power move is loops that generate their own subagent loops.

这听起来很强，但也最危险。

因为一旦允许 loop 递归地产生 loop，成本结构就不再线性。builder 以为自己买的是一个 assistant，最后得到的可能是一套不停自我扩张的任务树。这个时候，真正的 infra 需求不是更大的 context，而是更严格的 budget、rate limit、termination policy 和 execution logs。

我没见到文中 demo 的完整计费结果，所以这点我可能说得比实际更重；但历史上所有“组合后威力更大”的 primitives，都会在某个时刻从生产力工具变成成本黑洞。agent loop 不会例外。

04 对 AI builder 意味着什么

对 builder 来说，这周和这个月要改的，不是“马上做一个 agent 产品”，而是先把任务系统的抽象层重写。

第一，别把 loop 当功能，把它当成本中心。

任何 loop 都应该先有三组约束：

触发频率
成功判定
最大 token / 最大运行轮次 / 最大 wall-clock time

没有这三组约束，goal loop 不是 automation，是失控支出。

第二，优先做“高验证性任务”，不要先做“高想象空间任务”。

文章里的 PR review、skills gap identification、morning briefing 之所以适合 demo，不是因为它们酷，而是因为它们天然有外部 state 可核验：PR checks 是否通过、日历是否存在、邮件是否已发送。这类任务更容易建立闭环。

真正应该先上的 loop 类型包括：

PR merge readiness 检查
support triage
ticket 分类与补全
每日 brief
repo hygiene 检查
文档同步

不应该先上的，是那种“持续优化某个战略目标”的模糊任务。那类任务最容易无限循环。

第三，subagent 不是魔法，是并发预算分配。

如果你的产品要支持 subagents，不要只暴露“spawn agent”按钮。至少要同时暴露：

parent-child execution graph
每个 subagent 的 token 消耗
stop / retry / escalate policy
输出合并规则

问题不在于能不能生成更多 agents，而在于开发者能否读懂系统为什么花了这些 token。

第四，工具选型上，开始比较 runtime，而不是只比较模型。

接下来评估 Claude Code、Codex、Cursor、Cline，不能只看：

代码补全质量
benchmark 分数
支持哪些模型

还要看：

loop 调度能力
hook / webhook 接入
approval gating
execution trace
和 GitHub / Slack / CI 的连接深度

这决定的是能不能进入团队工作流，而不只是个人 IDE 玩具。

第五，如果你卖 API access 或 routing，机会点会出现在“长任务的模型编排”。

因为 loop 的不同阶段不需要同一种模型：

planner 用强模型
执行用便宜模型
validator 用稳定模型
summarizer 用小模型

这意味着 model routing 不再只是单轮请求优化，而是 job graph 优化。那个真正会被定价的，是“每完成一个任务要烧多少 token”，不是“每百万 token 多便宜”。

我没在生产环境里验证所有这类拆分都成立，所以这点我可能高估了 routing 收益；但对 token 网关、agent infra、observability 产品来说，这几乎是最直接的新需求入口。

05 反方观点 / 风险

我上面的判断，最大的风险在于：也许 loop 根本不是一个足够大的产品分层，只是 demo 友好的包装层。

换句话说，也许这整件事没那么深。

第一种反驳是，heartbeat、cron、webhook 本来就在，开发者完全可以用现有 workflow 工具加 API 拼出来。那 Claude Code 和 Codex 的“loop engineering”价值，可能只是教育市场，而不是形成 moat。要是真这样，最终吃掉价值的不会是 IDE 工具，而是 GitHub Actions、Zapier、Temporal、Airflow 这类现有 orchestration 层，再外接模型 API。

第二种反驳是，文章本身偏 beginner-friendly，展示的是可讲清楚的 use case，不代表真实团队会把关键流程交给 loop。企业最怕的不是能力不够，而是责任不清。subagent 带来的不是生产率想象，而是审计 nightmare。只要 security、compliance、repo governance 没跟上，很多团队宁可停留在人类审批为主的 copilot 阶段。

第三种反驳是，模型成本也许下降得足够快，导致“loop 失控 burn token”这件事不再构成主要摩擦。如果 inference 单价持续下行，那 runtime governance 可能不会成为核心卖点，大家最后还是回到谁的模型更好、分发更强。这个判断我可能低估了供给侧降价速度。

第四种反驳更直接：loop 可能不会成为主交互范式，只会停留在 power user 工具箱里。多数开发者真正需要的，仍然是一个足够聪明的同步 assistant，而不是一个会自己排班、自己派生 subagent 的系统。如果 adoption 最终停在少数高技术团队，那它就更像高阶 feature，不是市场重构。

所以，我不会把这篇文章看成“agent 时代已经到来”的证据。

但我会把它看成另一个更重要的信号：developer tooling 竞争，已经开始从“聊天框里的模型能力”，转向“任务系统里的执行纪律”。

前者决定 demo 能不能出圈。

后者决定账单出来以后，用户会不会续费。

Agent loop 不是新物种

01 触发事件

02 这事的真正含义

03 历史类比 / 结构对照

04 对 AI builder 意味着什么

05 反方观点 / 风险

Related Reading

Consumer GPU Hits 100K Context: Local LLM Hardware Thresholds Drop Fast

OpenClaw Joins Feishu: AI Agents Shift from Geek Toys to Enterprise Coworkers

Todoist Ramble: AI Builds Tasks As You Speak, Bypassing Text Transcription

Veterans Skip Reviews: Vibe Coding & Agentic Engineering Dangerously Converge

AI Chatbot Bill Burning 800/mo? Cut It to 1/5th

OpenClaw Hits 367K Stars: Personal AI Gateways Are Taking Over Your Chat Apps