25 小时写出 3 万行代码，开发者正从 Copilot 转向 AI 自主循环

25 小时、1300 万 token、3 万行代码——这是 OpenAI 开发者用 Codex 在空白仓库里做出的实验。我们的判断是：开发者抛弃 Copilot，并不只是换了一个更强的代码助手，而是编程工作正从“人盯着 AI 补全”，转向“AI 自己跑完整个任务循环”。

这是什么

过去几年，AI 编程工具大致经历了三步：先是 Copilot 式的 autocomplete（自动补全），再到 Cursor 的 agent mode（代理模式，AI 能调用文件、终端等工具执行任务），现在进一步走向 autonomous loop（自主循环，AI 会在“规划—修改—测试—修复”的闭环里持续工作，直到任务完成）。

这件事的关键，不是模型多写了几行代码，而是它开始接入真实反馈。它不只生成代码，还会读仓库、改多个文件、运行测试、看报错、再返工。Anthropic 对这类 Agent 的定义很直白：大模型在环境反馈中反复调用工具，本质就是一个循环。说得更通俗些，AI 不再只是“帮你打字”，而是在“替你推进一项工作”。

这也是为什么 Claude Code、Codex、Cursor Background Agent 这类产品最近更受关注。它们把编程的交互单位，从“一行代码”抬升到了“一个任务”。开发者审查的对象，也从单次补全变成任务级 diff、测试结果和最终 PR。

行业怎么看

行业里的主流看法是，这代表编程范式在变。支持者认为，真正限制 AI 编程效果的，不再只是模型会不会写代码，而是能不能在足够长的时间里持续执行、不断验证、在失败后修正方向。换句话说，竞争焦点正从“谁补全更准”，转向“谁的任务闭环更稳”。

但值得我们关心的是，反对意见也很现实。第一，成本不低。长时间运行意味着高 token 消耗和更高算力账单，离大规模普及还有距离。第二，可控性仍是问题。开发者如果完全不看过程，最后可能得到一个“能跑但难维护”的系统。第三，很多成功案例仍是工程团队精心搭环境、给足权限后的结果，普通企业未必能直接复制。

因此，我们更倾向于把这波变化理解为“自动驾驶进入高速路段”，而不是“程序员从此离场”。短期内，被替代的首先是重复性实现和机械排错，不是需求判断、系统设计和责任归属。

对普通人的影响

对企业 IT：企业采购代码工具时，标准会从“能不能补全”转向“能不能接入仓库、测试、权限和流程”。真正的门槛开始落在工程治理，而不只是模型订阅费。

对个人职场：开发者的价值会更少体现在手速和语法熟练度，更多体现在拆任务、设约束、看结果、做取舍。会不会“带 AI 干活”，会逐渐成为新的基本功。

对消费市场：普通用户短期不会直接购买“自主循环”产品，但会更频繁地遇到由 AI 更快迭代出来的软件功能。产品更新速度可能提升，但稳定性和质量波动也会更明显。

25 小时写出 3 万行代码，开发者正从 Copilot 转向 AI 自主循环

这是什么

行业怎么看

对普通人的影响

相关推荐

Playwright MCP 把网页测试改成“说一句话就能跑”，但离省钱省心还很远

Claude Code 一口气放出 35 个插件，AI 编程开始从问答走向流程化

Anthropic 推出 Claude Fable，但更强不等于更可用，安全阉割成了核心卖点

OpenAI 拿黑洞模拟做案例，说明编程 Agent 正从写代码走向做科研助手

Anthropic 提出给更强 AI 设“暂停键”，这不是保守，而是在抢规则制定权

4 比特量化没把模型“压坏”，关键不在压缩而在补偿计算