25 小时、1300 万 token、3 万行代码——这是 OpenAI 开发者用 Codex 在空白仓库里做出的实验。我们的判断是:开发者抛弃 Copilot,并不只是换了一个更强的代码助手,而是编程工作正从“人盯着 AI 补全”,转向“AI 自己跑完整个任务循环”。
这是什么
过去几年,AI 编程工具大致经历了三步:先是 Copilot 式的 autocomplete(自动补全),再到 Cursor 的 agent mode(代理模式,AI 能调用文件、终端等工具执行任务),现在进一步走向 autonomous loop(自主循环,AI 会在“规划—修改—测试—修复”的闭环里持续工作,直到任务完成)。
这件事的关键,不是模型多写了几行代码,而是它开始接入真实反馈。它不只生成代码,还会读仓库、改多个文件、运行测试、看报错、再返工。Anthropic 对这类 Agent 的定义很直白:大模型在环境反馈中反复调用工具,本质就是一个循环。说得更通俗些,AI 不再只是“帮你打字”,而是在“替你推进一项工作”。
这也是为什么 Claude Code、Codex、Cursor Background Agent 这类产品最近更受关注。它们把编程的交互单位,从“一行代码”抬升到了“一个任务”。开发者审查的对象,也从单次补全变成任务级 diff、测试结果和最终 PR。
行业怎么看
行业里的主流看法是,这代表编程范式在变。支持者认为,真正限制 AI 编程效果的,不再只是模型会不会写代码,而是能不能在足够长的时间里持续执行、不断验证、在失败后修正方向。换句话说,竞争焦点正从“谁补全更准”,转向“谁的任务闭环更稳”。
但值得我们关心的是,反对意见也很现实。第一,成本不低。长时间运行意味着高 token 消耗和更高算力账单,离大规模普及还有距离。第二,可控性仍是问题。开发者如果完全不看过程,最后可能得到一个“能跑但难维护”的系统。第三,很多成功案例仍是工程团队精心搭环境、给足权限后的结果,普通企业未必能直接复制。
因此,我们更倾向于把这波变化理解为“自动驾驶进入高速路段”,而不是“程序员从此离场”。短期内,被替代的首先是重复性实现和机械排错,不是需求判断、系统设计和责任归属。
对普通人的影响
对企业 IT:企业采购代码工具时,标准会从“能不能补全”转向“能不能接入仓库、测试、权限和流程”。真正的门槛开始落在工程治理,而不只是模型订阅费。
对个人职场:开发者的价值会更少体现在手速和语法熟练度,更多体现在拆任务、设约束、看结果、做取舍。会不会“带 AI 干活”,会逐渐成为新的基本功。
对消费市场:普通用户短期不会直接购买“自主循环”产品,但会更频繁地遇到由 AI 更快迭代出来的软件功能。产品更新速度可能提升,但稳定性和质量波动也会更明显。