这是什么

ProgramBench 是 Meta Research 本周开源的编程能力基准测试。核心设定很硬核:给 AI 一个目标可执行程序和使用文档,要求它从零开始——选择编程语言、设计架构、编写完整代码,最终产出必须通过行为测试(即黑盒测试,只看输入输出是否符合预期,不关心内部实现)。不允许联网、不允许反编译。团队花了约 5 万美元生成 600 万行测试用例,筛选后覆盖 200 个任务。结果:当前最强闭源模型也远未能可靠完成。开源模型表现更差——研究者发现它们过度拟合了 SWE-bench(一个修复已有代码缺陷的基准),遇到全新任务反而更吃力。

行业怎么看

过去半年,"AI Agent 从零搭建完整项目"的案例层出不穷,但大多是在精心挑选的少量项目上手调出来的。ProgramBench 的价值在于:用统一、防作弊的框架,把这些零散的"成功故事"放到可量化的天平上——结论不太好看。

值得关心的反对声音:有开发者指出,"从零重建"并非真实开发场景,现实中程序员会搜索、参考、迭代,而非闭卷默写。这个反驳有道理但不完全成立——ProgramBench 测的核心是 AI 的架构设计和长程推理能力,如果连闭卷都做不好,开卷也未必更强。另一个隐患:基准一旦公开,模型会逐步针对它优化,可能重演 SWE-bench 被反复刷分的路径,基准的区分力会随时间衰减。

对普通人的影响

对企业 IT:指望 AI Agent 独立交付完整软件模块还太早,现阶段更实际的是让 AI 辅助编码、补全测试,而非端到端替代开发流程。

对个人职场:程序员"被取代"的时间线又被拉长了,但"会用 AI 的淘汰不会用的"这个判断不变——只是 AI 能独立做的事比营销话术里少。

对消费市场:各类"AI 一键生成 App"的 C 端产品,短期内大概率还是玩具,离生产级可用有明显距离。