Meta 新基准测 200 任务：AI 从零重建大型程序仍不靠谱

这是什么

ProgramBench 是 Meta Research 本周开源的编程能力基准测试。核心设定很硬核：给 AI 一个目标可执行程序和使用文档，要求它从零开始——选择编程语言、设计架构、编写完整代码，最终产出必须通过行为测试（即黑盒测试，只看输入输出是否符合预期，不关心内部实现）。不允许联网、不允许反编译。团队花了约 5 万美元生成 600 万行测试用例，筛选后覆盖 200 个任务。结果：当前最强闭源模型也远未能可靠完成。开源模型表现更差——研究者发现它们过度拟合了 SWE-bench（一个修复已有代码缺陷的基准），遇到全新任务反而更吃力。

行业怎么看

过去半年，"AI Agent 从零搭建完整项目"的案例层出不穷，但大多是在精心挑选的少量项目上手调出来的。ProgramBench 的价值在于：用统一、防作弊的框架，把这些零散的"成功故事"放到可量化的天平上——结论不太好看。

值得关心的反对声音：有开发者指出，"从零重建"并非真实开发场景，现实中程序员会搜索、参考、迭代，而非闭卷默写。这个反驳有道理但不完全成立——ProgramBench 测的核心是 AI 的架构设计和长程推理能力，如果连闭卷都做不好，开卷也未必更强。另一个隐患：基准一旦公开，模型会逐步针对它优化，可能重演 SWE-bench 被反复刷分的路径，基准的区分力会随时间衰减。

对普通人的影响

对企业 IT：指望 AI Agent 独立交付完整软件模块还太早，现阶段更实际的是让 AI 辅助编码、补全测试，而非端到端替代开发流程。

对个人职场：程序员"被取代"的时间线又被拉长了，但"会用 AI 的淘汰不会用的"这个判断不变——只是 AI 能独立做的事比营销话术里少。

对消费市场：各类"AI 一键生成 App"的 C 端产品，短期内大概率还是玩具，离生产级可用有明显距离。

Meta 新基准测 200 任务：AI 从零重建大型程序仍不靠谱

这是什么

行业怎么看

对普通人的影响

相关推荐

Chrome 静默装下 4GB AI 模型 — Google 用浏览器分发权抢跑本地智能

斯德哥尔摩 AI 咖啡馆订了 120 个没炉子煮的鸡蛋 — Agent 自主决策缺的不只是常识

NVIDIA 提出 Agent 系统极限协同设计 — 基础设施层要重新来过

KV 缓存压缩出现独立评估工具 — 推理优化的重心正转向基础设施

LLaMA 社区在聊布朗尼食谱 — 本地模型圈的闲聊，不是我们该追的信号

客户一眼看出内容全是 AI 写的？三个反直觉定律帮你找回溢价