85%-90% 的 token 放在本地跑、只有规划环节调用前沿模型,这个 Reddit 项目给出的不是新概念,而是一个很清晰的判断:Agent(能拆解任务并调用工具完成工作的 AI 系统)的竞争,正从“模型谁更强”转向“流程怎么更省钱、更可控”。

这是什么

这位开发者做了一个三层结构的 Agent:第一层由 Codex 这类前沿模型负责规划,把任务拆成研究、实现、复核等阶段;第二层交给本地模型,比如 Qwen 27B,去完成编码、工具调用和大部分执行;第三层则是可选的“高级兜底”,在本地模型多次失败后再调用更强的云端模型。

它的关键不在“多模型协作”本身,而在确定性验证:任务是否完成,不听模型自述,而是看命令是否成功、文件是否真实生成。这个设计直接对准 Agent 最常见的问题——看起来在工作,实际上在漂移。换句话说,这不是让 AI 更会说,而是让它更难“装作做完了”。

从成本角度看,这种结构也很现实。昂贵模型负责高价值判断,本地模型承担重复执行,既压低 token 成本,也避免长上下文被日志、命令行输出拖垮。

行业怎么看

我们注意到,这条路线与不少企业近来的真实需求是吻合的:不是把所有任务都交给最强模型,而是把“贵的智能”用在规划、审核和少数疑难步骤,把“便宜的算力”留给执行。这和过去云计算里的分层思路很像,先把最贵资源用在最关键节点。

更值得关心的是,它说明本地大模型的角色正在变化。它们未必单独完成复杂任务,但在一个被严格约束、持续校验的工作流里,已经足以承担大部分脏活累活。这会让“双轨架构”变得更有吸引力:云端模型保能力,本地模型保成本和数据边界。

但反对意见同样成立。第一,这类系统目前仍偏工程化,配置、调度、验证链路都需要较强技术能力,不是装上就能用。第二,前沿模型做规划并不等于规划永远正确,一旦任务拆解方向错了,本地执行再稳定也只是把错误做得更完整。第三,本地部署虽然省 token 费用,却会增加显卡、维护和运维复杂度,未必适合所有团队。

对普通人的影响

对企业 IT:这类方案会推动更多企业尝试“云上规划、本地执行”的混合部署,尤其适合代码、文档处理、内部知识流程等可验证任务。采购重点也可能从“买最大模型”转向“怎么买更稳的工作流”。

对个人职场:知识工作者会越来越多接触到“会分步骤干活”的 AI,但真正有价值的不是会不会写提示词,而是能不能把任务拆成可检查、可回退的流程。

对消费市场:短期内,普通用户未必直接使用这类三层 Agent,但会更频繁看到“本地运行、更便宜、更少上传数据”的产品宣传。真正能留下用户的,不是本地两个字,而是是否比纯云端方案更稳定、更省钱。