开发者把 85%-90% 的 AI 计算放本地，混合式 Agent 正从极客玩具走向降本方案

85%-90% 的 token 放在本地跑、只有规划环节调用前沿模型，这个 Reddit 项目给出的不是新概念，而是一个很清晰的判断：Agent（能拆解任务并调用工具完成工作的 AI 系统）的竞争，正从“模型谁更强”转向“流程怎么更省钱、更可控”。

这是什么

这位开发者做了一个三层结构的 Agent：第一层由 Codex 这类前沿模型负责规划，把任务拆成研究、实现、复核等阶段；第二层交给本地模型，比如 Qwen 27B，去完成编码、工具调用和大部分执行；第三层则是可选的“高级兜底”，在本地模型多次失败后再调用更强的云端模型。

它的关键不在“多模型协作”本身，而在确定性验证：任务是否完成，不听模型自述，而是看命令是否成功、文件是否真实生成。这个设计直接对准 Agent 最常见的问题——看起来在工作，实际上在漂移。换句话说，这不是让 AI 更会说，而是让它更难“装作做完了”。

从成本角度看，这种结构也很现实。昂贵模型负责高价值判断，本地模型承担重复执行，既压低 token 成本，也避免长上下文被日志、命令行输出拖垮。

我们注意到，这条路线与不少企业近来的真实需求是吻合的：不是把所有任务都交给最强模型，而是把“贵的智能”用在规划、审核和少数疑难步骤，把“便宜的算力”留给执行。这和过去云计算里的分层思路很像，先把最贵资源用在最关键节点。

更值得关心的是，它说明本地大模型的角色正在变化。它们未必单独完成复杂任务，但在一个被严格约束、持续校验的工作流里，已经足以承担大部分脏活累活。这会让“双轨架构”变得更有吸引力：云端模型保能力，本地模型保成本和数据边界。

但反对意见同样成立。第一，这类系统目前仍偏工程化，配置、调度、验证链路都需要较强技术能力，不是装上就能用。第二，前沿模型做规划并不等于规划永远正确，一旦任务拆解方向错了，本地执行再稳定也只是把错误做得更完整。第三，本地部署虽然省 token 费用，却会增加显卡、维护和运维复杂度，未必适合所有团队。

对企业 IT：这类方案会推动更多企业尝试“云上规划、本地执行”的混合部署，尤其适合代码、文档处理、内部知识流程等可验证任务。采购重点也可能从“买最大模型”转向“怎么买更稳的工作流”。

对个人职场：知识工作者会越来越多接触到“会分步骤干活”的 AI，但真正有价值的不是会不会写提示词，而是能不能把任务拆成可检查、可回退的流程。

对消费市场：短期内，普通用户未必直接使用这类三层 Agent，但会更频繁看到“本地运行、更便宜、更少上传数据”的产品宣传。真正能留下用户的，不是本地两个字，而是是否比纯云端方案更稳定、更省钱。