context-mode 不是插件，是 token 闸门

01 触发事件

2025 年，开源 MCP 插件 context-mode 在 GitHub 获得超 1.5 万 Star；36kr 援引团队口径称，已有逾 24.3 万开发者接入，支持 15 个主流平台，并宣称在编程场景可把成本降低 98%，把模型“有效记忆”从 30 分钟拉长到 3 小时。

更具体一点，文中给了几组数字：对 79.3 KB 文件读取，Token 成本降低 87.7%；某些文件处理场景可节省 99.98% Token；其机制包括“虚拟沙盒”、小于 2KB 的对话快照，以及 Think in Code，也就是先写本地脚本再把结果回传给模型。

这篇稿子表面在讲一个开源项目爆红。

但这不是重点。

重点是，AI coding 的瓶颈，正在从“模型够不够聪明”，转到“上下文是不是被错误地喂给了模型”。

我没在内部跑过它的全量 benchmark，所以 98% 这个数字我不会照单全收；但哪怕把宣传水分打掉一半，这仍然是个值得注意的信号。

callout

真正昂贵的不是推理本身，而是把本不该进入 context window 的东西，反复、全量、无差别地送进去。

02 这事的真正含义

这事真正说明的，不是又一个 AI 编程插件冒头了。

而是 coding agent 这条链路里，context orchestration 正在成为独立价值层。

过去一年，大家把注意力放在模型排名：Claude、GPT、Gemini 谁写代码更稳，谁 tool use 更强，谁长上下文更能扛项目级任务。但在真实开发流程里，模型常常不是因为“不会写”而失败，而是因为“看了太多不该看的东西”。

这才是 context-mode 在说的事。

第一，它在把 MCP 从“工具协议”推向“流量治理层”。

如果每次工具调用都把庞大原始文件、运行日志、检索结果直接塞进模型，那 token burn 是线性上升的，甚至在 agent 反复试错时呈现接近失控的复利效应。context-mode 的“虚拟沙盒”本质上是在做一层 admission control：模型不能直接碰全部数据，只能拿被筛选过、压缩过、局部化的结果。

这和 API gateway 的逻辑很像。

谁控制请求路径，谁就有定价权。

第二，它在把“本地计算”重新引入 agent loop。

Think in Code 看起来像 prompt 技巧，其实更像执行架构调整：把模型从 data processor 退回 planner，把脚本、本地 runtime、sandbox 变成真正的数据处理者。模型不再逐行吞代码、日志、CSV，而是先生成一个局部程序去跑，再读结果摘要。

这一步非常关键。

因为 token 最贵的时候，往往不是模型在思考，而是模型在替代 shell、grep、sed、pytest、sqlite、脚本解释器这些本来就便宜得多的组件。

第三，它在重定价“长上下文”的价值。

很多团队把 context window 当成万能药：窗口越大，agent 越不容易失忆。但大窗口不是免费午餐。更大的 KV cache、更高的 attention 开销、更长的输入链路，都意味着成本上升和延迟上升。context-mode 的路线相当于说：不要先买更大的脑子，先学会把笔记整理好。

这会影响 builder 对模型的采购逻辑。

如果上下文压缩、快照注入、局部检索做得足够好，那么最优解未必是永远追逐最大窗口、最强模型，而是让中等模型在更干净的输入上工作。我没看到它对不同模型族的系统性 A/B 数据，这点我可能误判；但方向上，我认为是对的。

callout

长 context 解决的是“能装下”，context management 解决的是“根本不该装进去”。

03 历史类比 / 结构对照

我想到的类比不是 2022 年 ChatGPT。

更像 2014 年前后的 AWS 使用演进：早期大家以为上云的价值在“租到算力”，后来才发现，真正决定成本结构和开发效率的，是缓存、队列、对象存储、权限、监控、流量治理这些中间层。

模型厂商今天卖的是 intelligence。

但应用团队实际消耗的，是一个完整的推理 supply chain：模型、KV cache、tool call、检索、本地执行、状态快照、重试策略、routing、权限边界。

在这条链上，模型只是最显眼，也最贵的节点。

context-mode 这种项目的价值，在于它提醒市场：AI coding 不是单次 completion，而是一个长循环系统。系统一旦进入长循环，最先暴露的问题从来不是 benchmark，而是 memory discipline。

这也解释了为什么它不是简单的 Cursor 替代品。

Cursor、Claude Code、Cline 这一类产品在争的是入口、工作流和 distribution；而 context-mode 这种 MCP 中间层争的是“无论你用哪个前端，都要经过我的上下文治理”。前者像 IDE，后者更像网络栈。

这是一种典型的 aggregation theory 反转。

在用户界面层，入口平台试图聚合模型和工具。

但在执行层，中间件又在反向聚合入口，把真正重要的数据路径截住。

谁能成为默认路径，谁就有 moat。

当然，这个 moat 现在还很薄。MCP 是开放协议，主流 IDE 完全可以把类似能力内建掉。尤其当 Anthropic、OpenAI、Google 或 Cursor 发现 token 浪费直接伤害用户 retention 和 gross margin 时，他们会迅速把“本地先算、只回摘要、自动建快照”做成平台能力。我没在这些团队内部，所以不能判断它们的 roadmap 节奏，但这就是 open protocol 上中间层公司的宿命。

04 对 AI builder 意味着什么

这周、这个月，builder 应该调整的，不是“赶紧装这个插件”这么简单。

第一，开始把 token 账单拆成结构化成本。

不要只看月度 API 总额，要拆成至少四类：有效生成、重复检索、无效工具调用、长对话历史负担。很多团队以为自己在为模型能力付费，实际上是在为糟糕的 agent loop 付费。能看到这四层，routing 才有意义。

第二，给 coding agent 增加本地执行优先级。

凡是统计、搜索、diff、lint、测试、日志聚合、批量文件扫描这类任务，默认先走脚本或 sandbox，不要默认进模型。模型负责计划和解释，本地 runtime 负责搬砖。这不是“优化”，而是成本边界。

第三，重新评估 context window 采购策略。

如果你的团队正在为 1M 甚至更大的上下文付 premium，先问一个问题：这些 token 到底是必要信息，还是糟糕工作流的垃圾输入？有些场景确实需要超长上下文，比如跨仓库重构、长文档对齐、复杂 multi-agent handoff；但大量日常 coding 工作不需要。问题不在模型不够长，而在输入不够干净。

第四，MCP 生态值得更严肃地看。

过去很多人把 MCP 当成“接工具的插头”。现在应该把它看成 developer tooling 战争里的 control plane。谁掌握 MCP 层的缓存、记忆、权限、摘要、审计和 telemetry，谁就更接近企业采购预算。36kr 提到 context-mode 已推出面向企业的 Insights，把工具调用、报错、成本发往服务器做分析；这说明它不只想做开源插件，而是想做“上下文即服务”。

这一步商业化路径很清楚。

免费开源层拿 distribution，企业观测层拿 revenue。

第五，如果你是 model API 消费者，routing 策略要从“按模型能力切”升级到“按任务信息密度切”。

高信息密度、低可压缩任务，才值得上更贵模型；低信息密度、可脚本化任务，应尽量在模型外完成，再把结果喂给便宜模型。这才是 token economics 的核心套利。

callout

未来被定价的，不只是 token；而是每一次“是否值得让模型看到这段信息”的决策。

05 反方观点 / 风险

我前面基本站在看多一边。

现在说反方，而且要说得更硬一点：context-mode 可能只是一个过渡性补丁，而不是长期层级。

第一，媒体稿里的关键数字几乎都来自团队口径或单点测试，不是独立、可重复、跨模型、跨仓库、跨 IDE 的标准化 benchmark。87.7%、98%、99.98% 这些数字很抓眼球，但不同任务分布下会剧烈波动。一个擅长被压缩的文件读取场景，不代表真实项目开发的整体节省比。我没亲自复现实验，所以这里必须保留很大折扣。

第二，平台内建风险极高。

如果 Cursor、Anthropic、OpenAI 的 agent SDK 或 IDE 集成层，把 snapshot、prompt caching、tool result compaction、local sandbox execution 全部做进主流程，独立 MCP 中间层的生存空间会迅速收缩。开源项目的 distribution 可以快，但默认位的 distribution 更快。

第三，企业侧还会遇到合规与信任问题。

36kr 文中提到 Insights 会把程序员使用 AI 的过程数据发送到服务器，包括调用了什么工具、报错几次、花了多少钱。这对 ROI 度量当然有吸引力，但也直接触碰代码隐私、行为监控、研发文化摩擦。很多企业未必愿意让一个外部插件掌握这么深的 telemetry。

第四，模型本身也在吞噬这类机会。

更强的 tool use、更便宜的输入 token、更好的 prompt caching、更稳定的 KV cache 复用，都在削弱“额外加一层上下文治理”的边际价值。换句话说，如果基础模型和 API 厂商持续降价并提升 agent 稳定性，中间件的 ROI 会被压缩。

所以我的结论不是“context-mode 会赢”。

我的结论是更窄的：它暴露出的矛盾是真的，而且很大。

AI coding 的下一轮竞争，不只是谁的模型写代码最好，而是谁能最有效地限制模型乱看、乱搜、乱花 token。

如果这个判断成立，那么即便不是 context-mode 本身，context gatekeeper 这一层也一定会出现，而且会被迅速企业化、平台化、商品化。

context-mode 不是插件，是 token 闸门

01 触发事件

02 这事的真正含义

03 历史类比 / 结构对照

04 对 AI builder 意味着什么

05 反方观点 / 风险

相关推荐

Lockdown Mode 不是安全补丁

Apple 把 Agent 搬进系统层

SK海力士扩招不是就业新闻

一位开发者被模型 FOMO 逼到焦虑：大模型竞争正从能力转向“够不够用”

Anthropic 被禁，不只是安全

Qwen 也开始适配 EAGLE3：本地大模型提速仍是小步快跑，不是代际跃迁