01 触发事件
2025 年,开源 MCP 插件 context-mode 在 GitHub 获得超 1.5 万 Star;36kr 援引团队口径称,已有逾 24.3 万开发者接入,支持 15 个主流平台,并宣称在编程场景可把成本降低 98%,把模型“有效记忆”从 30 分钟拉长到 3 小时。
更具体一点,文中给了几组数字:对 79.3 KB 文件读取,Token 成本降低 87.7%;某些文件处理场景可节省 99.98% Token;其机制包括“虚拟沙盒”、小于 2KB 的对话快照,以及 Think in Code,也就是先写本地脚本再把结果回传给模型。
这篇稿子表面在讲一个开源项目爆红。
但这不是重点。
重点是,AI coding 的瓶颈,正在从“模型够不够聪明”,转到“上下文是不是被错误地喂给了模型”。
我没在内部跑过它的全量 benchmark,所以 98% 这个数字我不会照单全收;但哪怕把宣传水分打掉一半,这仍然是个值得注意的信号。
callout
真正昂贵的不是推理本身,而是把本不该进入 context window 的东西,反复、全量、无差别地送进去。
02 这事的真正含义
这事真正说明的,不是又一个 AI 编程插件冒头了。
而是 coding agent 这条链路里,context orchestration 正在成为独立价值层。
过去一年,大家把注意力放在模型排名:Claude、GPT、Gemini 谁写代码更稳,谁 tool use 更强,谁长上下文更能扛项目级任务。但在真实开发流程里,模型常常不是因为“不会写”而失败,而是因为“看了太多不该看的东西”。
这才是 context-mode 在说的事。
第一,它在把 MCP 从“工具协议”推向“流量治理层”。
如果每次工具调用都把庞大原始文件、运行日志、检索结果直接塞进模型,那 token burn 是线性上升的,甚至在 agent 反复试错时呈现接近失控的复利效应。context-mode 的“虚拟沙盒”本质上是在做一层 admission control:模型不能直接碰全部数据,只能拿被筛选过、压缩过、局部化的结果。
这和 API gateway 的逻辑很像。
谁控制请求路径,谁就有定价权。
第二,它在把“本地计算”重新引入 agent loop。
Think in Code 看起来像 prompt 技巧,其实更像执行架构调整:把模型从 data processor 退回 planner,把脚本、本地 runtime、sandbox 变成真正的数据处理者。模型不再逐行吞代码、日志、CSV,而是先生成一个局部程序去跑,再读结果摘要。
这一步非常关键。
因为 token 最贵的时候,往往不是模型在思考,而是模型在替代 shell、grep、sed、pytest、sqlite、脚本解释器这些本来就便宜得多的组件。
第三,它在重定价“长上下文”的价值。
很多团队把 context window 当成万能药:窗口越大,agent 越不容易失忆。但大窗口不是免费午餐。更大的 KV cache、更高的 attention 开销、更长的输入链路,都意味着成本上升和延迟上升。context-mode 的路线相当于说:不要先买更大的脑子,先学会把笔记整理好。
这会影响 builder 对模型的采购逻辑。
如果上下文压缩、快照注入、局部检索做得足够好,那么最优解未必是永远追逐最大窗口、最强模型,而是让中等模型在更干净的输入上工作。我没看到它对不同模型族的系统性 A/B 数据,这点我可能误判;但方向上,我认为是对的。
callout
长 context 解决的是“能装下”,context management 解决的是“根本不该装进去”。
03 历史类比 / 结构对照
我想到的类比不是 2022 年 ChatGPT。
更像 2014 年前后的 AWS 使用演进:早期大家以为上云的价值在“租到算力”,后来才发现,真正决定成本结构和开发效率的,是缓存、队列、对象存储、权限、监控、流量治理这些中间层。
模型厂商今天卖的是 intelligence。
但应用团队实际消耗的,是一个完整的推理 supply chain:模型、KV cache、tool call、检索、本地执行、状态快照、重试策略、routing、权限边界。
在这条链上,模型只是最显眼,也最贵的节点。
context-mode 这种项目的价值,在于它提醒市场:AI coding 不是单次 completion,而是一个长循环系统。系统一旦进入长循环,最先暴露的问题从来不是 benchmark,而是 memory discipline。
这也解释了为什么它不是简单的 Cursor 替代品。
Cursor、Claude Code、Cline 这一类产品在争的是入口、工作流和 distribution;而 context-mode 这种 MCP 中间层争的是“无论你用哪个前端,都要经过我的上下文治理”。前者像 IDE,后者更像网络栈。
这是一种典型的 aggregation theory 反转。
在用户界面层,入口平台试图聚合模型和工具。
但在执行层,中间件又在反向聚合入口,把真正重要的数据路径截住。
谁能成为默认路径,谁就有 moat。
当然,这个 moat 现在还很薄。MCP 是开放协议,主流 IDE 完全可以把类似能力内建掉。尤其当 Anthropic、OpenAI、Google 或 Cursor 发现 token 浪费直接伤害用户 retention 和 gross margin 时,他们会迅速把“本地先算、只回摘要、自动建快照”做成平台能力。我没在这些团队内部,所以不能判断它们的 roadmap 节奏,但这就是 open protocol 上中间层公司的宿命。
04 对 AI builder 意味着什么
这周、这个月,builder 应该调整的,不是“赶紧装这个插件”这么简单。
第一,开始把 token 账单拆成结构化成本。
不要只看月度 API 总额,要拆成至少四类:有效生成、重复检索、无效工具调用、长对话历史负担。很多团队以为自己在为模型能力付费,实际上是在为糟糕的 agent loop 付费。能看到这四层,routing 才有意义。
第二,给 coding agent 增加本地执行优先级。
凡是统计、搜索、diff、lint、测试、日志聚合、批量文件扫描这类任务,默认先走脚本或 sandbox,不要默认进模型。模型负责计划和解释,本地 runtime 负责搬砖。这不是“优化”,而是成本边界。
第三,重新评估 context window 采购策略。
如果你的团队正在为 1M 甚至更大的上下文付 premium,先问一个问题:这些 token 到底是必要信息,还是糟糕工作流的垃圾输入?有些场景确实需要超长上下文,比如跨仓库重构、长文档对齐、复杂 multi-agent handoff;但大量日常 coding 工作不需要。问题不在模型不够长,而在输入不够干净。
第四,MCP 生态值得更严肃地看。
过去很多人把 MCP 当成“接工具的插头”。现在应该把它看成 developer tooling 战争里的 control plane。谁掌握 MCP 层的缓存、记忆、权限、摘要、审计和 telemetry,谁就更接近企业采购预算。36kr 提到 context-mode 已推出面向企业的 Insights,把工具调用、报错、成本发往服务器做分析;这说明它不只想做开源插件,而是想做“上下文即服务”。
这一步商业化路径很清楚。
免费开源层拿 distribution,企业观测层拿 revenue。
第五,如果你是 model API 消费者,routing 策略要从“按模型能力切”升级到“按任务信息密度切”。
高信息密度、低可压缩任务,才值得上更贵模型;低信息密度、可脚本化任务,应尽量在模型外完成,再把结果喂给便宜模型。这才是 token economics 的核心套利。
callout
未来被定价的,不只是 token;而是每一次“是否值得让模型看到这段信息”的决策。
05 反方观点 / 风险
我前面基本站在看多一边。
现在说反方,而且要说得更硬一点:context-mode 可能只是一个过渡性补丁,而不是长期层级。
第一,媒体稿里的关键数字几乎都来自团队口径或单点测试,不是独立、可重复、跨模型、跨仓库、跨 IDE 的标准化 benchmark。87.7%、98%、99.98% 这些数字很抓眼球,但不同任务分布下会剧烈波动。一个擅长被压缩的文件读取场景,不代表真实项目开发的整体节省比。我没亲自复现实验,所以这里必须保留很大折扣。
第二,平台内建风险极高。
如果 Cursor、Anthropic、OpenAI 的 agent SDK 或 IDE 集成层,把 snapshot、prompt caching、tool result compaction、local sandbox execution 全部做进主流程,独立 MCP 中间层的生存空间会迅速收缩。开源项目的 distribution 可以快,但默认位的 distribution 更快。
第三,企业侧还会遇到合规与信任问题。
36kr 文中提到 Insights 会把程序员使用 AI 的过程数据发送到服务器,包括调用了什么工具、报错几次、花了多少钱。这对 ROI 度量当然有吸引力,但也直接触碰代码隐私、行为监控、研发文化摩擦。很多企业未必愿意让一个外部插件掌握这么深的 telemetry。
第四,模型本身也在吞噬这类机会。
更强的 tool use、更便宜的输入 token、更好的 prompt caching、更稳定的 KV cache 复用,都在削弱“额外加一层上下文治理”的边际价值。换句话说,如果基础模型和 API 厂商持续降价并提升 agent 稳定性,中间件的 ROI 会被压缩。
所以我的结论不是“context-mode 会赢”。
我的结论是更窄的:它暴露出的矛盾是真的,而且很大。
AI coding 的下一轮竞争,不只是谁的模型写代码最好,而是谁能最有效地限制模型乱看、乱搜、乱花 token。
如果这个判断成立,那么即便不是 context-mode 本身,context gatekeeper 这一层也一定会出现,而且会被迅速企业化、平台化、商品化。