01 触发事件

夏季达沃斯上,德勤中国 CEO 刘明华说:中国 token 调用量连续 7 周霸榜全球。

这是一个很硬的信号。它不是“某个大模型发布了更强 benchmark”,而是真实 usage 在一个大市场里持续领先。

我没看到原始统计口径,所以这句话可能混合了公有 API、企业私有部署、以及不同厂商的调用口径;但即便如此,连续 7 周仍然说明中国市场的 token 需求不是一次性脉冲。

02 这事的真正含义

表面上看,这是“中国 AI 应用很活跃”。

我认为更深一层是:中国正在把 AI 从 demo 市场,变成高频 token 消费市场。

这件事有三个含义。

第一,token 需求领先,通常意味着应用层已经跑起来了。不是先有“全民讨论 AI”,而是先有足够多的场景在稳定吞 token:客服、办公、编程、检索、内容生产、工业知识库、流程自动化。

第二,token 领先不等于模型领先,但它会反过来塑造模型竞争。谁掌握更大的 distribution,谁就更容易吃到 routing、prompt caching、batch API、专用小模型分流这些结构性收益。真正被定价的,不只是模型能力,而是每个有效 task 的 inference cost

第三,中国市场如果持续是全球最大 token 消费池,那么本地厂商就更容易把价格往下卷到“基础设施化”区间。这个时候 moat 不是单纯的模型分数,而是服务半径、合规能力、生态接入和成本曲线

我没法仅凭这条新闻判断具体是哪家模型在赢,但我能判断的是:这类 usage 数据一旦稳定,行业的重心会从“谁更聪明”转向“谁更便宜、谁更接近工作流、谁能把 token 变成毛利”。

03 历史类比 / 结构对照

我会把它类比成 2014 年前后的 AWS 信号,而不是 2022 年那种纯产品爆点。

AWS 真正重要的,不是某次发布,而是开发者把云当成默认底座。等 usage 真正上来,价格、架构、生态、销售都要跟着重写。

这里也类似:当一个市场的 token 调用量长期领先,说明 AI 已经不只是“被讨论的技术”,而是被当成生产资料在消耗。

另一个更近的类比是 2022 年 ChatGPT 之后的全球扩散。但不同点在于:那次是单产品引爆认知,这次更像区域性 demand 结构成型。前者解决“有没有人用”,后者解决“谁能持续供给、持续变现”。

我可能把类比拉得有点满,但我觉得方向对:这不是一条新闻,这是一个需求侧拐点

04 对 AI builder 意味着什么

如果我在做模型 API、agent 工具或 AI 应用,这周我会改三件事。

第一,重新看中国市场的 routing 优先级。中国 token volume 领先,说明本地化模型、低延迟节点、中文场景优化、合规交付,都会直接影响 GMV。

第二,别只盯 benchmark,要盯 per-task economics。一个能便宜 30% 的模型,哪怕单轮质量略差,只要能配合 cache、batch、tool use 和 fallback,就可能吞掉大量真实流量。

第三,产品设计要默认“高频 token 化”。如果你的应用不能把用户动作稳定转成 token 流程,它就很难在这个市场拿到持续留存。这里的 moat 不是 UI,而是 workflow embedding。

我没在内部跑过这类市场分布,但我的判断是:接下来最值钱的不是“最强模型接入”,而是能把不同模型、不同价格带、不同合规要求统一成一个可路由的 consumption layer

05 反方观点 / 风险

我也可能高估了这条信息的含金量。

风险一,所谓“连续 7 周霸榜”可能只是某个统计口径下的相对排名,不代表绝对规模差距真的拉开。口径一变,结论会变。

风险二,token 多不等于利润好。一个市场如果主要在卷低价 API、免费试用和高频短任务,usage 虽大,provider 的毛利未必漂亮。这个坑我认为很多人会忽略。

风险三,中国领先的可能是“调用量”,不是“高价值调用量”。如果大量 token 来自低复杂度、低 ARPU 场景,那它对全球 model frontier 的意义,可能不如表面看起来那么大。

所以我不会把它解读成“中国模型已经全面领先”。我更愿意把它看成:中国已经证明,AI 不是只在硅谷发生的实验,而是一个可以被大规模消费的生产性市场。 如果这个判断成立,后面的竞争就不再只是模型能力,而是 distribution、成本曲线和生态锁定。