图像模型才是增长按钮

01 触发事件

2026 年 5 月，TechCrunch 援引 Appfigures 的统计说，一类信号已经很清楚：AI app 里，图像模型相关功能发布带来的下载增长，平均是 chatbot 升级的 6.5 倍；但另一面也同样清楚，多数 app 并没有把这波下载有效转成 revenue。

这不是“又一篇 AI app 榜单新闻”。

这是一条关于需求侧的定价信号。

如果这个数字成立——我没在 Appfigures 的原始样本里核对过 cohort 切分——那它至少说明一件事：用户对模型能力的感知，不是按 benchmark 提升来付费，而是按“结果是否立刻可见、是否适合分享、是否能在商店页一眼讲明白”来行动。

Appfigures 的结论可以压缩成一句话：

图像 AI 发布更容易拉动下载，chatbot 升级更像存量体验改善，而不是新增获客事件。

这才是这条新闻在说的事。

Appfigures finds visual model launches generate 6.5x more downloads — but most don’t convert that spike into revenue.

问题不在“用户更爱图像”，而在图像功能天然更适合 distribution。

App Store 时代一直如此：能被截图、被二次传播、被社媒演示的能力，获客效率通常高于需要长时间 interaction 才能理解价值的能力。AI 只是把这个差异放大了。chatbot 的升级，哪怕底层从 Sonnet 4.5 到更强的新模型，对多数非重度用户来说，商店页很难解释；但“把自拍变成宫崎骏风格”或者“产品图一键换背景”，用户三秒钟就懂。

我可能低估了一个因素：如果样本里 consumer app 占比远高于 prosumer / enterprise app，那么 6.5 倍更多是在反映应用品类结构，而不完全是模型形态优势。但即便如此，信号依旧有效，因为消费市场本来就是下载弹性最大的战场。

02 这事的真正含义

表面上看，这是“图像模型比 chatbot 更能带增长”。

真正含义是：AI 应用层的增长逻辑，正在从“模型 IQ 竞争”转向“结果可视化竞争”。

这是两个完全不同的战场。

前者考验 model quality、latency、context、tool use、KV cache、推理成本和 routing；后者考验的是包装能力、分发效率、首屏价值表达，以及生成结果能不能成为下一轮流量入口。也就是说，图像模型带来的不只是一个 feature，而是一个自带传播介质的 output format。

这会直接改变应用层 moat 的位置。

chatbot 产品的痛点很明确：底层模型持续 commodity 化，切换成本低，用户很少因为“回答更好了 12%”而在应用层形成强 loyalty。尤其当 OpenAI、Anthropic、Google 把通用对话能力卷到足够接近时，应用层如果没有 workflow、memory、vertical data、distribution channel，就很容易被上游模型迭代吃掉。

图像类产品反而提供了一个短期喘息窗口。

因为图像 output 有三层额外价值：第一，可见性强；第二，社交传播天然；第三，更容易和特定 use case 绑定，比如电商素材、品牌创意、头像、室内设计、游戏 asset。这里的关键不是“图像模型更先进”，而是 output 的消费路径更短。用户看到图，立刻知道值不值。文本不行，文本需要读、需要比较、需要任务上下文。

这意味着什么？

意味着很多 AI app 的增长单位，不再是“每次更聪明一点的回答”，而是“每次能不能产出一个可传播的 artifact”。真正会被定价的，可能不是 token 本身，而是 artifact 产生后的下游行为：分享、导出、打印、投放广告、上架商品、嵌入 workflow。

这也是为什么“下载暴涨但收入不涨”并不矛盾。

下载是 distribution 成功，收入是 value capture 成功。

前者说明图像 feature 能把门打开；后者说明多数团队还没建立从 novelty 到 retention、再到付费的转换结构。图像生意最大的风险，从来不是没人来，而是所有人来过一次就走。

我没看到 Appfigures 对付费转化路径做更细拆分，所以这点我可能判断过猛。但从过去两年 AI image app 的榜单波动看，爆发式下载和脆弱留存并存，基本是行业常态。

03 历史类比 / 结构对照

更接近这次信号的历史类比，不是 2022 年 ChatGPT，而是 2007 年 iPhone 的多点触控演示，或者更商业一点，2010 年 Instagram 的滤镜。

为什么不是 ChatGPT？

因为 ChatGPT 的意义是把“自然语言接口”变成大众认知中的平台入口；而这次图像模型带增长，反映的是另一种机制：当新技术的价值可以被肉眼瞬间判断时，分发成本会急剧下降。iPhone 的 pinch-to-zoom 不需要教育，Instagram 的滤镜不需要解释，Midjourney 的第一波 viral 也不需要 benchmark 表格。

这里有一个结构性对照很重要。

Chatbot 升级像 CPU 提频。

图像功能上线像摄像头升级。

前者很重要，但消费者不一定感知；后者一旦跨过阈值，直接改写购买理由。AI app 现在遇到的就是这个问题：开发者和模型实验室热衷于讲 reasoning、agent loop、tool calling、MCP 兼容，但普通用户是否下载，往往取决于商店页上那一张 before/after 对比图。

这和 2014 年 AWS 的历史也有一点相似。AWS 真正赢，不是因为每一项底层技术都更“性感”，而是因为它把复杂能力封装成开发者立即可用的服务单元。今天图像模型对 app 增长的推动，本质上也是“封装后的价值可见性”比“底层能力提升”更重要。

换句话说，应用层的赢家未必是拿到最强模型的人，而是把模型结果包装成最低认知负担产品的人。

这对 builder 不一定是好消息。

因为它意味着一部分竞争优势正从纯工程执行，转移到产品叙事、分发设计和结果展示。而这些能力通常比接 API 更稀缺，也更不容易通过换模型补齐。我可能高估了消费应用的普适性，但至少在高频获客场景里，这个规律大概率成立。

04 对 AI builder 意味着什么

如果我现在在做 AI app，这周会先做四个调整。

第一，重新定义北极星指标。

不要只盯模型成功率、平均响应时长、每千 token 成本。那些当然重要，尤其对 op margin 很关键；但需求侧现在给出的信号是，artifact creation rate、分享率、7 日留存、首次价值到达时间，可能比“回答更准”更决定增长。尤其是面向消费者或 SMB 的产品，先让用户看到东西，再谈模型有多强。

第二，重新安排产品路线图。

如果你的 chatbot 升级只是“更聪明一点”，但在 UI 上没有可感知变化，那它很可能不会带来新增下载。相反，哪怕只是把已有文本能力包成可视化输出——报告卡片、海报、视频片段、商品图、流程图——都可能更接近真实的 distribution 事件。问题不在底层模型是不是 GPT-5.4 还是 Gemini 3，而在用户有没有一个能立刻分享的结果。

第三，重做 monetization 结构。

Appfigures 这条新闻里最重要的负面信息，不是 6.5 倍，而是“多数没有转成 revenue”。这说明很多团队还在用过时的 token 计费心态经营 consumer AI：注册送几次、订阅解锁无限、然后赌用户会因为新鲜感续费。图像产品更合理的方式，往往是按 artifact、按导出、按商业用途、按品牌资产包、按团队协作席位收费。真正有支付意愿的，不是“生成了一张图”，而是“这张图能拿去卖货、投广告、做内容”。

第四，基础设施层面要准备 routing。

图像模型的成本、延迟、质量差异，比纯文本产品更容易直接影响 unit economics。builder 需要保留多模型接入能力，最好能按任务做 routing：草稿图、风格化、高清修复、批量电商图，不一定要同一个模型。这里 token gateway 的价值开始体现，不只是省切换成本，而是把模型供给侧波动转成产品侧的套利空间。我没在所有图像 API 上跑过完整对比，但从行业经验看，单一上游依赖会越来越危险。

一句更直接的话：

接下来几个月，最值得做的不是“再做一个更聪明的聊天框”，而是找到哪个 output format 能成为你的 distribution engine。

05 反方观点 / 风险

我也可能错。

最直接的反驳是：下载不是生意，收入和留存才是生意。既然 TechCrunch 已经点明，多数图像功能带来的下载没法转成 revenue，那这条新闻也可以反过来读——图像 AI 只是更强的 clickbait，而不是更好的 business。

这个反方不是枝节，是核心风险。

图像模型的 viral 属性，可能恰恰意味着 moat 更弱。因为用户忠诚的不是某个 app，而是某种风格效果；一旦效果被复制，switching cost 接近零。更糟的是，图像 output 很多时候是低频需求，消费型 retention 天然脆弱。今天爆红的头像 app，明天就可能掉榜。换句话说，图像功能也许能买来 CAC，却买不来 LTV。

另一个反方是，chatbot 升级的价值被低估了。

很多真正赚钱的 AI 产品——代码助手、客服自动化、销售 copilot、法律文档、医学摘要——本来就不靠 App Store 下载增长。它们靠的是 seat expansion、workflow integration、数据沉淀和组织层 switching cost。在这些场景里，图像模型的下载弹性几乎没有意义，反而是文本 reasoning、tool use、MCP、长 context、低 hallucination 更关键。也就是说，Appfigures 的观察可能更像消费 app 的局部规律，而不是全行业结论。

还有第三个风险：上游平台会把图像能力继续系统级吸收。

如果 Apple、Google、OpenAI、Meta 把图像生成和编辑做进默认入口，独立 app 的 distribution 优势可能迅速消失。到那时，图像不再是增长按钮，只是平台标配。应用层如果没有 vertical workflow，很快会被压成薄壳。

所以我最终的判断不是“去追图像热点”。

而是更窄的一句：图像模型正在证明，AI app 的增长不是由最强模型驱动，而是由最容易被感知和传播的 output 驱动。这个规律在消费场景里尤其成立，但它未必自动转化成收入，更未必形成 moat。

对 builder 来说，机会不是做图像本身。

机会是找出那个既能被看见、又能被持续付费的结果单位。

做到这一步，增长才不是一次性 spike。

图像模型才是增长按钮

01 触发事件

02 这事的真正含义

03 历史类比 / 结构对照

04 对 AI builder 意味着什么

05 反方观点 / 风险

相关推荐

Midjourney 不做图了，做入口

软银把 OpenAI 卖进日本安防

硅基流动拿到的不是钱

Anthropic 被停服的真问题

Anthropic 断供 Mythos 的真信号

Apple 用 Siri 买时间