01 触发事件

7 月这条来自 36kr 的消息很直接:快手计划分拆旗下视频生成大模型业务可灵 AI,以 200 亿美元估值融资 20 亿美元,腾讯等投资方参与洽谈;报道同时称,可灵当前 ARR 已达 5 亿美元,较春节前翻倍,而快手港股当日总市值 不到 290 亿美元

这几个数字放在一起,信息量远大于“又一家 AI 公司融资”。

如果报道准确,市场正在给可灵这个视频模型业务,打到接近母公司七成市值的价格。

这才是这条新闻真正需要盯住的地方。

我没在内部看过可灵的收入口径,5 亿美元 ARR 里到底有多少是 API、多少是订阅、多少来自 B 端打包合作,我现在无法验证;但即便把口径打七折,这仍然是一个足够大的信号。

留白看原文,核心只有一句:

可灵当前的年化收入(ARR)已经达到5亿美元,已比春节前翻倍;可灵计划以200亿美元估值融资20亿美元

这不是 PR 修辞。

这是资本市场在尝试回答一个更硬的问题:视频生成模型,究竟是不是一个可以脱离通用大模型叙事、被独立估值的生意。

02 这事的真正含义

表面上看,这是快手把一个热门 AI 资产拆出来融资。

问题不在“分拆”,而在“单独定价”。

过去两年,大模型公司的估值逻辑大致有三种。

第一种是闭源 frontier lab 逻辑:按能力上限、研究团队、资本开支承接能力来估值,典型是 OpenAI、Anthropic。

第二种是云与平台逻辑:模型是 cloud attach 的流量入口,真正被定价的是 compute utilization、enterprise bundle、distribution,典型是 Google、Microsoft、AWS。

第三种是应用逻辑:把模型封装成一个用户愿意持续付费的产品,用 retention 和 ARR 说话,典型是 Cursor 这类 developer tool,或者一部分 AI-native SaaS。

可灵比较特殊。

它夹在第二和第三种之间:底层是重资产模型供给,前台又是可直接变现的视频生产需求。

所以如果 200 亿美元估值与 5 亿美元 ARR 这组数字成立,市场给可灵的不是“一个功能很酷的视频 App 估值”,也不是“一个烧 GPU 的研究团队估值”,而是 “具备独立收入闭环的视频模型平台”估值

这意味着什么?

意味着视频生成这个赛道,开始从 benchmark 竞争,转向 token 经济学 + workload ownership 竞争。

文本模型的竞争,已经很难只靠“模型更聪明一点”拿到 moat。

视频模型更残酷。

因为视频生成天然是高 cost、高 latency、高失败率的 workload。用户不只是比较“效果”,而是在比较:

  • 单次生成可接受的价格
  • 可迭代编辑的回合数
  • 首帧/角色一致性
  • 队列等待时间
  • 商用版权与可交付性
  • 从灵感到成片的工作流闭环

也就是说,视频模型真正会被定价的,不是参数量,而是 把高成本推理变成可重复消费行为的能力

如果可灵的 ARR 真在半年内翻倍,那说明至少有一部分用户已经不把视频生成当“尝鲜玩具”,而是当成生产工具。

这和年初很多人对视频生成的判断不同。

当时更常见的看法是:视频很酷,但 inference cost 太高,用户复购弱,最后会退化成流量营销工具。

现在这条新闻给出的反证是:至少在中国市场,视频模型可能比通用聊天机器人更快找到付费意愿明确的场景。

我可能低估了渠道因素。快手本身就有内容创作者生态,这种 distribution 不等于模型能力,但会直接改善冷启动、留存和付费转化。换句话说,可灵的收入未必完全可复制到一个纯独立创业公司身上。

但这也正说明另一件事:模型商品化之后,distribution 再次变贵。

03 历史类比 / 结构对照

这让我想到的不是 2022 年 ChatGPT,而更像 2014 年前后的 AWS。

不是因为技术形态相似,而是因为两者都经历了一个关键时刻:母体内部能力,被拆成一个可外售、可定价、可独立资本化的基础服务。

AWS 在亚马逊内部,最初只是服务电商主业的基础设施。

但一旦它可以独立卖给外部开发者,资本市场就开始重新理解亚马逊:不是“零售公司顺便做云”,而是“云业务正在反向定义集团估值”。

可灵如果被成功分拆,某种意义上也是同样的结构变化。

快手原本是内容平台。

但如果视频模型业务被单独融资、单独估值、甚至未来具备单独报表逻辑,那么市场会开始把它视为一类新的 AI infra/application hybrid 资产:既有模型供给属性,又有内容工具属性。

这和很多 AI 应用公司不同。

大多数 AI 应用,本质上是在消费别人的模型 API,再通过 UX 或垂直 workflow 做再包装,所以它们的核心风险是 switching cost 不够深,模型一旦同质化,毛利会被压扁。

视频模型平台的结构更重。

它需要自有模型、自有数据飞轮、较强推理调度能力、较长工作流闭环,还可能叠加社区与模板市场。

换句话说,它更像“新型软件工厂”,而不是“聊天壳子”

我没看到可灵完整的 unit economics,所以不能断言这会复制 AWS 的利润曲线;尤其视频生成对 GPU 的吞吐压力远高于文本,KV cache 这类优化在视频场景的杠杆也没那么直接,毛利结构未必会像文本 API 那样改善得快。

但市场愿意先给高估值,本身就在下注一件事:视频模型的成本曲线会比今天看起来下降得更快。

如果这个判断错了,今天的高估值会非常脆。

如果这个判断对了,今天就是视频模型从“demo 资产”变成“现金流资产”的那个拐点。

04 对 AI builder 意味着什么

对 AI builder 来说,这条新闻最值得调整的,不是情绪,而是路线图。

第一,别再把视频生成看成“附属功能”。

如果你做的是营销、短剧、电商素材、游戏美术、教育内容、企业培训、出海广告生成,只把视频生成当作一个可有可无的 feature,可能已经落后。

当一个模型平台能做到 5 亿美元 ARR 量级,说明市场已经在形成稳定预算池。

预算池一旦存在,独立软件层就会快速长出来。

第二,要重新计算多模型 routing 的价值。

视频模型与文本模型不同,单一模型通常很难同时覆盖:创意草图、产品演示、角色一致性、广告级成片、低成本批量生成。

这意味着应用层会天然出现 routing 机会。

不是所有请求都该打给“最强模型”。

更合理的做法是按工作流拆分:

  • 文案与 storyboard 用便宜文本模型
  • 镜头规划用中档多模态模型
  • 核心视频片段调用高质量视频模型
  • 后处理、字幕、配音再回落到便宜模型

这才是 AI 原生视频产品可能出现毛利的方式。

第三,distribution 再次成为一等公民。

很多创业者默认“模型能力提升会抹平渠道差异”。

这在文本 chat 上某种程度成立,因为入口高度同质化。

但视频不是。

视频生产天然嵌在具体工作流里:投放团队、MCN、短剧工作室、品牌内容部、电商商家、教育公司。

谁先卡住 workflow,谁就拿到真实 usage。

模型能力重要,但最后被留住的是 工作流与资产沉淀:模板、角色库、品牌素材、审核流程、协作历史、版权管理。

这些东西才是 switching cost。

第四,API 网关和 infra 层要准备好“多媒体 token 经济学”。

文本世界里,大家已经熟悉 prompt caching、batch API、长 context 溢价、模型 fallback。

视频世界里,新的计费与调度问题会更麻烦:

  • 按秒计费还是按分辨率计费
  • 首次草稿与精修版本怎么分层
  • 失败重试是否折价
  • 高峰期队列是否动态加价
  • enterprise 是否需要 reserved capacity

我没跑过可灵的真实调用链路,但如果视频模型进入规模化商用,这类网关层能力会比单纯“接更多模型”更值钱。

第五,这周就该做的动作很简单:

  • 如果你做内容生产工具,补视频路线图,不要再拖一个季度
  • 如果你已经接视频模型,开始监控任务级毛利,而不是只看 DAU
  • 如果你卖 API,设计视频 workload 的路由与计费抽象
  • 如果你是创业公司,少讲“AI 视频很火”,多讲具体 retention 与复购周期

真正会被资本市场奖励的,不是“接了视频生成”。

你能否把视频生成变成可预测收入。

05 反方观点 / 风险

我前面的判断,最大的风险是:这可能只是一级市场在给稀缺叙事溢价,而不是基本面拐点。

先说最直接的一点。

36kr 引述的是交易洽谈信息,不是已 close 的正式公告。

估值是谈判数字,不等于最终成交价格;ARR 也可能混入大量短期促销、渠道预充值、或尚未充分验证留存的企业订单。

如果收入质量不够高,200 亿美元估值对应 5 亿美元 ARR,大约 40x 的收入倍数,并不便宜。

对一个 inference cost 极重、技术替代快、国际竞争激烈的赛道来说,这个倍数很容易被压缩。

第二,我可能高估了视频模型的独立 moat。

今天可灵能冲起来,部分原因可能不是视频生成本身有超强 defensibility,而是市场还处在供给稀缺阶段。

一旦 OpenAI、Google、Runway、Pika、字节、阿里、快手这批玩家持续下探价格、提升质量,视频模型很可能迅速走向商品化。

到那时,被定价的就不再是模型,而是 distribution、版权清晰度、企业交付能力。

如果是这样,可灵的估值逻辑更像“强渠道应用”,而不是“基础模型平台”。

第三,视频生成未必会像文本生成那样形成高频调用。

很多真实业务只需要每周出几条高质量视频,而不是每天几十次试错。

低频需求会直接限制 token 消耗,也会限制 API business 的上限。

换句话说,今天看到的 5 亿美元 ARR,也可能更多来自短期爆发,而不是长期稳定的 usage curve。

第四,快手母体给予的流量、数据、组织资源,可能让可灵呈现出一种“看起来像独立公司,实则依赖平台土壤”的优势。

一旦完全分拆,这种优势能保留多少,我不确定。

所以更谨慎的表述应该是:

这条新闻未必证明“视频模型已经赢了”。

它更像是在提示市场,视频生成第一次有机会被当成独立业务单元来严肃定价

这已经足够重要。

因为一旦资本市场开始按独立业务单元看待视频模型,接下来被迫变化的,就不只是快手。

而是所有还把多模态生成当“流量 feature”的平台公司。