## 01 触发事件 36kr 这篇文章讲得很直白:2026 年中国 AI 视频生成工具和 Agent 产品商业化很猛,但它们普遍担心被上游模型厂“顺手做掉”。 文中给了几个值得记住的具体点:字节的 Seedance、快手的可灵在高频迭代;阿里 4 月底灰测 HappyHorse 1.0,720P 视频生成刊例价 0.9 元/秒;业内人士称头部公司单月算力消耗在百万元以上,一部短剧算力成本约 3 万元;Creati 上线一年全球用户量破千万,ARR 一度到 2000 万美元;LiblibAI 去年 10 月完成 1.3 亿美元 B 轮融资。 这不是一篇“又一个赛道很火”的稿子。 这篇稿子的核心事实,是应用层收入已经被证明存在,但利润、定价权和生存权,仍然被上游模型厂捏着。 我没在这些公司的内部跑过 P&L,也没看到真实 cohort 数据,所以对其中个别收入与成本结构只能做结构性判断,不能把媒体转述当审计报表。 大厂会做,但不会明天就做。 这句几乎是全文最重要的一句。 ## 02 这事的真正含义 表面上看,这是“AI 视频 Agent 能不能在大厂碾压前赚到钱”。 真正的问题不是能不能赚到钱,而是赚到的钱到底来自哪里。 如果收入主要来自三件事:更好的封装、更便宜的 model access、更凶猛的投流,那这不是 moat,这只是窗口期利润。 换句话说,这一波公司今天卖的不是视频生成能力本身,而是四种中间价值: 第一,替用户完成复杂 workflow 的编排。 第二,替用户承担模型选择和 routing 成本。 第三,靠 API 折扣和批量采购能力吃 token / 秒级推理的差价。 第四,用服务把一个不稳定的新工具变成可交付的生产流程。 这才是这批公司在说的事。 问题不在“模型厂会不会做产品”,而在“模型厂什么时候把上面四层一层层收回去”。 文章里已经把答案说得很清楚了:利润很大程度由接入哪些模型、能拿到多大 API 折扣决定;而大厂内部不止一个团队盯着这些方向。 这意味着很多 AI 视频 Agent 本质上是“上游供给扩张期的渠道商 + 解决方案商”。这类位置不是不能做大,Adobe、Shopify 生态、甚至早期 AWS 上的一批 SaaS 都证明过中间层可以活得很好;但前提是你必须把“替代成本”做出来。 而今天大多数视频 Agent 的弱点恰恰在这里:用户喜欢结果,不忠于工具;企业客户忠于交付 SLA,不忠于某个生成按钮;一旦底座模型把 UI、模板、社区、分发入口和结算顺手整合,纯封装层会迅速 commodity 化。 我可能会误判的一点,是视频工作流确实比 text chat 长得多,包含脚本、分镜、角色一致性、镜头控制、后期编辑、分发适配、商业投放回传。这个链条比“聊天套壳”复杂得多,所以应用层并非完全没有时间。 但时间本身不是 moat。 ## 03 历史类比 / 结构对照 我更愿意把这件事类比成 2014 年前后的 AWS 生态,而不是 2022 年后的 ChatGPT 套壳潮。 为什么不是后者。 因为纯聊天产品当时的问题是 workflow 太短,用户需求太通用,切换成本几乎为零,所以上游一个模型升级就能吃掉大半价值。 视频不是这样。 视频更像早期 cloud 时代的一批云上软件公司:底层算力和基础能力由巨头提供,但真正有价值的,是谁把这些原子能力拼成可以直接面向业务的系统,并拿下 distribution。 不过这个类比只成立一半。 另一半更像 2007 年 iPhone 之后的 app economy:平台能力每年上升,开发者早期靠体验差和细分场景赚钱,但一旦系统原生吸收掉关键能力,独立应用会被压缩到两个位置,要么极度专业化,要么极度品牌化。 所以今天 AI 视频 Agent 面对的是双重挤压: 一边像 AWS 生态,机会来自基础设施快速下降的成本曲线。 另一边像 iOS 生态,风险来自平台把高频功能系统化。 这构成了一个典型的 strategic inflection point:上游模型性能每两个月一个大版本,应用层产品迭代和组织学习速度却跟不上。只要底模能力增长快于你的用户关系、数据回流和 workflow 深化,你就在被动地把利润池让回去。 我没法确认 Seedance、可灵、HappyHorse 未来 12 个月的视频质量、稳定性和价格曲线会怎样,但从文章给出的信号看,它们的产品野心显然不止于 API 层。尤其当字节和快手这类公司本身就握有内容分发入口时,模型、工具、社区、平台一体化几乎是天然方向。 真正会被定价的,不是“谁先做出视频”,而是谁拥有从生成到分发再到转化的数据闭环。 ## 04 对 AI builder 意味着什么 如果我现在在做 AI 视频 Agent,这周和这个月会优先检查四件事。 ### 第一,别再把“接更多模型”当成主要叙事 多模型接入当然重要,routing 也可能带来成本套利,但这更像 procurement 能力,不是长期护城河。 能长期留下来的,不是“我接了 Seedance + 可灵 + HappyHorse + 若干图像模型”,而是“我的 workflow 让客户没法轻易迁走”。 例如角色资产管理、风格模板库、团队协作、审片流程、版本回滚、分发适配、投放素材 A/B、订单交付网络,这些才会形成 switching cost。 如果产品还停留在 prompt to video 的漂亮壳层,我会把它视为高风险资产。 ### 第二,尽快从工具收费转向结果收费或混合收费 文章里提到 ZeroCut 的方向是“技术 + 服务”。 这未必性感,但很现实。 因为纯工具定价会被上游价格战直接传导;而服务、交付、代运营、行业方案、按结果结算,能把你的利润从“token 差价”转成“业务结果分成”。 说得更难听一点:如果你挣的是 API resale margin,你其实在给模型厂打工。 如果你挣的是客户最终成片、投放效果、短剧生产周期、SKU 素材产能,你才开始拥有自己的定价权。 我没看到文中这些公司公开披露 gross margin、回本周期和续费率,所以不能断言哪种模式已经跑通;但至少方向很清楚,离钱越近,越不容易被模型升级瞬间抹平。 ### 第三,抢数据闭环,不要只抢用户数 “跑起来,形成用户留存与数据沉淀”,这句话是对的,但得具体。 什么数据最值钱? 不是泛化的 prompt 日志。 而是和业务结果绑定的数据:什么脚本结构更容易完播,什么镜头节奏更适合电商转化,什么角色设定能在多集短剧里保持一致,什么类型的失败样本最耗推理成本。 这些数据一旦反哺 workflow、模板、自动化审片和模型 routing,应用层才开始从“流量生意”走向“系统生意”。 ### 第四,把 distribution 当作核心产品,而不是市场部工作 文章提到有人在搜索广告上一天能烧两三万元。 这说明需求很真,也说明竞争很原始。 只要你还主要依赖买量,你就没有真正控制自己的需求入口。大厂一旦用模型能力补贴产品,就可以把你的 CAC 直接抬上去。 所以我会优先做两类 distribution: 一类是垂直行业入口,比如短剧、电商、MCN、本地生活商家、品牌内容团队。 一类是创作者协作网络,也就是“客户不会用工具没关系,我帮你匹配会用的人”。 这其实不是退而求其次,而是在主动占据供需两端。平台一旦握住订单流和交付网络,即便底层模型替换,业务仍可迁移。 ## 05 反方观点 / 风险 前面的判断成立,有个前提:视频工作流足够复杂,上游大厂不会迅速把产品层统一掉。 但我可能错在低估了大厂整合速度。 尤其是字节、快手这种同时拥有模型、流量分发、创作者生态、商业化体系的公司,它们不是“API 厂商想做应用”,而是“内容平台补齐生产工具”。这两者完全不是一个威胁等级。 如果平台把脚本、生成、编辑、发布、投流、变现全部串起来,那么今天大多数 AI 视频 Agent 最强的那部分价值——简化流程——会被平台原生吞掉。 第二个风险,是应用层高估了自己对“审美”和“品味”的控制力。 创业者常说 taste 是护城河,这话不一定错,但 taste 必须被产品化、数据化、协作化,才能从 founder intuition 变成公司资产。否则它只是个脆弱的人才溢价。 第三个风险,是媒体里常见的 ARR 和用户量可能掩盖了留存问题。 视频产品天然容易靠 novelty 拉新,但如果用户只是为了某个爆款需求短期付费,长期 retention 不稳,那今天看起来漂亮的收入可能只是一次性红利。我没有看到 cohort、净收入留存或毛利趋势,所以对“这是长期赛道”必须保留怀疑。 最后一个更根本的反对意见是:也许这个赛道根本不会长出 Adobe。 原因不在需求不大,而在上游模型厂 + 内容平台的组合太强。Adobe 当年的优势建立在文件格式、专业工作流、生态标准和组织采购路径上;而 AI 视频今天最核心的生产要素——模型能力与分发入口——很多并不掌握在创业公司手里。 所以更冷酷的结论可能是:这个行业确实能诞生一批收入不错的公司,但未必能诞生很多真正独立定价的公司。 短期看,这是少数还能挣钱的 AI 应用赛道。 长期看,能活下来的不会是“最好用的视频生成器”,而是“最先拿到工作流、distribution 和结果闭环”的那一层。