01 触发事件

2025 年,澜起科技在互动平台披露:PCIe Retimer 芯片当前出货以 Gen5 为主;2025 年 1 月已推出 PCIe 6.x/CXL 3.x Retimer 并向客户送样;同月发布 PCIe 6.x/CXL 3.x AEC 方案;同时正在推进 PCIe 7.0 Retimer 和 PCIe Switch 芯片研发。

这条消息表面上很窄。

它既不是大模型发布,也不是 cloud capex 数字,更不是某家 hyperscaler 一次性下单几十万张 GPU 的 headline。

但如果把视角拉到 AI inference cluster 和 training fabric,这其实是在说另一件事:中国本土高速互连供应链,正在补 AI 集群里最容易被忽视、但会越来越贵的那一层。

这里至少有三个事实点不能忽略。

第一,Gen5 已经出货,说明这不是 PPT 产品,而是已经进入客户系统设计。

第二,Gen6/CXL 3.x 已经送样并进入验证,意味着客户需求不是停留在“未来规划”,而是已经开始为下一代服务器与 accelerator 平台预留 signal integrity 和 memory fabric 设计。

第三,PCIe 7.0 Retimer 和 PCIe Switch 同时推进,显示公司想吃的不是单一器件生意,而是从链路修复到链路编排的更高价值层。

我没在内部跑过它的 SI 验证流程,也没看到任何量产客户名单,所以不能把这件事夸大成“国产 AI 互连已完成替代”。但作为供给侧信号,这已经足够明确。

原文关键信息不是“澜起又做了一个新芯片”。

而是“AI 集群互连的非 GPU 环节,开始进入代际前置投资”。

02 这事的真正含义

真正的含义,不在 PCIe 7.0 四个字本身。

问题不在带宽 headline,而在AI 集群的瓶颈正在从 FLOPS 扩散到 link budget、latency consistency、topology flexibility 和 failure domain 管理。

过去两年,行业讨论 AI infra,几乎都被 GPU、HBM、NVLink、IB 这些关键词占据。那当然合理,因为算力最贵、最稀缺、最有叙事张力。

但 builder 真正开始大规模用上多节点训练、MoE serving、长上下文推理、KV cache 分层后,会发现另一个事实:系统性能不是由最强芯片决定,而是由最脆弱链路决定。

Retimer 是典型例子。

它不创造算力,不提升 benchmark,不会出现在模型发布会 PPT 首页。但在高带宽、高速率、长 trace、复杂 backplane 与 cable 场景里,没有它,很多设计根本过不了稳定性和误码率要求。到了 Gen6、Gen7,这件事只会更严重,因为 PAM4 带来的信号完整性挑战远高于早期 NRZ 时代。

所以,Retimer 的商业意义不是“配件”。

它更接近 AWS 早期那类不起眼却高度必要的基础设施零件:一旦成为标准 BOM 的必选项,就会跟随上层 capex 一起放大。

更关键的是 CXL 3.x。

CXL 不是今天最热的词,但它代表一个方向:memory 不再只是附属资源,而开始成为可编排资源。 对 AI infra 来说,这影响的不只是训练,也影响 inference economics。长 context、超大 KV cache、multi-tenant serving、host-device memory pooling,这些都在把 memory hierarchy 从“机器内部优化”推向“系统级调度问题”。

这时,谁能提供稳定的 PCIe/CXL 组件,谁就有机会从 GPU 周边吃到持续性收入。

我可能高估了 CXL 短期落地速度。过去几年,行业里很多人把 CXL 讲得太快,真正的大规模部署比预期慢得多。但慢不等于不发生。对供给链公司来说,只要 server platform 提前设计进去,验证周期就已经开始计时。

再看 PCIe Switch。

这才是最值得注意的部分。

Retimer 解决的是“信号能不能过去”,Switch 碰的是“资源怎么连、怎么分、怎么调”。后者离系统架构更近,也离 platform control point 更近。换句话说,Retimer 更像 volume business,Switch 更像 strategic position。

如果一家公司从 Retimer 往 Switch 走,它不是在扩 SKU,而是在试图往集群网络与资源编排层上爬一层。

这才是这条新闻真正会被定价的地方。

03 历史类比 / 结构对照

这件事更像 2014 年前后的 AWS,不像 2022 年的 ChatGPT。

ChatGPT 时刻的特征是需求爆发,所有人都看得见应用层变化。AWS 那类拐点则相反:赢家先出现在那些看起来“不是主角”的底层抽象层里。

当年很多人把云计算理解成“租服务器”。真正值钱的并不是那台服务器,而是围绕它的一整套 control plane、networking、storage abstraction 和 developer interface。GPU 也是一样。今天市场把价值锚定在 accelerator 本身,但随着 AI 集群复杂度上升,价值会向“连接、调度、容错、复用”扩散。

另一个类比是智能手机时代的基带、RF 前端和供应链附加值迁移。

iPhone 定义了终端,真正赚到结构性利润的却不止终端厂商。凡是进入刚性 BOM、通过认证壁垒、切换成本高、并能随代际升级一起涨 ASP 的环节,最终都能形成 moat。Retimer 和 Switch 未必有那么强的定价权,但它们具备同样的结构特征:技术门槛高、验证周期长、进入系统设计后 switching cost 不低。

我可能错在一点:AI 集群里的真正主导标准,未必最终由 PCIe/CXL 阵营拿走。NVLink、proprietary fabric、以太网 scale-out 方案,甚至未来新的 memory fabric,都可能分流掉一部分价值。

但即便如此,PCIe 仍是通用服务器与异构加速系统的基础总线。只要行业还在追求更便宜、更开放、更多 vendor 的集群构建方式,PCIe/CXL 这条线就不会消失,反而会因为“不是最优但最普适”而持续存在。

这正是 aggregation theory 在 infra 层的一个变体:上层平台越集中,下层通用接口的 volume 往往越大。不是所有公司都能买到最封闭、最垂直整合的 full-stack 系统。大量二线云、企业客户、行业集成商,最后都会落到通用互连生态里。

04 对 AI builder 意味着什么

如果你是 AI builder,这不是让你现在去买澜起股票,也不是让你重新学习 PCIe 协议。

更现实的意义在于,你该重新理解未来 12 个月 AI infra 成本曲线的构成。

第一,别再把推理成本只理解成 model API 单价。

真正影响你毛利的,越来越是整套 serving stack:GPU 利用率、batchability、KV cache 命中率、跨节点通信、host memory spill、network oversubscription。底层互连器件的成熟度,最终会通过供应可得性和系统稳定性传导到 API 成本。

如果通用 PCIe/CXL 组件供给改善,二三线集群组装能力就会上来,model hosting 的供给侧会更分散。这会压低一部分推理租金。

第二,关注“标准化集群”而不是只盯“旗舰 GPU”。

很多创业团队默认下一代能力提升只能等更强 GPU。未必。大量应用的实际收益可能来自更好的 cluster design:更大的共享 memory 空间、更稳定的多卡拓扑、更低 jitter 的推理环境。这些改善不会像新模型那样上新闻,但会直接影响 tokens per dollar。

第三,model routing 平台和 API 网关会受益于下游供给多样化。

这点我有明显的利益相关,需要先摆出来。像 OPCX 这种 model access 网关,真正的机会不只来自模型变多,也来自承载模型的 infra 供给变多。只要训练后部署市场不是被极少数 closed provider 完全锁死,routing、fallback、price-performance arbitration 就仍然有空间。

第四,如果你在做私有化部署、行业 agent、RAG 或长上下文应用,要更早评估 memory-heavy workload。

CXL 相关生态今天还没完全成熟,我也没看到大规模商用的硬数据能证明它马上改写 economics。但方向已经很清楚:未来最贵的未必是 compute,可能是“让 memory 跟 compute 更高效协同”的系统能力。

所以这个月该调整的决策,不是换模型,而是把 infra 观察指标往下挖一层:

  • 供应商是否支持更灵活的 PCIe 拓扑
  • 多卡推理的延迟抖动如何
  • KV cache 外溢到 host memory 后性能掉多少
  • 私有集群扩容时,互连是否成为先到瓶颈
  • 你依赖的云服务商,是否在推更开放的 accelerator 服务器架构

这才是 builder 能用上的判断。

05 反方观点 / 风险

最强的反方观点是:这可能只是一条普通的国产芯片 roadmap 更新,被市场过度解读成 AI infra 信号。

这个反对意见并不弱。

首先,送样不等于量产,更不等于进入 hyperscaler 的大规模 AI 集群。高速互连芯片的验证周期很长,真正卡人的往往不是芯片 spec,而是系统兼容性、稳定性、散热、线缆生态和客户认证流程。我没看到澜起披露任何明确 design win,因此现在谈份额还太早。

其次,PCIe 7.0 的研发推进,也可能只是“不能缺席下一代标准”的防御动作,而不是有明确需求牵引。很多半导体公司都会提前布局 roadmap,这不自动意味着商业拐点已到。

第三,AI 集群最肥的利润池未必留在通用 PCIe 生态。NVIDIA 这种 full-stack 体系的强势之处,就在于它能把关键性能层层封装,把利润从芯片一路吃到互连、软件、管理面。如果 closed stack 持续占优,Retimer/Switch 这类通用器件公司能分到的只是边角料,而不是中心利润。

第四,中国本土供应链还有地缘和生态双重变量。即便国内客户愿意导入,本土器件能否进入更广泛的全球 server 平台,仍然取决于更复杂的认证与市场环境。这部分我可能低估了现实摩擦。

所以我的判断不是“澜起会成为 AI 基建核心赢家”。

我的判断更窄,也更重要:当一家以高速互连为核心的公司,开始同时推进 Gen6/CXL3 到 PCIe 7.0 Retimer 与 Switch,这说明 AI 基建竞争正在从算力主芯片,外溢到系统互连控制层。

一旦这个判断成立,接下来几年真正值得追踪的就不只是 OpenAI、Anthropic、Google 发什么模型。

还要看,谁在悄悄定义这些模型跑起来时,底下那张看不见的机器网络。