01 触发事件
这条新闻的核心信息很简单:2025 年下半年,AI 带动的半导体需求正在从存储扩散到更多细分环节,且存储芯片供需关系可能要到 2027 年才出现改善迹象,功率和模拟芯片供应还会持续紧张。
原文给出的几个关键信号都很具体:一是“存储芯片的供需关系,要到 2027 年才会有改善迹象”;二是“下半年功率、模拟芯片的供应会持续紧张”;三是 AI 带来的拉动,已经不只是 GPU 或 HBM,而是开始传导到“超高密度高速互联、玻璃基板封装、碳化硅和金刚石散热”等材料与封装技术。
这不是单一品类的景气。
这是 AI 资本开支把半导体产业链一层层往外推。
原文 callout:
存储芯片的供需关系,要到2027年才会有改善迹象;AI带动的需求正在扩散,下半年功率、模拟芯片的供应会持续紧张
如果只把这条新闻理解成“半导体板块又有题材”,那就读浅了。
问题不在 GPU 贵不贵,而在AI 系统开始消耗整条电子工业体系的冗余产能。
我没在这些芯片公司的内部拿到排产表,所以不能把“持续紧张”直接等同于全面缺货;但从供给链语言看,这已经不是零部件层面的局部噪音,而是 capacity 被重新排序的信号。
02 这事的真正含义
这事真正重要的地方,不是“AI 让更多芯片公司受益”。
真正的含义是:AI 基础设施正在从 compute problem,升级成 system-level supply problem。
过去两年,市场默认的瓶颈是 GPU,稍微懂一点的人会再加上 HBM、CoWoS、网络交换芯片。现在这条链条继续往外延伸,开始碰到功率器件、模拟芯片、先进封装材料、散热材料。也就是说,模型能力的提升,不再只取决于 FLOPS 和参数规模,还取决于电、热、互联、封装、可靠性。
这才是 AI 飞轮在说的事。
当模型厂、cloud provider、推理平台都在争夺更高 token throughput 时,那个真正会被定价的,不只是 GPU hour,而是每一层 supporting infrastructure 的交付能力。如果功率和模拟器件紧张,那影响的不是“能不能训练更大的模型”这么单一,而是机柜上线速度、服务器良率、PUE、维护周期、边缘部署节奏,最后会回到 inference cost curve。
很多 API 消费者容易忽略一点:你看到的是每百万 token 的报价,背后其实是极长的一条 BOM。只要其中几项关键器件供应偏紧,模型厂就会更倾向于把最好的 capacity 留给高毛利场景,比如旗舰模型、企业长约、批量推理、内部产品整合,而不是无限制地继续打价格战。
换句话说,token 价格下行不是线性的。
我可能误判的一点是,新闻里把多个环节放在同一叙事里,实际紧张程度未必同步;有些品类可能只是结构性偏紧,不一定会传导成显著价格上涨。但从战略角度看,builder 不该等财报确认才调整预期,因为那时 routing 和采购窗口往往已经关了。
03 历史类比 / 结构对照
这更像 2014 年前后的 AWS,不像 2022 年的 ChatGPT。
2022 年的拐点在需求侧:突然所有人都想调用大模型。
2014 年 AWS 的拐点在供给侧:开发者意识到,真正重要的不是某一台服务器,而是底层基础设施已经形成规模化、标准化、可复用的供给体系,进而重构上层软件的成本结构。
今天的 AI 半导体更接近一个反向版 AWS 时刻:不是供给被抽象得更平滑,而是供给链的复杂性重新暴露出来。
过去传统半导体周期,常见路径是手机、PC、工业控制、汽车电子轮动,需求有波峰波谷,供给也会在一两个季度后回补。AI 不同的地方在于,它把多个环节同时拉向高规格:更高带宽、更高热设计、更高供电密度、更高封装要求。于是原本并不在同一周期里的部件,被 AI 工作负载重新绑成一个系统。
这有点像 iPhone 在 2007 年之后对手机供应链的改造:真正赚钱的不是“手机”这个词,而是那些卡在关键约束位的组件与工艺。
今天卡位的东西,可能不是最终模型,而是 HBM、先进封装、互联、功率管理、散热材料。
原文 callout:
超高密度高速互联、玻璃基板封装、碳化硅和金刚石散热等技术加速突破,成为半导体板块的另一条投资主线
结构上看,这意味着 AI infra 的 moat 正在下沉。
以前 moat 主要体现在模型、数据、distribution。
现在还得加上一层:谁能稳定拿到并整合这些稀缺器件,谁就更有资格定义 token 成本。
我没法仅凭这条新闻断言会出现长期性短缺,历史上半导体行业也经常在高景气阶段过度外推;但至少到 2025-2026 这段时间,系统级瓶颈大概率比市场想象得更黏。
04 对 AI builder 意味着什么
对 AI builder 来说,这不是股票新闻。
这是采购、架构和定价新闻。
第一,不要把 API 降价当成必然路径写进中长期财务模型。
如果你在做 agent、code generation、长上下文工作流,最好把未来 12 个月的 token 成本假设拆成三档:乐观、基准、受限。尤其是依赖高端模型的大上下文场景,capacity 一旦紧张,价格未必涨,但 rate limit、可用性分层、企业优先级会先出现。
第二,routing 要比单模型绑定更激进。
如果供给链波动传到模型层,单一厂商依赖的风险会上升。对于 API 消费者,至少应该准备多家 provider 的 fallback 路线,包括闭源主模型 + 开源托管模型 + batch 异步任务的组合。我没在所有线上业务里验证过,但从成本韧性看,这几乎已经不是优化项,而是生存项。
第三,重新评估本地化与边缘推理的阈值。
当云侧高端 capacity 变得更贵或更不稳定,一部分 workload 会重新回流到可控硬件上,尤其是中等质量、固定流程、高重复请求的任务。不是所有公司都适合自建,但至少该把“托管开源模型 + prompt caching + KV cache 复用”作为标准备选项,而不是理论选项。
第四,关注非 GPU 瓶颈对交付周期的影响。
如果你卖的是 AI 功能给企业客户,承诺 SLA 时不要只问 model vendor 的路线图,还要问底层 infra partner 的上新节奏。很多产品团队会盯 benchmark,却忽略机房上架、功耗、散热和网络的现实约束。最后拖慢 rollout 的,可能根本不是模型质量,而是硬件系统的落地速度。
第五,对创业公司而言,distribution 的价值会上升。
当供给不稳定时,能拿到优先容量的,往往不是技术最优者,而是付款能力强、需求稳定、能带来长期合同的人。换句话说,客户结构本身会变成你的 capacity 谈判筹码。
05 反方观点 / 风险
我前面的判断,最可能错在三点。
第一,这可能只是产业媒体对“AI 扩散效应”的放大叙事。
新闻来源是业内人士表述,不是厂商财报或明确的出货数据。没有看到具体公司、具体价格、具体 wafer start、具体 lead time,就不能把它上升为行业共识。我可能把一个偏交易性的观察,读成了结构性拐点。
第二,供给链会自我修复,而且速度可能比 2021 年那轮快。
功率、模拟、封装材料这些环节虽然重要,但并不像 EUV 那样极端集中。一旦需求信号明确,二线和三线厂商可能迅速扩产、替代、认证,最后让“紧张”只持续两个季度,而不是两年。如果这样,builder 现在过度保守,反而会错失更便宜的 capacity。
第三,模型效率提升可能抵消硬件紧张。
如果 MoE、量化、speculative decoding、KV cache 优化、更好的 model routing 显著压低单位 token 的算力与能耗需求,那么供给端的压力未必会线性传导到 API 成本。也就是说,芯片更紧,不一定等于调用更贵。尤其是如果 Google、OpenAI、Anthropic 继续通过自研芯片和软件栈优化吸收成本,外部开发者感知到的可能只是价格战放缓,而不是价格反弹。
但即便如此,我还是会保留一个偏谨慎的主判断:AI 的下一段竞争,已经不是单纯的模型竞赛,而是整条 supply chain 的 orchestration 竞赛。
这才是这条新闻值得看的地方。
不是“半导体景气回来了”。
而是 AI 正在把曾经分散的电子元件市场,重新组织成一个围绕 token 经济学运转的工业系统。