2017 年 Google 提出的 Transformer 架构,至今仍统治着从 GPT 到 DeepSeek 的所有主流大模型——底层基础创新的停滞,正把竞争推向应用层。
这是什么
Transformer 是一种处理文本的底层架构。在它之前,AI 读长文靠 RNN(一种逐字阅读的老算法),读得慢且读到后面就忘了前面。Transformer 抛弃了逐字顺序,改用“自注意力机制”(让 AI 同时计算所有词与词之间的关联度),实现了并行计算。它通常由编码器(负责理解)和解码器(负责生成)组成:BERT 只用编码器做阅读理解,GPT 只用解码器做文本生成。因为位置信息对文本至关重要(“我打你”和“你打我”不同),但自注意力机制本身没有顺序概念,所以 Transformer 必须额外添加“位置编码”来告诉 AI 词的先后顺序。
行业怎么看
我们注意到,尽管 Transformer 成了行业标准,但它的瓶颈已不容忽视。其核心的注意力机制计算量会随文本长度呈平方级暴增,这解释了为什么大模型处理超长上下文时算力成本极高。学界对此已有反思:Meta 首席 AI 科学家 Yann LeCun 等人多次指出,Transformer 并非通向智能的终局,它本质上仍是在做大规模模式匹配;更有研究团队在探索 Mamba(一种新的状态空间架构)等替代方案,试图绕开 Transformer 长文本算力昂贵的根本缺陷。我们判断,底层架构的红利期已近尾声,下一次洗牌必然来自架构层面的突破。
对普通人的影响
对企业 IT:理解 Transformer 的算力痛点,就能明白企业部署私有化大模型时,长文档处理成本为何居高不下,选型时不应盲目追求超长上下文。
对个人职场:知道“自注意力”的存在,就能理解为什么给 AI 写提示词时关键信息要集中,因为 AI 是在同时看所有词的关系,而非像人一样逐字推敲。
对消费市场:底层架构的统一意味着模型能力趋于同质化,消费者最终将为产品体验和数据壁垒买单,而非模型本身。