2017年Google发表《Attention is all you need》,8页纸,如今引用量超12万次——这篇论文定义了今天所有大模型的技术底座,从GPT到文心一言,底层都是它。

这是什么

Transformer要解决的核心问题是:之前的RNN(循环神经网络,一种按顺序逐词处理文本的AI架构)太慢了。

RNN处理"我爱苹果手机",必须先处理"我",再处理"爱",再处理"苹果"——后一步依赖前一步。两个致命缺陷:无法并行训练,算力利用率低;长句子的前面信息传到后面就衰减了,记不住上下文。

Transformer的做法是让每个词同时和所有词计算关联度,这个机制叫Self-Attention(自注意力,让模型自动判断句子中哪些词相互关联的机制)。"苹果"和"手机"的关联度、"我"和"爱"的关联度,同一层内并行算完。

具体流程:输入文本切成Token(词元,文本最小处理单位),转成512维向量,加上位置信息(并行计算丢掉了语序),然后通过QKV机制——Q是"我要查什么",K是"我有什么信息",V是"我的真实含义"——每个词拿自己的Q和所有词的K匹配,得到权重,乘以V,完成"谁和谁相关"的计算。论文还引入多头注意力(把512维拆成8个64维子空间分别计算再拼回)和残差连接(保留原始输入,防止深层网络越算越偏),让模型既看得细又训练得稳。

行业怎么看

Transformer的胜利是工程效率的胜利,不是理论优雅的胜利。并行计算让它能吃下海量数据和算力,这是过去7年scaling law(规模定律,模型越大能力越强的经验规律)成立的前提。

但质疑声一直存在。最核心的批评:Self-Attention的计算复杂度随序列长度呈平方增长——处理1万个Token的计算量是1千个的100倍。这解释了为什么大模型上下文窗口从4K扩到128K如此艰难,每翻一倍都是真金白银的算力。

去年以来,Mamba、RWKV等新架构试图用线性复杂度替代注意力机制,学术界称其为"后Transformer路线"。目前看,这些方案在小规模实验中有优势,但尚未在千亿参数级别验证。我们注意到,主流大模型公司仍在Transformer上做增量优化——Flash Attention、稀疏注意力——而非换架构。切换成本极高,Transformer的工程生态积累远比理论缺陷更重要。

对普通人的影响

对企业IT:理解Transformer的算力特性,才能判断私有化部署大模型的硬件成本——上下文窗口越大,推理成本不是线性增长而是平方级增长,这是做成本预算时最容易低估的。

对个人职场:Transformer的"注意力"和人的注意力无关,它是一种数学运算。了解这个概念,至少不会在产品讨论中被术语唬住,也不会把"注意力机制"误当成"AI有意识"的证据。

对消费市场:Transformer的上下文长度限制,直接决定了你用的AI助手能"记住"多少对话历史。目前各家标称的200K上下文,实际有效利用远低于标称值——这是判断产品宣传水分的一个硬指标。