2017 年谷歌发表论文彻底抛弃传统顺序计算,只用注意力(Attention,一种让模型对输入信息分配不同权重的计算方法)处理文本——这一架构选择直接决定了今天大模型能否处理长文本的商业价值。
这是什么
过去 AI 用 RNN(循环神经网络,按顺序逐字处理容易遗忘的老架构)读文本,像走独木桥,走到结尾就忘了开头。注意力机制则让模型学会“抓重点”:计算当前词与上下文所有词的关联度,按权重汇总信息。它的核心是 QKV 机制(查询、键、值,类似搜索时的关键词、标签和实际内容),让 AI 需要什么信息就直接跨步提取,不再受制于物理距离。当前所有主流大模型都基于这套 Transformer 架构,它让 AI 从“金鱼记忆”进化到了能整本消化长文档。
行业怎么看
我们注意到,业界对注意力机制的态度存在明显分歧。正方认为它是现代 AI 的基石,解决了长距离依赖问题,释放了庞大的应用潜力;但值得我们关心的是,它的计算成本随文本长度呈平方级增长——每增加一个词,模型都要两两计算它与之前所有词的关联。文本长度翻倍,算力消耗就是四倍。这种暴力计算正是目前大模型推理成本居高不下、上下文窗口难以随意扩大的根本瓶颈,纯堆算力并非长久之计。
对普通人的影响
对企业 IT:评估大模型长文本能力时需清醒,上下文窗口越大意味着算力账单越陡峭,不能盲目追求超长文本。对个人职场:理解 AI 靠关键词匹配检索信息的逻辑后,写提示词应多用结构化、特征明确的表述,帮模型降低检索难度。对消费市场:硬件算力将长期成为 AI 体验的门槛,在端侧设备上流畅运行长文本处理仍需高端芯片支撑。