Transformer注意力机制
读懂 Transformer 注意力机制——大模型能长记性全靠这套 2017 年的老引擎
注意力机制是大模型底层的关键原理,通过给重要信息分配高权重解决了AI健忘问题。搞懂它不是为了写代码,而是看懂大模型长文本的能力边界和背后的算力账单。
May 3·1 分钟
GoogleSeq2Seq
Seq2Seq 架构十年演进 — 理解它才算真正看懂大模型的技术起点
2014 年 Google 提出的 Seq2Seq 架构,是 GPT、BERT 等大模型共同的技术底座。理解它的编码器-解码器分工与信息瓶颈,才能判断 AI 能力边界。
May 1·1 分钟