注意力机制

找到 2 篇关于此标签的文章

Transformer注意力机制

读懂 Transformer 注意力机制——大模型能长记性全靠这套 2017 年的老引擎

注意力机制是大模型底层的关键原理，通过给重要信息分配高权重解决了AI健忘问题。搞懂它不是为了写代码，而是看懂大模型长文本的能力边界和背后的算力账单。

Seq2Seq 架构十年演进 — 理解它才算真正看懂大模型的技术起点

2014 年 Google 提出的 Seq2Seq 架构，是 GPT、BERT 等大模型共同的技术底座。理解它的编码器-解码器分工与信息瓶颈，才能判断 AI 能力边界。