返回首页

Transformer

找到 9 篇关于此标签的文章

Transformer自注意力机制

自注意力机制让AI看懂上下文 — 但理解它的企业仍然不多

自注意力机制是当前主流AI模型的核心,让AI能同时考虑一段话里所有词的关系。理解它,是判断AI应用成本与效果的关键起点,值得每位关注AI的决策者花十分钟搞懂。

6d ago1 分钟
Transformer深度学习

一本 Transformer 教材被开发者读 3 遍 — 大模型竞争已从调接口转向拼底层理解

一本深度学习书籍因讲透底层逻辑被连读3遍。当多数人只会调用大模型API时,理解注意力机制等底层原理,正成为决定AI应用落地效果与上限的关键分水岭。

6d ago1 分钟
minGPTAndrej Karpathy

有人用《西游记》训练出百万参数GPT — 理解大模型黑盒正成为新刚需

有开发者用《西游记》做语料,在个人GPU上训练出百万参数的小型中文GPT。这不仅是极客玩法,更反映出产业界对打破大模型黑盒、掌握底层原理的迫切需求。

May 51 分钟
GoogleTransformer

Google 提出的 Transformer 统治 AI 七年 — 大模型底层架构正等待下一次洗牌

Transformer 是当今所有主流大模型的底层架构,它用自注意力机制解决了老算法无法并行和读长文的问题。理解它,才能看懂大模型的能力边界与未来瓶颈。

May 41 分钟
Transformer注意力机制

读懂 Transformer 注意力机制——大模型能长记性全靠这套 2017 年的老引擎

注意力机制是大模型底层的关键原理,通过给重要信息分配高权重解决了AI健忘问题。搞懂它不是为了写代码,而是看懂大模型长文本的能力边界和背后的算力账单。

May 31 分钟
QuadtrixTransformer

纯C++无依赖手搓Transformer成功,揭开大模型黑盒但难改算力格局

有开发者仅用C++17标准库,无任何依赖手写了一个0.83M参数的GPT模型并训练成功。这证明了大模型并非不可拆解的魔法,但手写代码与工业级框架75倍的效率差距也说明,底层创新仍需算力基建支撑。

May 21 分钟
TransformerAttention is all you need

Transformer 论文七年引用超 12 万 — 看懂它才能理解大模型竞赛

2017年Google那篇8页纸定义了今天所有大模型的技术底座。它用注意力机制取代串行计算的RNN,让AI能并行处理语言、捕捉全局关系。理解这个架构,才能判断大模型公司的技术路线谁在走捷径谁在硬扛。

May 21 分钟
GoogleSeq2Seq

Seq2Seq 架构十年演进 — 理解它才算真正看懂大模型的技术起点

2014 年 Google 提出的 Seq2Seq 架构,是 GPT、BERT 等大模型共同的技术底座。理解它的编码器-解码器分工与信息瓶颈,才能判断 AI 能力边界。

May 11 分钟
TransformerMechanistic Interpretability

程序员把计算器编译进 AI 权重 — 理解 Transformer 又多了一条实验路径

一位开发者花数月将 RPN 解释器“编译”进 Transformer 权重,模型 1.1GB 只能算加减乘除。实验价值不在实用,在于绕过训练、直接理解 AI 内部机制的新视角。

Apr 301 分钟