Involution Hell

AI 知识库Llm basics

Transformer

核心论文与代码

关键概念

Self-Attention 的 QKV 计算
Scaled Dot-Product 的作用
Multi-Head Attention 的原理
分词与 Tokenizer
词嵌入（Word Embedding）
位置编码（Positional Encoding）
注意力机制（Attention Mechanism）
前馈网络（Feed Forward Network）
掩码（Masking）
层归一化（Normalization）
解码技术（Decoding Techniques）

深入学习

Transformer 论文逐段精读【论文精读】

注意力机制学习资源

【高清中英字幕】2025 年吴恩达详细讲解 Transformer 工作原理
- 原课程链接（DeepLearning.AI Short Courses）
彻底弄清注意力机制

贡献者

Mira190

PyTorch

PyTorch深度学习框架：入门教程、张量操作、面试要点

AI by Hand：手搓 AI 模型

AI by Hand 项目资源与介绍

On this page

核心论文与代码关键概念深入学习注意力机制学习资源