Involution Hell
AI 知识库Llm basics

Transformer

核心论文与代码

关键概念

  • Self-Attention 的 QKV 计算
  • Scaled Dot-Product 的作用
  • Multi-Head Attention 的原理
  • 分词与 Tokenizer
  • 词嵌入(Word Embedding)
  • 位置编码(Positional Encoding)
  • 注意力机制(Attention Mechanism)
  • 前馈网络(Feed Forward Network)
  • 掩码(Masking)
  • 层归一化(Normalization)
  • 解码技术(Decoding Techniques)

深入学习

  • Transformer 论文逐段精读 【论文精读】

注意力机制学习资源


贡献者