Involution Hell
AI 知识库Llm basics

大模型入门课程

入门课程

CS224N 斯坦福《深度学习自然语言处理》

从 NLP 基础讲起,有 miniGPT

  • 官网:CS224N Stanford
  • 视频:(2025 中英)斯坦福 CS224N《深度学习自然语言处理》
  • 课件与作业地址:Quark 网盘

CMU Advanced NLP


NanoGPT —— 从零实现 GPT

  • 代码:NanoGPT GitHub
  • 学习资料:【LLM 训练系列】NanoGPT 源码详解和中文 GPT 训练实践

斯坦福大学 CS336 《从头开始创造语言模型》 (Spring 2025)

作业说明

  1. 作业 1:实现 BPE 分词器、Transformer 架构、Adam 优化器,并在 TinyStories 和 OpenWebText 上训练模型(仅允许用 PyTorch 原语)。
  2. 作业 2:在 Triton 中实现 Flash Attention 2、分布式数据并行 + 优化器分片。
  3. 作业 3:Scaling Law。使用 IsoFLOP 拟合 Scaling Law,模拟有限计算预算的实验过程。
  4. 作业 4:数据处理。将 Common Crawl HTML 转为文本,过滤(质量、有害内容、PII),去重。
  5. 作业 5:对齐。实现监督微调、专家迭代、GRPO 与变体,在 Qwen 2.5 Math 1.5B 上运行 RL 提升 MATH 指标。

前置课程

  • 数学:MATH 51、CME 100
  • 概率:CS 109

学习笔记

  • CS336 学习笔记:TODO

Happy-LLM —— 从零构建 215M 大模型


贡献者