AI 知识库Llm basics
入门课程
CS224N 斯坦福《深度学习自然语言处理》
从 NLP 基础讲起,有 miniGPT
- 官网:CS224N Stanford
- 视频:(2025 中英)斯坦福 CS224N《深度学习自然语言处理》
- 课件与作业地址:Quark 网盘
CMU Advanced NLP
- 课程主页:CMU Advanced NLP Spring 2025
- 代码地址:Github Repo
- 作业:
NanoGPT —— 从零实现 GPT
- 代码:NanoGPT GitHub
- 学习资料:【LLM 训练系列】NanoGPT 源码详解和中文 GPT 训练实践
斯坦福大学 CS336 《从头开始创造语言模型》 (Spring 2025)
- 课程视频:YouTube 播放列表
- 课程主页:CS336 官方站点
- 代码仓库:GitHub Repo
- 视频翻译:Bilibili
- 翻译合集:知乎专栏
- 私有作业仓库:TODO
作业说明
- 作业 1:实现 BPE 分词器、Transformer 架构、Adam 优化器,并在 TinyStories 和 OpenWebText 上训练模型(仅允许用 PyTorch 原语)。
- 作业 2:在 Triton 中实现 Flash Attention 2、分布式数据并行 + 优化器分片。
- 作业 3:Scaling Law。使用 IsoFLOP 拟合 Scaling Law,模拟有限计算预算的实验过程。
- 作业 4:数据处理。将 Common Crawl HTML 转为文本,过滤(质量、有害内容、PII),去重。
- 作业 5:对齐。实现监督微调、专家迭代、GRPO 与变体,在 Qwen 2.5 Math 1.5B 上运行 RL 提升 MATH 指标。
前置课程
- 数学:MATH 51、CME 100
- 概率:CS 109
学习笔记
- CS336 学习笔记:TODO
Happy-LLM —— 从零构建 215M 大模型
- 代码仓库:Happy-LLM GitHub