Involution Hell

AI 知识库Llm basics

大模型基础

大模型基础涵盖从深度学习理论到实际开发的完整知识体系，为理解和开发大模型提供坚实基础。

核心学习模块

深度学习基础

前往: 深度学习基础
李沐动手学深度学习
NLP 基础课程
机器学习经典教材
理论与实践结合

PyTorch 框架

前往: PyTorch框架
小土堆入门教程
张量操作进阶
面试要点总结
项目实战指导

CUDA 编程

前往: CUDA编程
CUDA Mode 系统课程
GPU 并行计算原理
性能优化技巧
FlashAttention 实现

Transformer 架构

前往: Transformer架构
Attention 机制详解
多头注意力原理
位置编码设计
架构可视化学习

Embedding 模型

前往: Embedding模型
Qwen3-embedding 深度解读
SLERP 权重合并算法
向量化表示技术
相似度计算方法

入门课程

前往: 入门课程
CS224N 斯坦福 NLP 课程
CMU Advanced NLP
NanoGPT 实现项目
CS336 语言模型课程
Happy-LLM 实践项目

学习路径规划

初学者路线

数学基础：线性代数、概率论、微积分
深度学习：神经网络、反向传播、优化算法
框架掌握：PyTorch 基础操作和模型构建
架构理解：Transformer 和注意力机制

进阶开发

CUDA 编程：GPU 并行计算和性能优化
模型实现：从零实现 Transformer 架构
训练优化：大规模模型训练技术
部署应用：模型推理和服务化

研究导向

理论深入：数学原理和算法创新
前沿跟踪：最新论文和技术趋势
实验设计：科学的实验方法论
代码复现：顶会论文复现能力

重要概念速览

Transformer 核心

Self-Attention：自注意力机制
Multi-Head：多头并行表示学习
Position Encoding：位置信息编码
Feed Forward：前馈神经网络

PyTorch 要点

张量操作：多维数组的高效计算
自动梯度：动态图与反向传播
模块化设计：nn.Module 构建复杂模型
GPU 加速：CUDA 支持与内存管理

CUDA 优化

并行计算：利用 GPU 大规模并行能力
内存管理：全局/共享内存优化
算子融合：减少内存访问与计算开销
性能分析：Profile 工具定位瓶颈

实践项目建议

入门项目

手写数字识别 (MNIST)
文本分类器实现
简单的 seq2seq 模型
基础注意力机制

进阶项目

miniGPT 从零实现
Transformer 机器翻译
BERT 模型微调
大模型推理优化

高级项目

分布式训练系统
自定义 CUDA 算子
模型压缩与量化
端到端大模型应用

学习资源推荐

在线课程

李沐《动手学深度学习》
斯坦福 CS224N
CMU Advanced NLP
Fast.ai 实用深度学习

经典教材

《深度学习（花书）》
《动手学深度学习》
《机器学习（西瓜书）》
《统计学习方法》

实践平台

Google Colab
Kaggle 竞赛
GitHub 开源项目
Hugging Face 模型库

学习建议

循序渐进：从基础概念到复杂架构
理论实践并重：学一个概念就动手实现
项目驱动：用完整项目联结知识
社区参与：加入开源与技术讨论
持续更新：跟踪最新研究与技术

💡 核心理念：基础不只是“知识点”，更是解决复杂问题的能力。结合理论与实战，循序渐进建立完整体系。

贡献者

Mira190

Introduction of Multi-agents system(In any task you want)

大模型入门课程

深度学习与大模型相关的课程资料汇总。