Involution Hell

AI 知识库Ai math basics

AI 数学基础

AI和大模型需要扎实的数学基础。本节涵盖了深度学习和大模型开发所需的核心数学概念。

核心数学领域

1. 线性代数 (Linear Algebra)

核心概念: 向量、矩阵、张量、特征值/特征向量、SVD（奇异值分解）、PCA（主成分分析）

大模型应用:

Embedding (嵌入): 词向量、Token嵌入本质上就是高维向量
Attention Mechanism (注意力机制): QKV矩阵乘法、Self-Attention的核心计算（点积）
Transformer架构: 各种层（Linear Layer）、残差连接、Feed-Forward Network都涉及矩阵运算
模型参数: 整个模型的参数量可以用矩阵、张量来表示
降维与可视化: 对Embedding空间进行降维（t-SNE, UMAP, PCA）以进行分析

参考资料:

沉浸式线性代数
3Blue1Brown线性代数的本质 - 可视化极佳，能帮助建立直观理解
《线性代数的几何意义》(任广千, 谢聪, 胡翠芳)

2. 概率论与数理统计 (Probability & Statistics)

核心概念: 随机变量、概率分布（高斯、伯努利、多项式）、期望、方差、协方差、条件概率、贝叶斯定理、最大似然估计（MLE）、最大后验估计（MAP）

大模型应用:

语言建模: P(下一个词 | 上下文) 就是条件概率
损失函数: 交叉熵损失来源于信息论和概率分布的差异度量
采样与生成: Top-k, Top-p (nucleus) sampling都基于概率分布
不确定性量化: 对模型预测结果的置信度评估
强化学习: 基于概率策略的优化

3. 微积分与优化 (Calculus & Optimization)

核心概念: 导数、偏导数、梯度、链式法则、泰勒展开、拉格朗日乘子法、凸优化

大模型应用:

反向传播: 梯度计算和链式法则的完美体现
模型训练: 最小化损失函数（优化问题）的核心，各种优化器（SGD、Adam、RMSProp）都是梯度下降的变体
激活函数: 它们的导数特性对梯度传播至关重要
模型收敛性分析: 涉及微积分中的收敛性理论

4. 信息论 (Information Theory)

核心概念: 信息量、熵（Entropy）、联合熵、条件熵、互信息、交叉熵、KL散度

大模型应用:

损失函数: 交叉熵损失是衡量预测分布与真实分布之间差异的度量
注意力机制: 计算注意力权重时，softmax操作与概率分布和熵的关联
强化学习: 策略梯度的优化目标中可能包含熵正则项；TRPO/PPO算法的核心是KL散度约束
模型压缩与量化: 量化信息损失的评估

5. 数值分析 (Numerical Analysis)

核心概念: 浮点数精度、数值稳定性、梯度裁剪、学习率调度

大模型应用:

防止梯度爆炸/消失: 大模型层数深，计算量大，数值稳定性问题尤为突出
BFloat16/FP16训练: 理解不同精度浮点数对模型训练的影响
优化器选择: 某些优化器在数值上更稳定

学习建议

理论与实践结合: 不要只停留在公式推导，要理解这些数学概念在AI中的具体应用
可视化理解: 利用3Blue1Brown等资源建立几何直观
代码实现: 尝试用代码实现基本的数学运算，加深理解
循序渐进: 从基础概念开始，逐步深入到高级应用

贡献者

Mira190

CS294/194-196 Large Language Model Agents

CS294/194-196 课程相关资料

微积分与优化 (Calculus & Optimization)

微积分与优化核心概念及其在大模型中的应用

On this page

核心数学领域 1. 线性代数 (Linear Algebra)2. 概率论与数理统计 (Probability & Statistics)3. 微积分与优化 (Calculus & Optimization)4. 信息论 (Information Theory)5. 数值分析 (Numerical Analysis)学习建议