AI 知识库Ai math basics
AI和大模型需要扎实的数学基础。本节涵盖了深度学习和大模型开发所需的核心数学概念。
核心数学领域
1. 线性代数 (Linear Algebra)
核心概念: 向量、矩阵、张量、特征值/特征向量、SVD(奇异值分解)、PCA(主成分分析)
大模型应用:
- Embedding (嵌入): 词向量、Token嵌入本质上就是高维向量
- Attention Mechanism (注意力机制): QKV矩阵乘法、Self-Attention的核心计算(点积)
- Transformer架构: 各种层(Linear Layer)、残差连接、Feed-Forward Network都涉及矩阵运算
- 模型参数: 整个模型的参数量可以用矩阵、张量来表示
- 降维与可视化: 对Embedding空间进行降维(t-SNE, UMAP, PCA)以进行分析
参考资料:
- 沉浸式线性代数
- 3Blue1Brown线性代数的本质 - 可视化极佳,能帮助建立直观理解
- 《线性代数的几何意义》(任广千, 谢聪, 胡翠芳)
2. 概率论与数理统计 (Probability & Statistics)
核心概念: 随机变量、概率分布(高斯、伯努利、多项式)、期望、方差、协方差、条件概率、贝叶斯定理、最大似然估计(MLE)、最大后验估计(MAP)
大模型应用:
- 语言建模: P(下一个词 | 上下文) 就是条件概率
- 损失函数: 交叉熵损失来源于信息论和概率分布的差异度量
- 采样与生成: Top-k, Top-p (nucleus) sampling都基于概率分布
- 不确定性量化: 对模型预测结果的置信度评估
- 强化学习: 基于概率策略的优化
3. 微积分与优化 (Calculus & Optimization)
核心概念: 导数、偏导数、梯度、链式法则、泰勒展开、拉格朗日乘子法、凸优化
大模型应用:
- 反向传播: 梯度计算和链式法则的完美体现
- 模型训练: 最小化损失函数(优化问题)的核心,各种优化器(SGD、Adam、RMSProp)都是梯度下降的变体
- 激活函数: 它们的导数特性对梯度传播至关重要
- 模型收敛性分析: 涉及微积分中的收敛性理论
4. 信息论 (Information Theory)
核心概念: 信息量、熵(Entropy)、联合熵、条件熵、互信息、交叉熵、KL散度
大模型应用:
- 损失函数: 交叉熵损失是衡量预测分布与真实分布之间差异的度量
- 注意力机制: 计算注意力权重时,softmax操作与概率分布和熵的关联
- 强化学习: 策略梯度的优化目标中可能包含熵正则项;TRPO/PPO算法的核心是KL散度约束
- 模型压缩与量化: 量化信息损失的评估
5. 数值分析 (Numerical Analysis)
核心概念: 浮点数精度、数值稳定性、梯度裁剪、学习率调度
大模型应用:
- 防止梯度爆炸/消失: 大模型层数深,计算量大,数值稳定性问题尤为突出
- BFloat16/FP16训练: 理解不同精度浮点数对模型训练的影响
- 优化器选择: 某些优化器在数值上更稳定
学习建议
- 理论与实践结合: 不要只停留在公式推导,要理解这些数学概念在AI中的具体应用
- 可视化理解: 利用3Blue1Brown等资源建立几何直观
- 代码实现: 尝试用代码实现基本的数学运算,加深理解
- 循序渐进: 从基础概念开始,逐步深入到高级应用