Involution Hell

AI 知识库Foundation models

基座大模型

基座大模型是现代 AI 系统的核心，本节涵盖从数据构建到部署评测的完整技术栈与生命周期管理。

核心组成部分

📊 数据集构建

前往: 数据集构建
数据来源与获取策略
数据清洗与质量控制
隐私保护与合规处理
多模态数据处理技术

🔧 模型训练

前往: 模型训练
分布式训练技术
MoE 混合专家模型
模型权重合并策略
训练优化与稳定性

🎯 模型微调

前往: 模型微调
LoRA 低秩适应
PEFT 参数高效微调
指令微调与对齐
微调框架与工具

🚀 部署与推理

前往: 部署与推理
KV Cache 优化
Flash Attention 加速
量化与并行推理
推理框架对比

📈 模型评测

前往: 模型评测
Benchmark 评测体系
中英文评测基准
评测方法与指标
结果分析与应用

💡 QKV 面试问题

前往: QKV 面试问题
KV Cache 工作原理
注意力机制细节
经典面试题解析
技术要点深度剖析

学习路径

初学者路线

理论基础：Transformer 架构与注意力机制
数据处理：了解数据集构建流程
微调实践：掌握 LoRA 等参数高效微调
评测理解：熟悉主流基准与指标

进阶开发

训练优化：分布式训练与 MoE
推理加速：KV Cache、Flash Attention 等
部署工程：vLLM、TensorRT 等推理框架
性能调优：系统级性能分析与优化

架构设计

架构取舍：不同架构优缺点与场景
系统集成：端到端应用系统设计
成本优化：平衡性能、成本与资源
技术选型：面向场景的技术方案

重要概念

Decoder-only 架构优势

注意力满足：因果注意力适配生成任务
生成适配：天然适合自回归语言建模
统一框架：多任务统一为文本生成

KV Cache 核心原理

重复利用：历史 KV 复用降低计算
复杂度降低：O(n²) → O(n)
内存权衡：空间换时间

技术发展趋势

模型效率：参数高效训练与推理优化
多模态融合：文本/图像/音频统一
长序列处理：更长上下文支持
边缘部署：面向边缘设备的压缩
绿色 AI：降低能耗的计算技术

参考资料

动手学大模型（知乎专栏）
《Attention is All You Need》
《Language Models are Few-Shot Learners》

💡 学习建议：栈面宽且更新快，依据角色与目标选择路线；理论与实践并重，持续跟进前沿。

贡献者

Mira190

算力需求指南

如何计算训练大模型所需显存大小

数据集构建

大模型数据集构建：数据来源、处理流程、质量控制

On this page

核心组成部分 📊 数据集构建 🔧 模型训练 🎯 模型微调 🚀 部署与推理 📈 模型评测 💡 QKV 面试问题学习路径初学者路线进阶开发架构设计重要概念 Decoder-only 架构优势 KV Cache 核心原理技术发展趋势参考资料