Involution Hell

AI 知识库Foundation models

经典面试QKV问题

经典面试 QKV 问题

Transformer中的QKV机制是大模型面试的热门话题。本节深入解析相关的经典面试问题。

核心面试问题

1. 在LLM推理时，为什么KV可以Cache？

核心原因: 自回归生成的特性决定了KV可以重复使用。

详细解析:

减少重复计算: 历史序列的Key和Value在每次生成时都需要重新计算，通过缓存避免重复计算
提升推理速度: 生成新token时只需计算当前token的Query，与缓存的KV进行注意力计算
降低计算复杂度: 从O(n²·d)降低到O(n·d)，n是序列长度，d是向量维度
跨请求复用: 相同前缀的多个请求可以共享KV Cache，提高系统整体吞吐量

2. 那为什么Q不可以Cache？

关键理解: Q不需要Cache，而不是不能Cache。

原因分析:

依赖性差异: 每个新生成token的输出只依赖于当前token的Q，Q在下次推理时不会被再次使用
计算效率考虑: 缓存Q不会带来效率提升，每个Q都是基于前面序列生成的，具有时序依赖性
自回归特性: 每个Token生成仅依赖于之前所有Token，Q的计算本身就是基于历史序列的

3. 为什么需要三个不同的矩阵WQ、WK、WV？

功能分离: 将注意力机制分解为三个不同的功能：

查询生成 (WQ): 生成"我要找什么"
键生成 (WK): 生成"我是什么"
值生成 (WV): 生成"我包含什么信息"

数学原理: 不同的线性变换学习不同的表示空间，增加模型的表达能力和灵活性。

4. Multi-Head Attention的作用是什么？

核心思想: 并行的专门化，不同的头学习不同类型的注意力模式。

具体作用:

信息子空间: 每个头关注不同的特征子空间
注意力多样性: 同时捕获多种注意力模式
位置信息: 不同头可能关注不同的位置关系
语义层次: 不同头关注不同层次的语义信息

5. KV Cache的内存使用量如何计算？

计算公式:

KV Cache内存 = 2 × 序列长度 × 层数 × 隐藏维度 × 头数 × 精度字节数

优化策略:

量化: 使用INT8或INT4量化KV Cache
分页: PagedAttention的分页存储
压缩: 动态压缩不活跃的Cache
共享: 多请求间的Cache共享

进阶技术问题

Flash Attention优化原理

内存访问优化: 分块计算注意力，减少HBM与SRAM间的数据传输
算法改进: IO复杂度从O(N²)降低到O(N²d²/M)，支持更长的序列长度

不同精度对KV Cache的影响

精度	内存占用	计算速度	精度损失
FP16	50%	1.5-2x	极小
INT8	25%	2-3x	小
INT4	12.5%	3-4x	中等

面试准备建议

技术深度

理解原理: 深入理解注意力机制的数学原理
实现细节: 了解KV Cache的具体实现
优化技术: 掌握相关的优化技术
性能分析: 能够分析内存和计算开销

表达技巧

结构化回答: 按照原理→实现→优化的顺序
举例说明: 用具体例子解释抽象概念
数据支撑: 用具体数据说明优化效果
对比分析: 对比不同方案的优缺点

贡献者

Mira190

模型微调

大模型微调技术：LoRA、PEFT、微调框架等参数高效微调方法

模型训练

大模型训练技术：MoE、分布式训练、模型权重合并等

On this page

经典面试 QKV 问题核心面试问题 1. 在LLM推理时，为什么KV可以Cache？2. 那为什么Q不可以Cache？3. 为什么需要三个不同的矩阵WQ、WK、WV？4. Multi-Head Attention的作用是什么？5. KV Cache的内存使用量如何计算？进阶技术问题 Flash Attention优化原理不同精度对KV Cache的影响面试准备建议技术深度表达技巧