Involution Hell

AI 知识库Multimodal

多模态视频大模型

多模态视频大模型学习笔记

1. 背景

多模态视频大模型（MVM）结合了视觉、语言、音频等信息。
相比图像模型，视频任务难度更大，主要痛点是：

细粒度感知：需要精准定位视频中的对象、动作、关系。
长视频理解：需要跨越长时间跨度，抓取关键事件并保持全局一致性。

2. 细粒度感知问题

2.1 现象

识别动作不够细，比如“拿起” vs “举起”容易混淆。
模型回答缺少时间戳或关键帧作为证据。
不同模态（字幕 vs 画面）不同步。

2.2 难点

数据：精细标注成本高，长尾动作样本稀少。
计算：高分辨率视频导致 token 数量暴涨。
表征：局部细节 vs 全局语义之间的矛盾。

2.3 方法

动作/事件的分层建模：全局 -> 局部 -> 原子动作。
Token 剪枝 / 压缩：保留关键帧或关键patch，减少冗余。
多任务训练：分类 + 定位 + QA 联合学习。
证据可视化：输出 frame index 或 bounding box。

3. 长视频理解问题

3.1 现象

模型只能处理几秒视频，超过几分钟就“遗忘”。
问答缺乏全局上下文，经常答非所问。
摘要或检索偏向“局部”，忽略主线。

3.2 难点

Token 预算：分钟级视频动辄几十万帧，不可能直接全输入。
结构复杂：电影/课堂/会议往往包含多场景、多角色、多事件。
跨模态异步：字幕、音频、动作不一定同时发生。

3.3 方法

层次化建模：Shot → Scene → Event → Video。
检索增强：先通过索引定位关键片段，再送入大模型推理。
记忆机制：滑窗+缓存、外部记忆库、摘要链。
多模态协作：结合字幕（ASR）、OCR、音频，辅助视觉。

4. 常见评测指标

细粒度感知：
- 动作定位 mAP@tIoU
- QA 正确率 + 时间戳一致性
- 可解释性（证据帧与答案匹配度）
长视频理解：
- QA 准确率（长上下文）
- 检索 Recall@K / mAP
- 摘要质量（ROUGE、人类评价）
- 计算效率（fps、显存占用）

5. 其他思考

细粒度问题更像 计算机视觉 + NLP 联合的小任务（检测/分割/动作识别 + QA）。
长视频理解更像 系统工程：需要数据预处理（分段/索引）、模型（层次化）、推理（检索+规划）。
未来方向可能是：多模态协同记忆 + 可解释推理。

6. 参考文献

Feather the Throttle: Revisiting Visual Token Pruning — arXiv:2412.13180
Token Activation Map to Visually Explain Multimodal LLMs — arXiv:2506.23270
GLM-4.5V / 4.1V-Thinking — arXiv:2507.01006
Thinking with Images for Multimodal Reasoning — arXiv:2506.23918
Vision as a Dialect — arXiv:2506.18898

贡献者

Mira190

QwenVL

QwenVL多模态大模型系列：发展历程、Qwen2.5-VL技术创新、微调实践

ViT 视觉编码器

Vision Transformer 资料

On this page

多模态视频大模型学习笔记 1. 背景 2. 细粒度感知问题 2.1 现象 2.2 难点 2.3 方法 3. 长视频理解问题 3.1 现象 3.2 难点 3.3 方法 4. 常见评测指标 5. 其他思考 6. 参考文献