Involution Hell
AI 知识库Multimodal

多模态视频大模型

多模态视频大模型学习笔记

1. 背景

多模态视频大模型(MVM)结合了视觉、语言、音频等信息。
相比图像模型,视频任务难度更大,主要痛点是:

  • 细粒度感知:需要精准定位视频中的对象、动作、关系。
  • 长视频理解:需要跨越长时间跨度,抓取关键事件并保持全局一致性。

2. 细粒度感知问题

2.1 现象

  • 识别动作不够细,比如“拿起” vs “举起”容易混淆。
  • 模型回答缺少时间戳或关键帧作为证据。
  • 不同模态(字幕 vs 画面)不同步。

2.2 难点

  • 数据:精细标注成本高,长尾动作样本稀少。
  • 计算:高分辨率视频导致 token 数量暴涨。
  • 表征:局部细节 vs 全局语义之间的矛盾。

2.3 方法

  • 动作/事件的分层建模:全局 -> 局部 -> 原子动作。
  • Token 剪枝 / 压缩:保留关键帧或关键patch,减少冗余。
  • 多任务训练:分类 + 定位 + QA 联合学习。
  • 证据可视化:输出 frame index 或 bounding box。

3. 长视频理解问题

3.1 现象

  • 模型只能处理几秒视频,超过几分钟就“遗忘”。
  • 问答缺乏全局上下文,经常答非所问。
  • 摘要或检索偏向“局部”,忽略主线。

3.2 难点

  • Token 预算:分钟级视频动辄几十万帧,不可能直接全输入。
  • 结构复杂:电影/课堂/会议往往包含多场景、多角色、多事件。
  • 跨模态异步:字幕、音频、动作不一定同时发生。

3.3 方法

  • 层次化建模:Shot → Scene → Event → Video。
  • 检索增强:先通过索引定位关键片段,再送入大模型推理。
  • 记忆机制:滑窗+缓存、外部记忆库、摘要链。
  • 多模态协作:结合字幕(ASR)、OCR、音频,辅助视觉。

4. 常见评测指标

  • 细粒度感知
    • 动作定位 mAP@tIoU
    • QA 正确率 + 时间戳一致性
    • 可解释性(证据帧与答案匹配度)
  • 长视频理解
    • QA 准确率(长上下文)
    • 检索 Recall@K / mAP
    • 摘要质量(ROUGE、人类评价)
    • 计算效率(fps、显存占用)

5. 其他思考

  • 细粒度问题更像 计算机视觉 + NLP 联合的小任务(检测/分割/动作识别 + QA)。
  • 长视频理解更像 系统工程:需要数据预处理(分段/索引)、模型(层次化)、推理(检索+规划)。
  • 未来方向可能是:多模态协同记忆 + 可解释推理

6. 参考文献


贡献者