H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding

作者: Qi Wu, Quanlong Zheng, Yanhao Zhang, Junlin Xie, Jinguo Luo, Kuo Wang, Peng Liu, Qingsong Xie, Ru Zhen, Haonan Lu, Zhenyu Yang

发布时间: 2025-04-02

来源: arxiv

研究方向: 视频理解与多模态大语言模型

主要内容

本文提出了一种名为H²VU-Benchmark的视频理解基准，旨在全面评估多模态大语言模型（MLLMs）的视频理解能力。该基准涵盖了从短视频到长视频的广泛视频时长，引入了反常识理解和轨迹状态跟踪等评估任务，并扩展了第一人称流媒体视频数据集。

1. 提出了H²VU-Benchmark，一个全面评估MLLMs视频理解能力的基准。

2. 扩展了视频时长范围，从3秒到1.5小时。

3. 引入了反常识理解和轨迹状态跟踪等评估任务。

4. 扩展了第一人称流媒体视频数据集。

5. 对多种MLLMs进行了评估，揭示了它们在不同任务上的表现差异。

6. 指出了MLLMs在反常识理解和轨迹状态跟踪任务上的局限性。

7. 强调了针对在线流媒体场景进行针对性优化的必要性。

1. 构建了一个包含多种视频时长、任务和视角的基准数据集。

2. 使用多种任务评估MLLMs的视频理解能力，包括感知、推理、反常识理解和轨迹状态跟踪。

3. 对多种MLLMs进行了评估，包括商业和开源模型。

4. 分析了实验结果，以揭示MLLMs在不同任务上的表现差异。

实验结果表明，MLLMs在反常识理解和轨迹状态跟踪任务上的表现普遍较差，这与其他常见任务相比有显著差异。此外，一些模型在在线流媒体场景下的表现也较差，这表明它们可能没有针对这种场景进行优化。

未来研究可以集中在以下方面：1. 提高MLLMs在反常识理解和轨迹状态跟踪任务上的性能；2. 针对在线流媒体场景进行针对性优化；3. 开发更有效的数据集和评估方法，以更全面地评估MLLMs的视频理解能力。