H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding

作者: Qi Wu, Quanlong Zheng, Yanhao Zhang, Junlin Xie, Jinguo Luo, Kuo Wang, Peng Liu, Qingsong Xie, Ru Zhen, Haonan Lu, Zhenyu Yang

发布时间: 2025-04-02

来源: arxiv

研究方向: 视频理解与多模态大语言模型

主要内容

本文提出了一种名为H²VU-Benchmark的视频理解基准,旨在全面评估多模态大语言模型(MLLMs)的视频理解能力。该基准涵盖了从短视频到长视频的广泛视频时长,引入了反常识理解和轨迹状态跟踪等评估任务,并扩展了第一人称流媒体视频数据集。

主要贡献

1. 提出了H²VU-Benchmark,一个全面评估MLLMs视频理解能力的基准。

2. 扩展了视频时长范围,从3秒到1.5小时。

3. 引入了反常识理解和轨迹状态跟踪等评估任务。

4. 扩展了第一人称流媒体视频数据集。

5. 对多种MLLMs进行了评估,揭示了它们在不同任务上的表现差异。

6. 指出了MLLMs在反常识理解和轨迹状态跟踪任务上的局限性。

7. 强调了针对在线流媒体场景进行针对性优化的必要性。

研究方法

1. 构建了一个包含多种视频时长、任务和视角的基准数据集。

2. 使用多种任务评估MLLMs的视频理解能力,包括感知、推理、反常识理解和轨迹状态跟踪。

3. 对多种MLLMs进行了评估,包括商业和开源模型。

4. 分析了实验结果,以揭示MLLMs在不同任务上的表现差异。

实验结果

实验结果表明,MLLMs在反常识理解和轨迹状态跟踪任务上的表现普遍较差,这与其他常见任务相比有显著差异。此外,一些模型在在线流媒体场景下的表现也较差,这表明它们可能没有针对这种场景进行优化。

未来工作

未来研究可以集中在以下方面:1. 提高MLLMs在反常识理解和轨迹状态跟踪任务上的性能;2. 针对在线流媒体场景进行针对性优化;3. 开发更有效的数据集和评估方法,以更全面地评估MLLMs的视频理解能力。