H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding
作者: Qi Wu, Quanlong Zheng, Yanhao Zhang, Junlin Xie, Jinguo Luo, Kuo Wang, Peng Liu, Qingsong Xie, Ru Zhen, Haonan Lu, Zhenyu Yang
发布时间: 2025-04-02
来源: arxiv
研究方向: 视频理解与多模态大语言模型
主要内容
本文提出了一种名为H²VU-Benchmark的视频理解基准,旨在全面评估多模态大语言模型(MLLMs)的视频理解能力。该基准涵盖了从短视频到长视频的广泛视频时长,引入了反常识理解和轨迹状态跟踪等评估任务,并扩展了第一人称流媒体视频数据集。
主要贡献
1. 提出了H²VU-Benchmark,一个全面评估MLLMs视频理解能力的基准。
2. 扩展了视频时长范围,从3秒到1.5小时。
3. 引入了反常识理解和轨迹状态跟踪等评估任务。
4. 扩展了第一人称流媒体视频数据集。
5. 对多种MLLMs进行了评估,揭示了它们在不同任务上的表现差异。
6. 指出了MLLMs在反常识理解和轨迹状态跟踪任务上的局限性。
7. 强调了针对在线流媒体场景进行针对性优化的必要性。
研究方法
1. 构建了一个包含多种视频时长、任务和视角的基准数据集。
2. 使用多种任务评估MLLMs的视频理解能力,包括感知、推理、反常识理解和轨迹状态跟踪。
3. 对多种MLLMs进行了评估,包括商业和开源模型。
4. 分析了实验结果,以揭示MLLMs在不同任务上的表现差异。
实验结果
实验结果表明,MLLMs在反常识理解和轨迹状态跟踪任务上的表现普遍较差,这与其他常见任务相比有显著差异。此外,一些模型在在线流媒体场景下的表现也较差,这表明它们可能没有针对这种场景进行优化。
未来工作
未来研究可以集中在以下方面:1. 提高MLLMs在反常识理解和轨迹状态跟踪任务上的性能;2. 针对在线流媒体场景进行针对性优化;3. 开发更有效的数据集和评估方法,以更全面地评估MLLMs的视频理解能力。