Towards Fine-Grained Video Question Answering
作者: Wei Dai, Alan Luo, Zane Durante, Debadutta Dash, Arnold Milstein, Kevin Schulman, Ehsan Adeli, Li Fei-Fei
发布时间: 2025-03-11
来源: arxiv
研究方向: 视频问答(Video Question Answering, VideoQA)
主要内容
本文提出了一种名为MOMA-QA的视频问答数据集,旨在解决现有视频问答数据集在时空粒度、空间关系推理和实体中心查询方面的不足。同时,提出了一个名为SGVLM的视频语言模型,该模型结合了场景图预测器、高效的帧检索器和预训练的大型语言模型,以实现细粒度的视频理解。
主要贡献
1. 提出了MOMA-QA数据集,强调时空定位、关系推理和实体中心查询,为细粒度视频理解提供支持。
2. 引入了SGVLM视频语言模型,结合场景图预测器、帧检索器和预训练的大型语言模型,实现细粒度视频理解。
3. 在MOMA-QA和其他公共数据集上进行了评估,证明了所提出模型在视频问答任务中的优越性能。
研究方法
1. 构建MOMA-QA数据集,包括时空定位、空间关系推理和实体中心查询。
2. 设计SGVLM模型,包括帧编码器、场景图预测器、帧定位器、Q-Former和LLM。
3. 在MOMA-QA、NExT-QA和QVHighlights数据集上评估模型性能。
实验结果
在MOMA-QA数据集上,SGVLM在描述和关系类别中分别达到了66.64%和81.36%的准确率,在NExT-QA数据集上,SGVLM在因果和描述问题上的准确率分别为75.2%和83.4%,在QVHighlights数据集上,SGVLM在时刻检索和突出显示检测任务中均取得了优异的性能。
未来工作
未来将探索以下方向:1)改进视觉编码器,提高模型对遮挡物体的识别能力;2)研究更有效的帧定位和场景图预测方法;3)探索在更多视频理解任务中的应用。