Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

作者: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

发布时间: 2025-04-02

来源: arxiv

研究方向: 多模态大型语言模型(MLLM)在视频理解中的应用与评估

主要内容

本文研究了通过强化学习(RL)提升MLLM在视频理解任务中的性能,并介绍了SEED-Bench-R1基准,用于系统性地评估MLLM在视频理解中的后训练方法。

主要贡献

1. 提出SEED-Bench-R1基准,用于评估MLLM在视频理解中的后训练方法。

2. 使用Qwen2-VL-Instruct-7B作为基座模型,比较了RL与监督微调(SFT)在数据效率和性能上的差异。

3. 发现RL在分布内和分布外任务上均优于SFT,尤其在分布外场景中表现更佳。

4. 分析了RL对COT生成的影响,以及其对视觉感知和逻辑推理的影响。

5. 识别了RL在感知粒度和逻辑一致性方面的局限性,并提出了未来改进方向。

研究方法

1. SEED-Bench-R1基准,包括复杂的现实世界视频和复杂的生活规划任务。

2. 基座模型:Qwen2-VL-Instruct-7B。

3. 强化学习(RL):GRPO算法。

4. 监督微调(SFT):基于COT推理过程的监督。

5. 性能评估:使用分布内和分布外数据集评估模型性能。

实验结果

实验结果表明,RL在数据效率和性能上均优于SFT,尤其在分布外场景中表现更佳。然而,RL在感知粒度和逻辑一致性方面仍存在局限性。

未来工作

未来研究方向包括:1)在RL之前增强基座模型的推理能力;2)改进奖励模型,平衡视觉感知和逻辑推理;3)提高RL对噪声信号的鲁棒性。