Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1
作者: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
发布时间: 2025-04-02
来源: arxiv
研究方向: 多模态大型语言模型(MLLM)在视频理解中的应用与评估
主要内容
本文研究了通过强化学习(RL)提升MLLM在视频理解任务中的性能,并介绍了SEED-Bench-R1基准,用于系统性地评估MLLM在视频理解中的后训练方法。
主要贡献
1. 提出SEED-Bench-R1基准,用于评估MLLM在视频理解中的后训练方法。
2. 使用Qwen2-VL-Instruct-7B作为基座模型,比较了RL与监督微调(SFT)在数据效率和性能上的差异。
3. 发现RL在分布内和分布外任务上均优于SFT,尤其在分布外场景中表现更佳。
4. 分析了RL对COT生成的影响,以及其对视觉感知和逻辑推理的影响。
5. 识别了RL在感知粒度和逻辑一致性方面的局限性,并提出了未来改进方向。
研究方法
1. SEED-Bench-R1基准,包括复杂的现实世界视频和复杂的生活规划任务。
2. 基座模型:Qwen2-VL-Instruct-7B。
3. 强化学习(RL):GRPO算法。
4. 监督微调(SFT):基于COT推理过程的监督。
5. 性能评估:使用分布内和分布外数据集评估模型性能。
实验结果
实验结果表明,RL在数据效率和性能上均优于SFT,尤其在分布外场景中表现更佳。然而,RL在感知粒度和逻辑一致性方面仍存在局限性。
未来工作
未来研究方向包括:1)在RL之前增强基座模型的推理能力;2)改进奖励模型,平衡视觉感知和逻辑推理;3)提高RL对噪声信号的鲁棒性。