Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

作者: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

发布时间: 2025-04-02

来源: arxiv

研究方向: 多模态大型语言模型（MLLM）在视频理解中的应用与评估

主要内容

本文研究了通过强化学习（RL）提升MLLM在视频理解任务中的性能，并介绍了SEED-Bench-R1基准，用于系统性地评估MLLM在视频理解中的后训练方法。

1. 提出SEED-Bench-R1基准，用于评估MLLM在视频理解中的后训练方法。

2. 使用Qwen2-VL-Instruct-7B作为基座模型，比较了RL与监督微调（SFT）在数据效率和性能上的差异。

3. 发现RL在分布内和分布外任务上均优于SFT，尤其在分布外场景中表现更佳。

4. 分析了RL对COT生成的影响，以及其对视觉感知和逻辑推理的影响。

5. 识别了RL在感知粒度和逻辑一致性方面的局限性，并提出了未来改进方向。

1. SEED-Bench-R1基准，包括复杂的现实世界视频和复杂的生活规划任务。

2. 基座模型：Qwen2-VL-Instruct-7B。

3. 强化学习（RL）：GRPO算法。

4. 监督微调（SFT）：基于COT推理过程的监督。

5. 性能评估：使用分布内和分布外数据集评估模型性能。

实验结果表明，RL在数据效率和性能上均优于SFT，尤其在分布外场景中表现更佳。然而，RL在感知粒度和逻辑一致性方面仍存在局限性。

未来研究方向包括：1）在RL之前增强基座模型的推理能力；2）改进奖励模型，平衡视觉感知和逻辑推理；3）提高RL对噪声信号的鲁棒性。