Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin

发布时间: 2025-03-11

来源: arxiv

研究方向: 人工智能,大型语言模型(LLMs)的推理能力提升

主要内容

本文研究了如何通过强化学习(RL)提升多模态大型语言模型(MLLMs)的推理能力。作者提出了一种名为Vision-R1的推理MLLM,通过冷启动初始化和RL训练相结合的方式,使模型能够生成更复杂、更接近人类思维的推理过程。

主要贡献

1. 探索了如何利用RL提升MLLMs的推理能力,并提出了Vision-R1模型。

2. 构建了一个高质量、无需人工标注的多模态CoT数据集,作为Vision-R1的冷启动初始化数据。

3. 提出了渐进式思维抑制训练(PTST)策略,有效地解决了RL训练中的过度思考优化问题。

4. 通过实验验证了Vision-R1在数学推理任务上的强大能力,即使参数量较少,也能达到与参数量更大的模型相当的性能。

研究方法

1. Modality Bridging:将多模态信息转换为文本信息,从而捕捉到DeepSeek-R1的自然认知过程。

2. Progressive Thinking Suppression Training(PTST):在RL训练的早期阶段抑制推理长度,并逐步放松这些约束,使模型能够自主学习使用更长的CoT来解决问题。

3. Group Relative Policy Optimization(GRPO):在10K多模态数学数据集上应用GRPO,以增强模型的推理能力。

实验结果

Vision-R1在多个数学推理基准测试中取得了优异的成绩,甚至优于参数量更大的模型。在MathVista基准测试中,Vision-R1-7B的准确率为73.5%,仅比最先进的推理模型OpenAI O1低0.4%。

未来工作

进一步探索如何将Vision-R1应用于其他领域,例如科学问答、医疗诊断等。此外,还可以研究如何进一步提高模型的推理能力,使其能够解决更复杂的问题。