Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin

发布时间: 2025-03-12

来源: arxiv

研究方向: 多模态大型语言模型(MLLM)的推理能力提升

主要内容

本文研究了如何通过强化学习(RL)来提升MLLM的推理能力。作者提出了一种名为Vision-R1的推理MLLM,它结合了冷启动初始化和RL训练,旨在通过模态桥接和数据过滤来构建高质量的多模态CoT数据集,从而提高MLLM的推理能力。

主要贡献

1. 首次研究了在MLLM中应用RL以提升推理能力。

2. 构建了一个高质量、无人工标注的200K多模态CoT数据集。

3. 提出了渐进式思维抑制训练(PTST)策略,以解决RL训练中的过度思考优化问题。

4. 在数学推理任务中,Vision-R1-7B的性能与拥有70B+参数的SOTA MLLM相当。

研究方法

1. 模态桥接:利用现有MLLM生成“伪CoT”推理文本,并通过模态桥接将视觉信息转换为文本信息。

2. 数据过滤:通过规则过滤,移除逻辑不一致的样本,并替换一些词语以保持语义连贯。

3. 冷启动初始化:使用构建的多模态CoT数据集对预训练的MLLM进行微调。

4. 渐进式思维抑制训练(PTST):在RL训练的早期阶段抑制推理长度,并随着训练的进行逐渐放松这些约束。

实验结果

在多个多模态数学基准测试中,Vision-R1-7B的平均性能提高了6%。在MathVista基准测试中,Vision-R1-7B的准确率为73.5%,仅比领先的推理模型OpenAI O1低0.4%。

未来工作

进一步探索如何利用RL提升MLLM的推理能力,并尝试将Vision-R1应用于其他领域,如科学和医学。