R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

作者: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh

发布时间: 2025-03-10

来源: arxiv

研究方向: 视觉推理和多模态推理

主要内容

该研究主要探讨了如何通过强化学习在大型语言模型中培养复杂推理能力，特别关注在非监督训练（非SFT）的情况下实现类似于DeepSeek R1中的“aha moment”现象。研究人员使用非SFT的2B模型，通过在SAT数据集上应用强化学习，实现了在CVBench上的59.47%准确率，并观察到模型在推理过程中展现出自我反思和增加的响应长度。

主要贡献

1. 首次在非SFT 2B模型上成功复制了DeepSeek R1中出现的“aha moment”现象。

2. 展示了视觉中心的空间推理任务也可以从增强推理能力中受益。

3. 证明了在指令模型上应用强化学习会导致表面化的推理而不是真正的解决问题的策略。

4. 开源了项目代码，以促进未来对多模态推理的研究。

研究方法

1. 强化学习（RL）

2. 基于规则的奖励函数

3. 梯度策略优化（GRPO）

4. 无监督训练（非SFT）

5. 直接在基础模型上应用RL

实验结果

实验结果表明，在CVBench上的准确率超过了基线和SFT模型，证明了该方法的优越性。同时，研究人员观察到模型在训练过程中表现出“aha moment”现象，即模型自主地发展出更复杂的推理策略，并在回答中展现出自我反思。

未来工作

未来的工作将集中于进一步探究在多模态模型上应用RL的挑战，以及如何激励模型进行更深入的推理。此外，研究还将探索如何将这种方法应用于其他类型的推理任务，并进一步提高模型在多模态推理中的表现。