Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

作者: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum

发布时间: 2025-04-03

来源: arxiv

研究方向: 大规模强化学习与语言模型

主要内容

Open-Reasoner-Zero (ORZ) 是一种开源的、面向大规模推理的强化学习训练方法，旨在提高训练效率、简单性和可访问性。该方法利用了简单的 PPO 算法、基于规则的奖励函数，并避免使用 KL 正则化，从而在推理任务上实现了显著的性能提升。

1. 提供了一种基于开源的大规模强化学习训练方法，称为 Open-Reasoner-Zero。

2. 分享了在扩展强化学习过程中获得的经验和教训。

3. 发布了包括代码、参数设置、数据和模型权重在内的全面训练资源。

4. 证明了使用简单的 PPO 算法和基于规则的奖励函数可以在推理任务上实现性能提升。

5. 揭示了数据规模对于训练性能的重要性，并通过开源数据集鼓励社区贡献更多数据。

1. Proximal Policy Optimization (PPO) 算法

2. 基于规则的奖励函数

3. 数据集的收集和预处理

4. GAE (Generalized Advantage Estimation) 优势估计

5. 模型规模和数据规模的扩展

ORZ 在 AIME2024、MATH500 和 GPQA Diamond 基准测试中取得了优于 DeepSeek-R1-Zero 的性能，同时训练步骤减少了 1/10。实验结果表明，使用简单的 PPO 算法和基于规则的奖励函数可以有效地提高推理能力，而无需复杂的正则化技术。

未来工作将探索以下方向：数据扩展、模型扩展、测试时间扩展和场景扩展，以进一步提高推理能力和通用性。