Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
作者: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
发布时间: 2025-04-03
来源: arxiv
研究方向: 大规模强化学习与语言模型
主要内容
Open-Reasoner-Zero (ORZ) 是一种开源的、面向大规模推理的强化学习训练方法,旨在提高训练效率、简单性和可访问性。该方法利用了简单的 PPO 算法、基于规则的奖励函数,并避免使用 KL 正则化,从而在推理任务上实现了显著的性能提升。
主要贡献
1. 提供了一种基于开源的大规模强化学习训练方法,称为 Open-Reasoner-Zero。
2. 分享了在扩展强化学习过程中获得的经验和教训。
3. 发布了包括代码、参数设置、数据和模型权重在内的全面训练资源。
4. 证明了使用简单的 PPO 算法和基于规则的奖励函数可以在推理任务上实现性能提升。
5. 揭示了数据规模对于训练性能的重要性,并通过开源数据集鼓励社区贡献更多数据。
研究方法
1. Proximal Policy Optimization (PPO) 算法
2. 基于规则的奖励函数
3. 数据集的收集和预处理
4. GAE (Generalized Advantage Estimation) 优势估计
5. 模型规模和数据规模的扩展
实验结果
ORZ 在 AIME2024、MATH500 和 GPQA Diamond 基准测试中取得了优于 DeepSeek-R1-Zero 的性能,同时训练步骤减少了 1/10。实验结果表明,使用简单的 PPO 算法和基于规则的奖励函数可以有效地提高推理能力,而无需复杂的正则化技术。
未来工作
未来工作将探索以下方向:数据扩展、模型扩展、测试时间扩展和场景扩展,以进一步提高推理能力和通用性。