Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

作者: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu

发布时间: 2025-04-03

来源: arxiv

研究方向: 强化学习与可验证奖励(RLVR)在多样化领域中的应用

主要内容

本文研究了强化学习与可验证奖励(RLVR)在多样化领域中的应用,包括医学、化学、心理学、经济学和教育等,这些领域通常没有结构化的参考答案。研究通过利用生成评分技术来克服二元验证的限制,并展示了一个可扩展的RLVR框架,该框架在自由形式设置中显著优于现有的开源对齐模型。

主要贡献

1. 将强化学习与可验证奖励(RLVR)扩展到多样化的领域,证明了其在传统结构化答案场景之外的适用性。

2. 引入并验证了将基于生成模型的软奖励融入RLVR的新框架,与传统基于规则的二元奖励相比,显著提高了泛化能力、鲁棒性和可扩展性。

3. 实证展示了在没有大量领域特定标注的情况下,训练紧凑型(7B规模)跨领域生成奖励验证器的可行性和有效性。

4. 发布了一个包含570k个多领域自由形式数据示例和相应训练奖励模型的数据库,以促进该领域未来研究的发展。

研究方法

1. 使用生成评分技术产生软奖励信号。

2. 训练跨领域生成奖励模型,使用相对较小的(7B)LLM,无需大量领域特定标注。

3. 采用z-score归一化技术确保稳定的梯度并鼓励改进。

4. 使用监督学习对奖励模型进行微调。

5. 使用不同RL算法进行实验验证,包括REINFORCE、RLOO和REINFORCE++。

实验结果

通过实验,RLVR框架在多个领域取得了显著的性能提升,特别是在自由形式的推理任务中,性能提升高达8.0%。基于生成模型的软奖励在扩展性和鲁棒性方面优于传统的基于规则的二元奖励,尤其是在非结构化答案场景和大规模训练数据情况下。

未来工作

进一步探索如何将RLVR应用于更多领域,并研究在缺乏结构化参考答案的情况下,如何提高奖励模型的鲁棒性和准确性。