Soft Policy Optimization: Online Off-Policy RL for Sequence Models

作者: Taco Cohen, David W. Zhang, Kunhao Zheng, Yunhao Tang, Remi Munos, Gabriel Synnaeve

发布时间: 2025-03-10

来源: arxiv

研究方向: 强化学习与语言模型

主要内容

本文介绍了Soft Policy Optimization (SPO),一种用于序列模型策略的软强化学习方法,它可以从任意在线和离线轨迹中学习,且不需要单独的价值模型。SPO在代码竞赛等任务上优于PPO,学习效率更高,内存更高效,并能从离线数据中受益。

主要贡献

1. 提出了Soft Policy Optimization (SPO)方法,解决了现有强化学习在语言模型训练中的样本效率低、探索困难以及策略多样性不足等问题。

2. 通过累积Q参数化,将策略和价值函数统一起来,节省了大量内存。

3. 证明了累积参数化的Q函数满足软贝尔曼一致性和路径一致性,从而无需额外的Q学习或路径一致性损失。

4. 在代码竞赛等任务上,SPO在pass@10、学习效率、内存效率和策略多样性方面均优于PPO。

5. SPO能够有效地利用离线数据来加速学习和提高结果。

6. 通过消融实验,研究了不同SPO损失变体的影响,并证明了结合不同损失函数可以进一步提高性能。

研究方法

1. 累积Q参数化

2. 软强化学习

3. 异步在线离策略强化学习

4. 累积Q函数

5. 路径一致性

6. 贝尔曼一致性

7. 重要性权重

8. 蒙特卡洛回归

实验结果

SPO在代码竞赛等任务上优于PPO,在pass@10、学习效率、内存效率和策略多样性方面均有显著提升。SPO能够有效地利用离线数据来加速学习和提高结果。

未来工作

进一步研究SPO在不同类型任务上的应用,探索结合策略梯度损失的方法,以及在线估计参考模型Q0的方法。