Soft Policy Optimization: Online Off-Policy RL for Sequence Models
作者: Taco Cohen, David W. Zhang, Kunhao Zheng, Yunhao Tang, Remi Munos, Gabriel Synnaeve
发布时间: 2025-03-10
来源: arxiv
研究方向: 强化学习与语言模型
主要内容
本文介绍了Soft Policy Optimization (SPO),一种用于序列模型策略的软强化学习方法,它可以从任意在线和离线轨迹中学习,且不需要单独的价值模型。SPO在代码竞赛等任务上优于PPO,学习效率更高,内存更高效,并能从离线数据中受益。
主要贡献
1. 提出了Soft Policy Optimization (SPO)方法,解决了现有强化学习在语言模型训练中的样本效率低、探索困难以及策略多样性不足等问题。
2. 通过累积Q参数化,将策略和价值函数统一起来,节省了大量内存。
3. 证明了累积参数化的Q函数满足软贝尔曼一致性和路径一致性,从而无需额外的Q学习或路径一致性损失。
4. 在代码竞赛等任务上,SPO在pass@10、学习效率、内存效率和策略多样性方面均优于PPO。
5. SPO能够有效地利用离线数据来加速学习和提高结果。
6. 通过消融实验,研究了不同SPO损失变体的影响,并证明了结合不同损失函数可以进一步提高性能。
研究方法
1. 累积Q参数化
2. 软强化学习
3. 异步在线离策略强化学习
4. 累积Q函数
5. 路径一致性
6. 贝尔曼一致性
7. 重要性权重
8. 蒙特卡洛回归
实验结果
SPO在代码竞赛等任务上优于PPO,在pass@10、学习效率、内存效率和策略多样性方面均有显著提升。SPO能够有效地利用离线数据来加速学习和提高结果。
未来工作
进一步研究SPO在不同类型任务上的应用,探索结合策略梯度损失的方法,以及在线估计参考模型Q0的方法。