Soft Policy Optimization: Online Off-Policy RL for Sequence Models

作者: Taco Cohen, David W. Zhang, Kunhao Zheng, Yunhao Tang, Remi Munos, Gabriel Synnaeve

发布时间: 2025-03-10

来源: arxiv

研究方向: 强化学习与语言模型

主要内容

本文介绍了Soft Policy Optimization (SPO)，一种用于序列模型策略的软强化学习方法，它可以从任意在线和离线轨迹中学习，且不需要单独的价值模型。SPO在代码竞赛等任务上优于PPO，学习效率更高，内存更高效，并能从离线数据中受益。

1. 提出了Soft Policy Optimization (SPO)方法，解决了现有强化学习在语言模型训练中的样本效率低、探索困难以及策略多样性不足等问题。

2. 通过累积Q参数化，将策略和价值函数统一起来，节省了大量内存。

3. 证明了累积参数化的Q函数满足软贝尔曼一致性和路径一致性，从而无需额外的Q学习或路径一致性损失。

4. 在代码竞赛等任务上，SPO在pass@10、学习效率、内存效率和策略多样性方面均优于PPO。

5. SPO能够有效地利用离线数据来加速学习和提高结果。

6. 通过消融实验，研究了不同SPO损失变体的影响，并证明了结合不同损失函数可以进一步提高性能。

1. 累积Q参数化

2. 软强化学习

3. 异步在线离策略强化学习

4. 累积Q函数

5. 路径一致性

6. 贝尔曼一致性

7. 重要性权重

8. 蒙特卡洛回归

SPO在代码竞赛等任务上优于PPO，在pass@10、学习效率、内存效率和策略多样性方面均有显著提升。SPO能够有效地利用离线数据来加速学习和提高结果。

进一步研究SPO在不同类型任务上的应用，探索结合策略梯度损失的方法，以及在线估计参考模型Q0的方法。