Mitigating Preference Hacking in Policy Optimization with Pessimism

作者: Dhawal Gupta, Adam Fisch, Christoph Dann, Alekh Agarwal

发布时间: 2025-03-11

来源: arxiv

研究方向: 强化学习与人类反馈(RLHF)

主要内容

本文针对强化学习从人类反馈(RLHF)中存在的过度优化问题,提出了一种基于悲观主义的策略优化方法,以解决由于偏好数据有限导致的过度优化现象。

主要贡献

1. 提出了一种新的受限Nash公式,以解决先前悲观估计器在偏好数据采样策略缺乏限制性假设时的局限性。

2. 设计了一种名为P3O的悲观偏好策略优化算法,用于优化上述目标。

3. 通过实验验证了P3O和PRPO在文档摘要和创建有帮助的助手任务上的有效性,展示了其抵抗过度优化的能力。

研究方法

1. 使用有限偏好数据集的受限形式的不确定性。

2. 设计了一种基于悲观主义的Nash解决方案,以解决偏好优化中的过度优化问题。

3. 提出了P3O和PRPO算法,用于优化基于悲观主义的偏好目标。

实验结果

实验结果表明,P3O和PRPO在文档摘要和创建有帮助的助手任务上均优于标准的RLHF方法,如DPO和REINFORCE,并且避免了过度优化行为。

未来工作

未来工作可以进一步探索如何在更广泛的场景中应用该技术,并研究如何进一步提高其性能和鲁棒性。