Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

作者: Jiawei Huang, Bingcong Li, Christoph Dann, Niao He

发布时间: 2025-02-27

来源: arxiv

研究方向: 强化学习与人类反馈(RLHF)

主要内容

该论文研究了在在线RLHF中利用不完美但相关的奖励模型来加速学习的方法。通过分析KL正则化RLHF目标的新特性,提出了一种理论上的迁移学习算法,该算法在标准在线学习算法的基础上具有可证明的优势。该方法在早期阶段通过快速适应最佳可用源奖励模型来减少后悔,随着时间的推移,它达到了与结构复杂度无关的O(T)后悔界限。

主要贡献

1. 识别了KL正则化RLHF目标的一个新特性,即策略覆盖能力与其子最优性之间的关系。

2. 提出了一种理论上的迁移学习算法,该算法在标准在线学习算法的基础上具有可证明的优势。

3. 设计了一种计算效率更高的经验算法,并在总结任务中证明了其有效性。

研究方法

1. KL正则化RLHF目标的分析

2. 理论迁移学习算法的设计

3. 经验算法的设计与实现

4. 在线学习算法(如XPO)的应用

5. RPO(离线强化学习)的应用

6. UCB(上置信界)算法的应用

实验结果

在总结任务中,所提出的算法在T5模型上进行了评估,并与其基线算法进行了比较。实验结果表明,该算法在早期阶段可以显著减少后悔,并且在有限的时间内达到了与结构复杂度无关的O(T)后悔界限。

未来工作

未来工作可以探索以下方向:开发超出RLHF设置之外的迁移学习策略;实现更细粒度的提示级知识迁移;将方法应用于更大规模的LLM模型的微调。