Reward Learning from Multiple Feedback Types

作者: Yannick Metz, András Geiszl, Raphaël Baur, Mennatallah El-Assady

发布时间: 2025-03-03

来源: arxiv

研究方向: 强化学习与人类反馈

主要内容

本文研究了从多种反馈类型中学习奖励的方法，旨在提高强化学习（RL）模型的性能和鲁棒性。研究人员定义了六种不同的反馈类型，包括评价、比较、演示、纠正、描述和描述性偏好，并设计了生成模拟反馈的方法。然后，他们实现了针对这些反馈类型的奖励模型，并在多个环境中进行实验，以评估不同类型反馈的有效性和互补性。

1. 实现了针对六种不同人类反馈类型的合成生成和奖励模型。

2. 实证研究了这些反馈类型的有效性和互补性。

3. 分析了使用多种反馈类型的联合训练性能，突出了从多样化人类反馈中学习的潜力。

1. 定义和模拟了六种不同的反馈类型。

2. 使用专家策略生成高质量的模拟反馈。

3. 实现了奖励模型和下游RL训练。

4. 在多个RL环境中调查了不同类型反馈的使用，并将其与基于偏好的基线进行比较。

5. 使用奖励函数集成进行联合奖励建模。

6. 评估了不同类型反馈在噪声条件下的鲁棒性。

实验结果表明，多样化的反馈类型可以有效地用于奖励建模，并导致强大的奖励建模性能。描述性反馈通常表现最佳，尽管它在现实世界中的收集存在挑战。将多种反馈类型结合起来可以提高性能，但需要进一步研究以实现其全部潜力。

未来的工作将包括动态奖励模型、扩展到更复杂领域、将真实人类反馈整合到模拟中，以及探索从AI反馈中进行RL的方法。