Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

作者: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

发布时间: 2025-02-27

来源: arxiv

研究方向: 大型语言模型(LLM)训练与推理

主要内容

本文提出了一种名为Agentic Reward Modeling的奖励系统,旨在提高大型语言模型(LLM)的可靠性和准确性。该系统结合了人类偏好和可验证的正确性信号,以提供更可靠的奖励,并用于训练LLM。

主要贡献

1. 提出了一种名为Agentic Reward Modeling的奖励系统,该系统结合了人类偏好和可验证的正确性信号。

2. 实现了名为REWARDAGENT的奖励代理,该代理结合了人类偏好和两个可验证的信号:事实性和指令遵循。

3. 在多个基准测试和真实世界下游任务中进行了实验,证明了REWARDAGENT的有效性。

4. 使用REWARDAGENT构建训练偏好对,并使用DPO目标训练LLM,在多个NLP基准测试中取得了优于传统奖励模型的性能。

5. 公开了代码,以促进进一步的研究。

研究方法

1. 奖励模型(RM):用于评估响应质量,通常用于LLM的后训练和推理时间缩放。

2. 可验证的正确性信号:如事实性和指令遵循,用于评估响应的正确性和准确性。

3. REWARDAGENT:一个奖励代理,它结合了基于人类偏好的奖励模型和来自两个关键方面的正确性信号(事实性和指令遵循)。

4. DPO(直接偏好优化):用于训练LLM的一种方法,通过优化人类反馈来提高模型性能。

5. 实验:在多个基准测试和真实世界下游任务中进行了实验,包括事实性问题回答、指令遵循和数据集上的最佳N搜索。

实验结果

REWARDAGENT在多个基准测试和真实世界下游任务中显著优于传统的奖励模型,证明了其有效性。

未来工作

开发更先进的验证代理,以进一步提高REWARDAGENT的性能和可靠性。探索将Agentic Reward Modeling应用于更多LLM训练场景,并研究如何动态调整权重和选择合适的验证代理。