Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
作者: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
研究方向: 大型语言模型(LLM)训练与推理
本文提出了一种名为Agentic Reward Modeling的奖励系统,旨在提高大型语言模型(LLM)的可靠性和准确性。该系统结合了人类偏好和可验证的正确性信号,以提供更可靠的奖励,并用于训练LLM。