AgentRM: Enhancing Agent Generalization with Reward Modeling

作者: Yu Xia, Jingru Fan, Weize Chen, Siyu Yan, Xin Cong, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Maosong Sun

发布时间: 2025-02-27

来源: arxiv

研究方向: 语言模型代理(LLM-based Agent)的泛化和测试时自我改进

主要内容

本文提出了一种名为AgentRM的通用奖励模型,旨在通过测试时搜索来增强语言代理的性能。该模型通过构建奖励模型来指导策略模型,从而在未见过的任务上提高泛化能力。

主要贡献

1. 提出了AgentRM,一个通用的奖励模型,用于指导策略模型。

2. 研究了三种构建奖励模型的方法:显式奖励建模、隐式奖励建模和LLM作为裁判。

3. 在九种代理任务上进行了实验,平均提高了基础策略模型8.8个百分点。

4. 展示了从弱到强的泛化能力,在LLaMA-3-70B策略模型上提高了12.6个点。

5. 证明了AgentRM在测试时缩放方面的有效性。

研究方法

1. 行为克隆:通过专家轨迹进行监督微调,以获得具有基本任务能力的初始策略。

2. 奖励建模:包括显式奖励建模、隐式奖励建模和LLM作为裁判。

3. 奖励引导搜索:使用奖励模型来增强策略模型的决策能力,包括Best-of-N采样和步级 beam 搜索。

实验结果

在九种代理任务上,AgentRM平均提高了基础策略模型8.8个百分点,超过了最先进的通用代理4个百分点。在三个保留任务上,它将经过微调的策略模型提高了11.4个百分点,并超越了最先进的专门代理。实验结果还表明,AgentRM在测试时缩放方面非常有效。

未来工作

未来工作将包括:探索更多的代理交互式环境,增加训练数据量,提高MCTS的迭代次数和模拟次数,以及探索将提示工程与策略模型相结合的潜力。