Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

作者: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han

发布时间: 2025-03-14

来源: arxiv

研究方向: 自然语言处理,强化学习,大型语言模型

主要内容

本文提出了一种名为SEARCH-R1的新型强化学习框架,旨在增强大型语言模型(LLM)的推理和检索能力。该框架允许LLM在推理过程中自主生成搜索查询,并利用实时检索结果进行推理,从而提高LLM在复杂推理任务中的表现。

主要贡献

1. 提出了SEARCH-R1,一种新的强化学习框架,使LLM能够在推理过程中自主生成搜索查询。

2. 通过检索内容掩码来确保强化学习的稳定训练。

3. 设计了多轮检索和推理,支持复杂任务求解。

4. 采用简单而有效的基于结果的奖励函数。

5. 在七个问答数据集上进行了实验,表明SEARCH-R1比SOTA基线提高了26%、21%和10%的表现。

6. 提供了关于强化学习优化方法、LLM选择和检索增强推理中的响应长度动态的实证见解。

研究方法

1. 强化学习(RL)

2. Proximal Policy Optimization (PPO)

3. Group Relative Policy Optimization (GRPO)

4. 检索内容掩码

5. 多轮检索和推理

6. 基于结果的奖励函数

实验结果

在七个问答数据集上进行的实验表明,SEARCH-R1在三个LLM(Qwen2.5-7B、Qwen2.5-3B和LLaMA3.2-3B)上均优于SOTA基线,平均相对改进分别为26%、21%和10%。此外,SEARCH-R1在基线和指令调整的LLM上均表现出色,并且其性能不受LLM架构的影响。

未来工作

未来工作可以探索将SEARCH-R1扩展到支持更广泛的搜索策略,包括更复杂的奖励机制、基于不确定性的动态检索调整以及与除网络搜索之外的信息源集成。此外,还可以研究其在多模态推理任务中的应用。