R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

作者: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

发布时间: 2025-03-10

来源: arxiv

研究方向: 大语言模型（LLMs）的搜索能力增强

主要内容

本文提出了一种名为R1-Searcher的框架，旨在通过强化学习（RL）增强LLMs的搜索能力。该框架允许LLMs在推理过程中自主调用外部搜索系统来访问额外的知识，以提高推理的准确性和效率。

主要贡献

1. 引入了R1-Searcher，通过两阶段强化学习框架实现LLMs在推理过程中的自主检索。

2. 在四个多跳问答基准数据集上进行的实验表明，R1-Searcher在性能上显著优于现有的RAG方法，甚至在某些情况下超过了闭源GPT-4o-mini。

3. 该方法仅使用强化学习进行训练，无需蒸馏或冷启动，同时表现出对域外数据集和在线搜索场景的良好泛化能力。

4. R1-Searcher适用于基础模型和指令调整模型，有效提高了LLMs的推理能力。

研究方法

1. 两阶段强化学习（RL）

2. 检索增强生成（RAG）

3. 基于结果的奖励设计

4. RAG-based Rollout

5. Retrieval Mask-based Loss Calculation

6. Reinforce++算法的改进

实验结果

R1-Searcher在多个多跳问答基准数据集上实现了显著的性能提升，例如在HotpotQA和2Wiki上分别提高了48.22%和21.72%。此外，该方法在域外数据集（如Musique和Bamboogle）上也表现出良好的泛化能力，在Bamboogle上的性能比Search-o1提高了11.4%。

未来工作

未来工作将集中在两个方面：一是探索更复杂的数据课程，以进一步优化训练过程；二是将模型扩展到更大的规模（例如32B），以评估方法的有效性。