R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

作者: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

发布时间: 2025-03-10

来源: arxiv

研究方向: 大语言模型(LLMs)的搜索能力增强

主要内容

本文提出了一种名为R1-Searcher的框架,旨在通过强化学习(RL)增强LLMs的搜索能力。该框架允许LLMs在推理过程中自主调用外部搜索系统来访问额外的知识,以提高推理的准确性和效率。

主要贡献

1. 引入了R1-Searcher,通过两阶段强化学习框架实现LLMs在推理过程中的自主检索。

2. 在四个多跳问答基准数据集上进行的实验表明,R1-Searcher在性能上显著优于现有的RAG方法,甚至在某些情况下超过了闭源GPT-4o-mini。

3. 该方法仅使用强化学习进行训练,无需蒸馏或冷启动,同时表现出对域外数据集和在线搜索场景的良好泛化能力。

4. R1-Searcher适用于基础模型和指令调整模型,有效提高了LLMs的推理能力。

研究方法

1. 两阶段强化学习(RL)

2. 检索增强生成(RAG)

3. 基于结果的奖励设计

4. RAG-based Rollout

5. Retrieval Mask-based Loss Calculation

6. Reinforce++算法的改进

实验结果

R1-Searcher在多个多跳问答基准数据集上实现了显著的性能提升,例如在HotpotQA和2Wiki上分别提高了48.22%和21.72%。此外,该方法在域外数据集(如Musique和Bamboogle)上也表现出良好的泛化能力,在Bamboogle上的性能比Search-o1提高了11.4%。

未来工作

未来工作将集中在两个方面:一是探索更复杂的数据课程,以进一步优化训练过程;二是将模型扩展到更大的规模(例如32B),以评估方法的有效性。