R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
作者: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
发布时间: 2025-03-10
来源: arxiv
研究方向: 大语言模型(LLMs)的搜索能力增强
主要内容
本文提出了一种名为R1-Searcher的框架,旨在通过强化学习(RL)增强LLMs的搜索能力。该框架允许LLMs在推理过程中自主调用外部搜索系统来访问额外的知识,以提高推理的准确性和效率。
主要贡献
1. 引入了R1-Searcher,通过两阶段强化学习框架实现LLMs在推理过程中的自主检索。
2. 在四个多跳问答基准数据集上进行的实验表明,R1-Searcher在性能上显著优于现有的RAG方法,甚至在某些情况下超过了闭源GPT-4o-mini。
3. 该方法仅使用强化学习进行训练,无需蒸馏或冷启动,同时表现出对域外数据集和在线搜索场景的良好泛化能力。
4. R1-Searcher适用于基础模型和指令调整模型,有效提高了LLMs的推理能力。
研究方法
1. 两阶段强化学习(RL)
2. 检索增强生成(RAG)
3. 基于结果的奖励设计
4. RAG-based Rollout
5. Retrieval Mask-based Loss Calculation
6. Reinforce++算法的改进
实验结果
R1-Searcher在多个多跳问答基准数据集上实现了显著的性能提升,例如在HotpotQA和2Wiki上分别提高了48.22%和21.72%。此外,该方法在域外数据集(如Musique和Bamboogle)上也表现出良好的泛化能力,在Bamboogle上的性能比Search-o1提高了11.4%。
未来工作
未来工作将集中在两个方面:一是探索更复杂的数据课程,以进一步优化训练过程;二是将模型扩展到更大的规模(例如32B),以评估方法的有效性。