Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration
作者: Dylan J. Foster, Zakaria Mhammedi, Dhruv Rohatgi
发布时间: 2025-03-11
来源: arxiv
研究方向: 自然语言处理、强化学习、生成模型
主要内容
本文研究了在强化学习中利用预训练语言模型进行高效探索的方法,重点关注线性 softmax 政策参数化,并提出了新的算法和理论界限,以阐明预训练模型在计算高效学习中的关键作用。
主要贡献
1. 提出了新的算法 SpannerSampling,该算法在拥有足够覆盖率的预训练模型上实现了最优数据效率和计算效率。
2. 证明了训练时干预(例如对 DPO 目标的修改)无法在多项式时间内实现类似的保证。
3. 展示了多轮探索的计算机效益,通过在每一步(例如标记或子序列)级别进行探索,可以进一步提高运行时间。
4. 为语言模型探索的计算机理论奠定了基础,并为未来的研究提供了方向。
研究方法
1. 采样预言机框架
2. 线性 softmax 政策参数化
3. SpannerSampling 算法
4. 多轮探索(MTSS 算法)
5. KL 正则化
6. 动态规划
实验结果
本文提出的算法在理论上证明了其效率和有效性,并通过与现有方法的比较,展示了其在实际应用中的优势。
未来工作
未来的工作将包括扩展算法以支持更复杂的政策参数化,探索更有效的探索方法,以及将研究成果应用于更广泛的领域。