$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

作者: Jin Peng Zhou, Kaiwen Wang, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kilian Q. Weinberger, Kianté Brantley, Wen Sun

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型(LLM)的强化学习后训练

主要内容

本文提出了一种名为 Q♯ 的基于分布式强化学习的算法,用于解决 LLM 后训练中的 KL 正则化强化学习问题。该算法通过学习最优 Q 函数来引导参考策略,从而实现 LLM 的性能提升和理论保证。

主要贡献

1. 提出了一种基于分布式强化学习的算法 Q♯,用于解决 KL 正则化强化学习问题。

2. 证明了 Q♯ 在收敛到最优策略时的方差依赖性 PAC 界限。

3. 展示了 Q♯ 在星型图环境中的后训练能力,证明了其可以纠正预训练中的偏差和捷径。

4. 在数学推理任务上进行了广泛的实验,验证了 Q♯ 在最大化奖励的同时保持较小的 KL 差异的有效性。

研究方法

1. 分布式强化学习

2. KL 正则化强化学习

3. 软 Q 函数学习

4. 分布式监督学习

5. 迭代训练

6. 数据聚合

实验结果

实验结果表明,Q♯ 在数学推理等任务中优于现有的基于策略的方法,同时保持了较小的 KL 差异。Q♯ 还能够纠正预训练中的偏差和捷径,提高了 LLM 的推理能力。

未来工作

未来工作可以包括将 Q♯ 应用于更多类型的 LLM 后训练任务,以及探索如何将 Q♯ 与其他强化学习技术相结合以进一步提高 LLM 的性能。