Process-based Self-Rewarding Language Models

作者: Shimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

发布时间: 2025-03-07

来源: arxiv

研究方向: 自然语言处理与人工智能

主要内容

本文提出了一种基于过程的自我奖励语言模型（Process-based Self-Rewarding Language Models），旨在解决现有自我奖励方法在数学推理场景中的不足，并提升大型语言模型（LLMs）在数学推理任务上的表现。

1. 提出了一种基于过程的自我奖励语言模型，通过引入长思考推理、逐步LLM作为裁判和逐步偏好优化，有效提升了LLMs在数学推理任务上的表现。

2. 设计了逐步LLM作为裁判的提示，用于逐步成对比较，以实现更合适和稳定的判断。

3. 通过实验验证了该方法在不同参数规模的模型和多个数学推理基准测试中的有效性，证明了其在提升LLMs数学推理能力方面的潜力。

1. 自我奖励：LLMs通过奖励自己的输出生成训练数据。

2. 长思考推理：LLMs进行逐步的复杂推理。

3. LLM作为裁判：LLMs评估单个推理步骤的质量。

4. 逐步偏好优化：对模型进行逐步偏好优化训练。

5. 直接偏好优化（DPO）：用于模型偏好优化训练的算法。

6. 蒙特卡洛树搜索（MCTS）：用于生成评估数据对。

7. 温度采样：用于生成推理和偏好数据。

8. 贪婪搜索：用于模型评估。

实验结果表明，基于过程的自我奖励语言模型在多个数学推理基准测试中取得了显著的性能提升，证明了其在提升LLMs数学推理能力方面的潜力。模型在数学推理和LLM作为裁判的能力上均有所提高，且在不同参数规模的模型上均有效。

未来工作将集中在以下几个方面：1）探索更多高质量的初始化数据，以进一步提高模型性能；2）研究更多迭代次数对模型性能的影响；3）将该方法应用于其他领域，如代码生成、机器翻译等。