L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

作者: Pranjal Aggarwal, Sean Welleck

发布时间: 2025-03-07

来源: arxiv

研究方向: 自然语言处理与机器学习

主要内容

该研究旨在通过控制推理语言模型(LLM)的推理长度,实现更高效的计算和更精确的性能。研究者提出了Length Controlled Policy Optimization(LCPO)方法,通过强化学习训练模型,使其在满足用户指定长度约束的同时,优化推理性能。

主要贡献

1. 提出了LCPO方法,实现了对LLM推理长度的精确控制。

2. 训练了L1模型,该模型在固定token预算下实现了最先进的推理准确率。

3. 证明了LCPO训练的模型在数学推理等标准任务上具有优异的性能。

4. 展示了LCPO训练的模型在逻辑推理和MMLU等通用知识基准测试中的泛化能力。

5. 证明了LCPO训练的模型在相同token预算下,可以显著优于GPT-4o等大型模型。

研究方法

1. 强化学习

2. Length Controlled Policy Optimization(LCPO)

3. 目标长度指令

4. 奖励函数设计

实验结果

实验结果表明,L1模型在数学推理等基准测试中,在固定token预算下实现了最先进的推理准确率。此外,LCPO训练的模型在逻辑推理和MMLU等通用知识基准测试中表现出良好的泛化能力。在相同token预算下,L1模型显著优于GPT-4o等大型模型。

未来工作

未来研究可以探索以下方向:1. 将LCPO方法应用于其他类型的LLM;2. 优化LCPO训练过程,提高模型性能;3. 研究如何结合LCPO和其他技术,进一步提高LLM的推理效率和准确性。