Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning
作者: Wenkai Yang, Shuming Ma, Yankai Lin, Furu Wei
发布时间: 2025-02-27
来源: arxiv
研究方向: 大型语言模型(LLM)推理与测试时间计算优化
主要内容
本文探讨了在大型语言模型(LLM)推理中,通过增加测试时间计算(如延长链式思维(CoT)长度)对模型推理性能的影响。研究发现,过度增加CoT长度可能会对某些领域的推理性能产生负面影响,并提出了一种名为“思考最优缩放”(TOPS)的策略,以实现更有效和高效的测试时间缩放。
主要贡献
1. 揭示了过度增加CoT长度可能对LLM推理性能产生负面影响的潜在问题。
2. 提出了“思考最优缩放”(TOPS)策略,允许LLM根据问题自动决定所需的token数量。
3. 通过实验证明了TOPS策略在数学推理任务中的有效性,并实现了与现有模型相当的性能。
4. 为LLM推理能力的提升提供了新的研究方向和方法。
研究方法
1. 通过数学推理任务进行实证分析,比较不同CoT长度的模型性能。
2. 提出“思考最优缩放”(TOPS)策略,包括格式模仿、推理努力条件生成和自我改进三个阶段。
3. 使用监督微调(SFT)和直接偏好优化(DPO)等方法进行模型训练和改进。
实验结果
实验结果表明,基于Qwen2.5-32B-Instruct的TOPS模型在多个数学推理基准测试中优于其他基于蒸馏的32B o1-like模型,并达到了与QwQ-32B-Preview相当的性能。
未来工作
进一步研究如何将TOPS策略应用于其他类型的推理任务,并探索更有效的推理努力条件生成方法。