Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
作者: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiannan Guan, Peng Wang, Mengkang Hu, Yuhang Zhou, Te Gao, Wangxiang Che
发布时间: 2025-03-13
来源: arxiv
研究方向: 大型语言模型(LLM)的推理能力提升
主要内容
本文针对大型语言模型(LLM)在推理能力方面的提升进行了深入研究,重点探讨了长链式思维(Long CoT)在LLM推理中的应用,并对相关技术进行了全面分析。
主要贡献
1. 区分了长链式思维(Long CoT)与短链式思维(Short CoT),为理解两种思维模式提供了清晰的框架。
2. 分析了长链式思维的关键特征,包括深度推理、广泛探索和可行反思,这些特征使得LLM能够处理更复杂的任务,并产生更高效、连贯的输出。
3. 探讨了长链式思维中出现的关键现象,如过度思考、测试时扩展和“啊哈”时刻,为理解这些现象提供了深入的见解。
4. 识别了长链式思维领域的研究空白,并提出了有前景的未来研究方向,包括多模态推理、效率改进和增强知识框架。
研究方法
1. 外部行为分析:研究LLM在长链式思维中的行为,包括长链式思维的出现、推理边界、过度思考、测试时扩展、过程奖励模型(PRM)与结果奖励模型(ORM)的比较以及“啊哈”时刻等。
2. 内部机制分析:研究长链式思维相关的LLM的内部机制,包括推理内部机制和知识整合机制。
3. 深度推理:研究深度推理格式和深度推理学习,包括自然语言深度推理、结构化语言深度推理和潜在空间深度推理。
4. 可行反思:研究反馈和精炼方法,包括基于提示的精炼生成、基于SFT的精炼模仿和基于RL的精炼学习。
5. 广泛探索:研究探索扩展、内部探索和外部探索,包括垂直扩展、并行扩展、RL策略、奖励策略和外部探索策略。
实验结果
本文通过大量实验验证了长链式思维在LLM推理中的有效性,并展示了其在数学推理、编程任务和跨学科知识推理等领域的应用。
未来工作
未来研究方向包括:多模态长链式思维、多语言长链式思维、具有代理性和具身的长链式思维、高效长链式思维、知识增强长链式思维和安全长链式思维。