Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
作者: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiannan Guan, Peng Wang, Mengkang Hu, Yuhang Zhou, Te Gao, Wanxiang Che
发布时间: 2025-03-14
来源: arxiv
研究方向: 长链式思维(Long CoT)在大型语言模型(LLM)中的应用与评估
主要内容
本文对长链式思维(Long CoT)在大型语言模型(LLM)中的应用进行了全面的调查和分析,包括其与传统短链式思维(Short CoT)的区别、关键特征、关键现象、分析评估方法以及未来研究方向。
主要贡献
1. 系统地区分了长链式思维(Long CoT)和短链式思维(Short CoT),为理解两者提供了清晰的框架。
2. 深入分析了长链式思维(Long CoT)的关键特征,包括深度推理、广泛探索和可行反思,并阐述了这些特征如何使模型能够处理更复杂的任务并产生更高效、连贯的结果。
3. 系统地探讨了与长链式思维(Long CoT)相关的主要现象,如长链式思维(Long CoT)的出现、过度思考现象、测试时间缩放和“啊哈”时刻,并提供了有价值的见解。
4. 确定了长链式思维(Long CoT)领域的重大研究差距,并突出了有前景的未来方向,包括多模态推理、效率改进和增强知识框架的集成。
研究方法
1. 对现有文献进行了全面综述,分析了长链式思维(Long CoT)的研究现状和发展趋势。
2. 提出了一个新颖的分类法,将现有的推理范式分为不同的类别。
3. 深入分析了长链式思维(Long CoT)的关键特征,包括深度推理、广泛探索和可行反思。
4. 系统地探讨了与长链式思维(Long CoT)相关的主要现象,如长链式思维(Long CoT)的出现、过度思考现象、测试时间缩放和“啊哈”时刻。
5. 提出了评估长链式思维(Long CoT)模型性能的指标和方法,包括准确率、Pass@k、Cons@k、排名和最佳选择等。
6. 介绍了评估长链式思维(Long CoT)模型性能的基准,包括数学推理基准、编码基准、常识谜题基准、科学推理基准和医学推理基准等。
实验结果
本文对长链式思维(Long CoT)模型进行了全面的评估,结果表明,与短链式思维(Short CoT)相比,长链式思维(Long CoT)模型在处理复杂任务时具有更高的准确率和更低的错误率。
未来工作
未来研究应重点关注以下方向: - 多模态长链式思维(Multimodal Long CoT):将长链式思维(Long CoT)扩展到多模态输入和输出,以处理更复杂的任务。 - 多语言长链式思维(Multilingual Long CoT):支持跨语言应用,以使长链式思维(Long CoT)模型能够处理多种语言的任务。 - 具有代理和具身的长链式思维(Agentic & Embodied Long CoT):通过具身系统提高长链式思维(Long CoT)模型与现实世界的交互能力。 - 高效长链式思维(Efficient Long CoT):提高推理速度,以满足实时应用的需求。 - 知识增强长链式思维(Knowledge-Augmented Long CoT):通过外部知识增强推理能力。 - 长链式思维(Long CoT)的安全性:确保长链式思维(Long CoT)模型的可靠性和安全性。