InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

作者: Yuchen Yan, Yongliang Shen, Yang Liu, Jin Jiang, Mengdi Zhang, Jian Shao, Yueting Zhuang

发布时间: 2025-03-11

来源: arxiv

研究方向: 大型语言模型(LLM)的推理能力与效率提升

主要内容

本文提出了一种名为INFTYTHINK的新型推理范式,旨在解决大型语言模型在长文本推理中的计算效率问题。通过将长文本推理分解为多个短推理段,并在每段之间进行总结,INFTYTHINK实现了无限制的推理深度,同时保持了有限的计算成本。

主要贡献

1. 引入了INFTYTHINK,将单一推理过程分解为迭代推理,并通过总结来降低计算复杂度。

2. 开发了一种将现有长文本推理数据集转换为迭代格式的技术。

3. 在多个模型架构上实现了显著的性能提升,同时大幅降低了计算成本,挑战了推理深度与效率之间的传统权衡。

研究方法

1. 将长文本推理分解为多个短推理段。

2. 在每段推理之间进行总结,形成迭代推理过程。

3. 开发了一种将现有长文本推理数据集转换为迭代格式的方法。

4. 在转换后的数据集上对多个基础模型进行微调。

5. 在多个推理基准上评估模型的性能。

实验结果

实验结果表明,INFTYTHINK在多个基准上均取得了显著的性能提升,同时大幅降低了计算成本。在Qwen2.5-Math-7B模型上,INFTYTHINK在MATH500、AIME24和GPQA_diamond基准上分别实现了3%、8%和6%的性能提升。

未来工作

未来研究将探索以下方向:使用强化学习技术进一步提高推理能力,将INFTYTHINK应用于其他推理任务,以及进一步优化数据转换和模型微调方法。