Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought

作者: Jianhao Huang, Zixuan Wang, Jason D. Lee

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理,机器学习,大型语言模型

主要内容

该研究主要探讨了在大型语言模型中引入思维链(CoT)提示时的训练动态。通过在上下文权重预测任务中分析变压器的训练过程,研究了CoT在多步推理任务中的作用。

主要贡献

1. 证明了具有CoT提示的变压器可以学习执行多步梯度下降(GD),并达到近精确恢复。

2. 证明了训练的变压器可以有效地泛化到未见过的数据。

3. 展示了循环变压器在上下文学习线性回归中的显著性能提升。

4. 实验结果表明,CoT提示可以显著提高性能。

研究方法

1. 使用一层的线性自注意力(LSA)模块作为基础架构。

2. 通过CoT提示引导模型生成多个中间推理步骤。

3. 使用梯度流分析训练动态,并证明其收敛性。

4. 通过实验验证理论结果,包括性能改进和泛化能力。

实验结果

实验结果表明,具有CoT提示的模型在性能上优于没有CoT提示的模型。此外,模型在未见过的数据上也能表现出良好的泛化能力。

未来工作

未来工作可以探索以下方向:在更复杂的任务中验证CoT的有效性,探索CoT在更广泛的应用场景中的作用,以及进一步优化CoT的效率。