The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training
作者: Jinbo Wang, Mingze Wang, Zhanpeng Zhou, Junchi Yan, Weinan E, Lei Wu
发布时间: 2025-02-27
来源: arxiv
研究方向: 自然语言处理(NLP)
主要内容
该论文研究了Transformer架构中不同模块的锐度差异,并提出了一种名为Blockwise Learning Rate(BLR)的策略,旨在通过调整每个模块的学习率来加速大型语言模型(LLM)的预训练过程。
主要贡献
1. 揭示了Transformer中不同模块之间的锐度差异,并提出了Blockwise LR策略。
2. 将Blockwise LR集成到AdamW和Adam-mini优化器中,实现了显著的加速效果。
3. 在GPT-2和LLaMA模型上展示了BLR的有效性,模型大小从0.12B到1.1B,数据集包括OpenWebText和MiniPile。
4. 将BLR集成到Adam-mini中,实现了加速和内存节省的双重效果。
研究方法
1. Hessian矩阵分析
2. Blockwise LR策略
3. AdamW和Adam-mini优化器
4. 实验评估
实验结果
实验结果表明,使用BLR策略的AdamW和Adam-mini在LLM预训练任务中均取得了显著的加速效果,终端损失更低,训练速度提升了近2倍。
未来工作
将BLR策略应用于非LLM任务,例如计算机视觉,并与其他优化器结合使用,如Muon和Mamba。此外,研究其他自适应优化策略,如Blockwise weight decay和gradient clipping,以进一步提高训练效率和性能。