Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

作者: Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

发布时间: 2025-03-07

来源: arxiv

研究方向: 大型语言模型(LLM)预训练中的超参数优化

主要内容

该研究旨在通过实证研究,发现并验证LLM预训练中学习率和批处理大小的通用缩放定律。这些定律能够帮助优化超参数,提高LLM的性能。

主要贡献

1. 首次发现并证明了在固定参数数量和数据量条件下损失景观的凸性。

2. 建立了首个通用的、稳健的LLM预训练超参数缩放定律,称为Step Law。

3. 首次研究了不同预训练数据分布下最优超参数缩放定律的可迁移性和不变性。

4. 进行了前所未有的大规模实证研究,包括3700个模型配置,从零开始训练不同大小和超参数的LLM,并消耗了约100万亿个标记。

5. 发布了所有损失测量和模型检查点,以促进可重复性和进一步研究。

研究方法

1. 广泛的网格搜索实验,包括不同的学习率(LR)和批处理大小(BS)组合。

2. 使用AdamW优化器和自定义学习率调度策略。

3. 使用平滑训练损失作为验证损失的估计。

4. 使用普通最小二乘法拟合超参数缩放定律。

5. 在多种模型架构和数据分布下进行实验验证。

实验结果

Step Law在预测全局最优LLM性能方面表现出卓越的准确性,与通过穷举搜索找到的性能仅相差0.07%。该定律在模型稀疏度、训练数据分布和模型形状方面表现出显著的鲁棒性。

未来工作

未来工作将侧重于从第一原理推导出观察到的幂律关系,以提高其预测能力和泛化能力。