(Mis)Fitting: A Survey of Scaling Laws
作者: Margaret Li, Sneha Kudugunta, Luke Zettlemoyer
发布时间: 2025-02-27
来源: arxiv
研究方向: 大规模语言模型(LLM)的缩放定律研究
主要内容
本文调查了超过50篇关于缩放定律的论文,分析了不同形式、训练设置、评估和曲线拟合方法,并讨论了这些方法可能导致的不同结论。作者还讨论了关于可重复性方面的重要细节报告不足的问题,并提供了一份清单,以帮助研究人员更全面地报告缩放定律研究。
主要贡献
1. 提出了一份清单,帮助研究人员更全面地报告缩放定律研究。
2. 分析了不同方法对缩放定律拟合结果的影响。
3. 调查了超过50篇关于缩放定律的论文,并总结了关键细节。
4. 通过实验验证了不同决策对缩放定律拟合结果的影响。
5. 讨论了关于可重复性方面的重要细节报告不足的问题,并提出了改进建议。
研究方法
1. 文献调查
2. 实验分析
3. 数据拟合
4. 结果比较
5. 可重复性分析
实验结果
研究发现,缩放定律的拟合结果受到多种因素的影响,包括缩放定律的形式、训练设置、数据收集方式和拟合算法。此外,作者还发现,关于可重复性方面的重要细节报告不足,这可能导致不同研究之间的结果不一致。
未来工作
未来研究可以进一步探索以下方向: 1. 探索不同模型架构或设计决策对缩放定律拟合结果的影响。 2. 开发更有效的缩放定律拟合方法。 3. 提高缩放定律研究的可重复性。