(Mis)Fitting: A Survey of Scaling Laws

作者: Margaret Li, Sneha Kudugunta, Luke Zettlemoyer

发布时间: 2025-02-27

来源: arxiv

研究方向: 大规模语言模型(LLM)的缩放定律研究

主要内容

本文调查了超过50篇关于缩放定律的论文,分析了不同形式、训练设置、评估和曲线拟合方法,并讨论了这些方法可能导致的不同结论。作者还讨论了关于可重复性方面的重要细节报告不足的问题,并提供了一份清单,以帮助研究人员更全面地报告缩放定律研究。

主要贡献

1. 提出了一份清单,帮助研究人员更全面地报告缩放定律研究。

2. 分析了不同方法对缩放定律拟合结果的影响。

3. 调查了超过50篇关于缩放定律的论文,并总结了关键细节。

4. 通过实验验证了不同决策对缩放定律拟合结果的影响。

5. 讨论了关于可重复性方面的重要细节报告不足的问题,并提出了改进建议。

研究方法

1. 文献调查

2. 实验分析

3. 数据拟合

4. 结果比较

5. 可重复性分析

实验结果

研究发现,缩放定律的拟合结果受到多种因素的影响,包括缩放定律的形式、训练设置、数据收集方式和拟合算法。此外,作者还发现,关于可重复性方面的重要细节报告不足,这可能导致不同研究之间的结果不一致。

未来工作

未来研究可以进一步探索以下方向: 1. 探索不同模型架构或设计决策对缩放定律拟合结果的影响。 2. 开发更有效的缩放定律拟合方法。 3. 提高缩放定律研究的可重复性。