Assessing the Macro and Micro Effects of Random Seeds on Fine-Tuning Large Language Models

作者: Hao Zhou, Guergana Savova, Lijing Wang

发布时间: 2025-03-11

来源: arxiv

研究方向: 自然语言处理（NLP）

主要内容

本研究探讨了随机种子在微调和评估大型语言模型（LLM）性能中的影响，通过分析宏观数据和微观数据，揭示了随机种子对模型性能的潜在影响。

1. 系统地评估了随机种子对LLM的影响，包括宏观数据和微观数据。

2. 引入了新的指标——一致性，用于衡量单个预测的稳定性。

3. 揭示了在宏观数据和微观数据中存在的显著差异，强调了在微调过程中考虑随机种子的重要性。

4. 提出了将随机种子敏感性纳入基准测试和报告的建议，以提高结果的可靠性和可重复性。

1. 使用GLUE和SuperGLUE基准测试来评估LLM的性能。

2. 计算宏观数据的方差，以量化性能波动。

3. 引入一致性指标，以衡量单个预测的稳定性。

4. 通过实验验证了随机种子对LLM性能的影响。

5. 分析了训练数据量对随机种子敏感性的影响。

实验结果表明，随机种子对LLM的性能有显著影响，无论是在宏观数据还是在微观数据中。一致性指标显示，不同随机种子下，单个预测的稳定性存在显著差异。

未来研究可以扩展到更大规模的语言模型，并使用更多样化的NLP基准数据集。此外，可以进一步研究如何通过改进模型设计和评估实践来减轻随机种子的影响。