DataMan: Data Manager for Pre-training Large Language Models
作者: Ru Peng, Kexin Yang, Yawen Zeng, Junyang Lin, Dayiheng Liu, Junbo Zhao
发布时间: 2025-02-27
来源: arxiv
研究方向: 大规模语言模型(LLM)预训练数据管理
主要内容
本文研究了如何选择预训练数据以提升大规模语言模型(LLM)的性能。作者提出了DataMan,一个能够进行质量评分和领域识别的数据管理器,通过数据采样策略优化LLM预训练。
主要贡献
1. 基于LLM性能与困惑度(PPL)的关系,提出了一种“反向思考”的方法,让LLM自我识别哪些标准有利于其性能。
2. 开发了DataMan,一个能够进行综合质量评分和领域识别的数据管理器,并使用数据采样策略来优化LLM预训练。
3. 通过实验验证了DataMan的有效性,证明了其在上下文学习(ICL)、困惑度和指令遵循能力方面的显著提升。
研究方法
1. “反向思考”方法:通过分析困惑度异常的文本,推导出14个质量标准。
2. 数据标注:使用DataMan对447B个token的预训练语料库进行标注。
3. 数据采样:使用DataMan选择30B个token来训练1.3B参数的语言模型。
4. 实验评估:通过10个下游任务评估语言模型的表现。
实验结果
实验结果表明,使用DataMan选择的数据在上下文学习(ICL)、困惑度和指令遵循能力方面均优于现有方法。其中,基于Overall Score l=5的模型性能最佳,甚至超过了使用50%更多数据通过均匀采样训练的模型。
未来工作
未来工作将包括解决DataMan的局限性,例如模型偏差、误分类问题以及使用更大规模的语料库。