Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

作者: Ling Team, Binwei Zeng, Chao Huang, Chao Zhang, Changxin Tian, Cong Chen, Dingnan Jin, Feng Yu, Feng Zhu, Feng Yuan, Fakang Wang, Gangshan Wang, Guangyao Zhai, Haitao Zhang, Huizhong Li, Jun Zhou, Jia Liu, Junpeng Fang, Junjie Ou, Jun Hu, Ji Luo, Ji Zhang, Jian Liu, Jian Sha, Jianxue Qian, Jiewei Wu, Junping Zhao, Jianguo Li, Jubao Feng, Jingchao Di, Junming Xu, Jinghua Yao, Kuan Xu, Kewei Du, Longfei Li, Lei Liang, Lu Yu, Li Tang, Lin Ju, Peng Xu, Qing Cui, Song Liu, Shicheng Li, Shun Song, Song Yan, Tengwei Cai, Tianyi Chen, Ting Guo, Ting Huang, Tao Feng, Tao Wu, Wei Wu, Xiaolu Zhang, Xueming Yang, Xin Zhao, Xiaobo Hu, Xin Lin, Yao Zhao, Yilong Wang, Yongzhen Guo, Yuanyuan Wang, Yue Yang, Yang Cao, Yuhao Fu, Yi Xiong, Yanzhe Li, Zhe Li, Zhiqiang Zhang, Ziqi Liu, Zhaoxin Huan, Zujie Wen, Zhenhang Sun, Zhuoxuan Du, Zhengyu He

发布时间: 2025-03-10

来源: arxiv

研究方向: 大规模混合专家语言模型（MoE LLM）训练与优化

主要内容

该论文主要研究如何在大规模MoE LLM训练中克服成本不效率和资源限制，通过提出创新的方法来优化模型架构、训练过程、异常处理和模型评估效率，以降低训练成本，提高资源利用率。

主要贡献

1. 提出Ling-Lite和Ling-Plus两个不同规模的MoE LLM模型，在参数规模和性能上与业界领先模型相当。

2. 提出优化模型架构和训练过程的方法，包括模型架构优化、训练框架优化和存储优化。

3. 开发了一种异常处理机制，以解决大规模训练中的硬件错误和损失异常。

4. 提出了一种模型评估效率优化方法，包括构建综合评估数据集、高效评估系统和自动化分析系统。

5. 通过知识图谱技术生成高质量的工具使用数据，并开发自适应工具学习策略，提高模型工具使用能力。

6. 通过使用低规格硬件系统进行预训练，实现了显著的成本节约，将计算成本降低了约20%。

研究方法

1. 模型架构优化：基于对密集和MoE模型扩展定律的综合分析，选择最适合可用计算资源的架构。

2. 训练框架优化：整合多个训练框架到一个统一的分布式深度学习框架中，并开发轻量级调试工具XPUTimer。

3. 存储优化：应用设备多租户和用户空间文件系统（FUSE）技术，提高大规模训练的I/O效率。

4. 异常处理：建立多级异常检测系统，实现自动检查点和恢复机制。

5. 模型评估效率：构建领域特定评估数据集，优化预测策略和提示模板，开发高效的离线推理框架Flood。

6. 工具使用能力：利用知识图谱技术和通用调用指令提取多样化的功能链，开发自适应工具学习策略。

实验结果

实验结果表明，Ling-Lite和Ling-Plus模型在性能上与业界领先模型相当，同时能够有效地在低性能设备上训练，实现了更高的资源利用率和成本效益。

未来工作

未来将继续开发Ling系列LLM，包括代码模型，并进一步优化模型架构、训练过程和评估方法，以进一步提高模型性能和资源利用率。