ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs
作者: Hao Ge, Junda Feng, Qi Huang, Fangcheng Fu, Xiaonan Nie, Lei Zuo, Haibin Lin, Bin Cui, Xin Liu
发布时间: 2025-03-03
来源: arxiv
研究方向: 大规模语言模型(LLM)训练和优化
主要内容
论文提出了一种名为ByteScale的LLM训练框架,旨在提高长序列和短序列混合训练的效率。该框架通过引入混合数据并行(HDP)策略,结合数据感知分片、动态通信和选择性卸载等优化方法,解决了现有训练框架中存在的冗余通信和不平衡计算问题。
主要贡献
1. 提出了混合数据并行(HDP)策略,统一了数据间和数据内分片,并采用动态网格设计。
2. 开发了通信优化器,通过数据感知分片和动态通信消除冗余通信,并通过选择性卸载进一步压缩通信成本。
3. 开发了平衡调度器,通过并行感知数据分配来减轻不平衡计算。
4. 在包含超过12,000个GPU的生产集群上进行了实验,验证了ByteScale的有效性,其性能比现有训练系统提高了高达7.89倍。
研究方法
1. 混合数据并行(HDP)
2. 数据感知分片和动态通信
3. 选择性卸载
4. 平衡调度器
5. 远程数据加载器
6. Fused SoftmaxCrossEntropy
实验结果
实验结果表明,ByteScale在包含超过12,000个GPU的生产集群上,在模型大小从7B到141B、上下文长度从256K到2048K的范围内,均优于现有训练系统,性能提升了高达7.89倍。
未来工作
未来可以进一步研究ByteScale在更多类型的数据集和模型上的应用,以及如何将其与其他训练优化技术相结合,以进一步提高LLM训练的效率。