ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs

作者: Hao Ge, Junda Feng, Qi Huang, Fangcheng Fu, Xiaonan Nie, Lei Zuo, Haibin Lin, Bin Cui, Xin Liu

发布时间: 2025-03-03

来源: arxiv

研究方向: 大规模语言模型(LLM)训练和优化

主要内容

论文提出了一种名为ByteScale的LLM训练框架,旨在提高长序列和短序列混合训练的效率。该框架通过引入混合数据并行(HDP)策略,结合数据感知分片、动态通信和选择性卸载等优化方法,解决了现有训练框架中存在的冗余通信和不平衡计算问题。

主要贡献

1. 提出了混合数据并行(HDP)策略,统一了数据间和数据内分片,并采用动态网格设计。

2. 开发了通信优化器,通过数据感知分片和动态通信消除冗余通信,并通过选择性卸载进一步压缩通信成本。

3. 开发了平衡调度器,通过并行感知数据分配来减轻不平衡计算。

4. 在包含超过12,000个GPU的生产集群上进行了实验,验证了ByteScale的有效性,其性能比现有训练系统提高了高达7.89倍。

研究方法

1. 混合数据并行(HDP)

2. 数据感知分片和动态通信

3. 选择性卸载

4. 平衡调度器

5. 远程数据加载器

6. Fused SoftmaxCrossEntropy

实验结果

实验结果表明,ByteScale在包含超过12,000个GPU的生产集群上,在模型大小从7B到141B、上下文长度从256K到2048K的范围内,均优于现有训练系统,性能提升了高达7.89倍。

未来工作

未来可以进一步研究ByteScale在更多类型的数据集和模型上的应用,以及如何将其与其他训练优化技术相结合,以进一步提高LLM训练的效率。