ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs

作者: Hao Ge, Junda Feng, Qi Huang, Fangcheng Fu, Xiaonan Nie, Lei Zuo, Haibin Lin, Bin Cui, Xin Liu

发布时间: 2025-03-03

来源: arxiv

研究方向: 大规模语言模型（LLM）训练和优化

主要内容

论文提出了一种名为ByteScale的LLM训练框架，旨在提高长序列和短序列混合训练的效率。该框架通过引入混合数据并行（HDP）策略，结合数据感知分片、动态通信和选择性卸载等优化方法，解决了现有训练框架中存在的冗余通信和不平衡计算问题。

1. 提出了混合数据并行（HDP）策略，统一了数据间和数据内分片，并采用动态网格设计。

2. 开发了通信优化器，通过数据感知分片和动态通信消除冗余通信，并通过选择性卸载进一步压缩通信成本。

3. 开发了平衡调度器，通过并行感知数据分配来减轻不平衡计算。

4. 在包含超过12,000个GPU的生产集群上进行了实验，验证了ByteScale的有效性，其性能比现有训练系统提高了高达7.89倍。

1. 混合数据并行（HDP）

2. 数据感知分片和动态通信

3. 选择性卸载

4. 平衡调度器

5. 远程数据加载器

6. Fused SoftmaxCrossEntropy

实验结果表明，ByteScale在包含超过12,000个GPU的生产集群上，在模型大小从7B到141B、上下文长度从256K到2048K的范围内，均优于现有训练系统，性能提升了高达7.89倍。

未来可以进一步研究ByteScale在更多类型的数据集和模型上的应用，以及如何将其与其他训练优化技术相结合，以进一步提高LLM训练的效率。