Accelerating MoE Model Inference with Expert Sharding

作者: Oana Balmau, Anne-Marie Kermarrec, Rafael Pires, André Loureiro Espírito Santo, Martijn de Vos, Milos Vujasinovic

发布时间: 2025-03-12

来源: arxiv

研究方向: 机器学习,混合专家模型(MoE)

主要内容

本文提出了一种名为MoEShard的MoE模型推理系统,通过专家张量分片技术实现GPU间负载均衡,从而提高MoE模型推理效率。

主要贡献

1. MoEShard通过张量分片技术实现GPU间负载均衡,无需专家复制或性能分析。

2. MoEShard通过优化专家计算,减少内核启动次数,提高吞吐量。

3. 实验结果表明,MoEShard在时间到第一个标记(TTFT)方面比DeepSpeed等现有方法快6.4倍。

研究方法

1. 张量分片:将专家矩阵分割成多个片段,并在多个GPU上并行计算。

2. 专家融合:将分解的专家计算融合在一起,减少内核启动次数。

3. 稀疏矩阵乘法:使用大型稀疏矩阵乘法算法处理所有专家片段。

实验结果

实验结果表明,MoEShard在TTFT方面比DeepSpeed等现有方法快6.4倍,并且随着批量大小的增加,速度提升更加明显。

未来工作

未来可以进一步研究MoEShard在更多MoE模型和场景中的应用,并探索更高效的张量分片和专家融合策略。