Accelerating MoE Model Inference with Expert Sharding

作者: Oana Balmau, Anne-Marie Kermarrec, Rafael Pires, André Loureiro Espírito Santo, Martijn de Vos, Milos Vujasinovic

发布时间: 2025-03-12

来源: arxiv

研究方向: 机器学习，混合专家模型（MoE）

主要内容

本文提出了一种名为MoEShard的MoE模型推理系统，通过专家张量分片技术实现GPU间负载均衡，从而提高MoE模型推理效率。

1. MoEShard通过张量分片技术实现GPU间负载均衡，无需专家复制或性能分析。

2. MoEShard通过优化专家计算，减少内核启动次数，提高吞吐量。

3. 实验结果表明，MoEShard在时间到第一个标记（TTFT）方面比DeepSpeed等现有方法快6.4倍。

1. 张量分片：将专家矩阵分割成多个片段，并在多个GPU上并行计算。

2. 专家融合：将分解的专家计算融合在一起，减少内核启动次数。

3. 稀疏矩阵乘法：使用大型稀疏矩阵乘法算法处理所有专家片段。

实验结果表明，MoEShard在TTFT方面比DeepSpeed等现有方法快6.4倍，并且随着批量大小的增加，速度提升更加明显。

未来可以进一步研究MoEShard在更多MoE模型和场景中的应用，并探索更高效的张量分片和专家融合策略。