Accelerating MoE Model Inference with Expert Sharding
作者: Oana Balmau, Anne-Marie Kermarrec, Rafael Pires, André Loureiro Espírito Santo, Martijn de Vos, Milos Vujasinovic
发布时间: 2025-03-12
来源: arxiv
研究方向: 机器学习,混合专家模型(MoE)
主要内容
本文提出了一种名为MoEShard的MoE模型推理系统,通过专家张量分片技术实现GPU间负载均衡,从而提高MoE模型推理效率。
主要贡献
1. MoEShard通过张量分片技术实现GPU间负载均衡,无需专家复制或性能分析。
2. MoEShard通过优化专家计算,减少内核启动次数,提高吞吐量。
3. 实验结果表明,MoEShard在时间到第一个标记(TTFT)方面比DeepSpeed等现有方法快6.4倍。
研究方法
1. 张量分片:将专家矩阵分割成多个片段,并在多个GPU上并行计算。
2. 专家融合:将分解的专家计算融合在一起,减少内核启动次数。
3. 稀疏矩阵乘法:使用大型稀疏矩阵乘法算法处理所有专家片段。
实验结果
实验结果表明,MoEShard在TTFT方面比DeepSpeed等现有方法快6.4倍,并且随着批量大小的增加,速度提升更加明显。
未来工作
未来可以进一步研究MoEShard在更多MoE模型和场景中的应用,并探索更高效的张量分片和专家融合策略。