Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling

作者: Yan Li, Pengfei Zheng, Shuang Chen, Zewei Xu, Yuanhao Lai, Yunfei Du, Zhengang Wang

发布时间: 2025-03-10

来源: arxiv

研究方向: 大规模语言模型（LLM）的并行推理优化

主要内容

本文研究了大规模语言模型（LLM）中MoE（Mixture of Experts）架构的并行推理优化，针对现有MoE推理框架在通信开销方面的瓶颈，提出了一种名为Speculative MoE（s-MoE）的优化方法。该方法通过预测并预调度token和expert，有效地减少了通信开销，从而提升了MoE推理的效率。

主要贡献

1. 提出了一种名为Speculative MoE（s-MoE）的优化方法，通过预测并预调度token和expert，有效地减少了通信开销。

2. s-MoE包含两个关键机制：Speculative Token Reshuffling（s-TS）和Speculative Expert Pre-grouping（s-EG），分别用于预测token的expert路由路径和预聚类expert。

3. s-MoE在DeepSpeed-MoE和SGLang等现有MoE推理框架上进行了实现，并取得了显著的性能提升。

4. 实验结果表明，s-MoE在不同数据集、模型和硬件上，相比于DeepSpeed-MoE，在TTFT、TPOT和p90-TBT延迟约束下，吞吐量分别提升了1.58x-2.34x、1.04x-2.34x和1.37x-5.98x。

研究方法

1. Speculative Token Reshuffling（s-TS）

2. Speculative Expert Pre-grouping（s-EG）

3. 概率模型预测token-expert路由路径

4. 平衡token-expert共聚类

5. 高效的内核实现、通信合并、调度去重、缓存查找表等系统级优化

实验结果

实验结果表明，s-MoE在不同数据集、模型和硬件上，相比于DeepSpeed-MoE，在TTFT、TPOT和p90-TBT延迟约束下，吞吐量分别提升了1.58x-2.34x、1.04x-2.34x和1.37x-5.98x。在DeepSeek-V2和Mixtral-8x7B等典型MoE模型上，s-MoE均取得了显著的性能提升。

未来工作

未来工作将包括将s-MoE扩展到更多LLM推理框架，以及进一步优化s-MoE的预测模型和聚类算法，以进一步提升性能。