Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
作者: Yan Li, Pengfei Zheng, Shuang Chen, Zewei Xu, Yuanhao Lai, Yunfei Du, Zhengang Wang
发布时间: 2025-03-10
来源: arxiv
研究方向: 大规模语言模型(LLM)的并行推理优化
主要内容
本文研究了大规模语言模型(LLM)中MoE(Mixture of Experts)架构的并行推理优化,针对现有MoE推理框架在通信开销方面的瓶颈,提出了一种名为Speculative MoE(s-MoE)的优化方法。该方法通过预测并预调度token和expert,有效地减少了通信开销,从而提升了MoE推理的效率。
主要贡献
1. 提出了一种名为Speculative MoE(s-MoE)的优化方法,通过预测并预调度token和expert,有效地减少了通信开销。
2. s-MoE包含两个关键机制:Speculative Token Reshuffling(s-TS)和Speculative Expert Pre-grouping(s-EG),分别用于预测token的expert路由路径和预聚类expert。
3. s-MoE在DeepSpeed-MoE和SGLang等现有MoE推理框架上进行了实现,并取得了显著的性能提升。
4. 实验结果表明,s-MoE在不同数据集、模型和硬件上,相比于DeepSpeed-MoE,在TTFT、TPOT和p90-TBT延迟约束下,吞吐量分别提升了1.58x-2.34x、1.04x-2.34x和1.37x-5.98x。
研究方法
1. Speculative Token Reshuffling(s-TS)
2. Speculative Expert Pre-grouping(s-EG)
3. 概率模型预测token-expert路由路径
4. 平衡token-expert共聚类
5. 高效的内核实现、通信合并、调度去重、缓存查找表等系统级优化
实验结果
实验结果表明,s-MoE在不同数据集、模型和硬件上,相比于DeepSpeed-MoE,在TTFT、TPOT和p90-TBT延迟约束下,吞吐量分别提升了1.58x-2.34x、1.04x-2.34x和1.37x-5.98x。在DeepSeek-V2和Mixtral-8x7B等典型MoE模型上,s-MoE均取得了显著的性能提升。
未来工作
未来工作将包括将s-MoE扩展到更多LLM推理框架,以及进一步优化s-MoE的预测模型和聚类算法,以进一步提升性能。