Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
作者: Weigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng
发布时间: 2025-03-10
来源: arxiv
研究方向: 自然语言处理与机器学习
主要内容
本文介绍了Linear-MoE系统,该系统结合了线性序列建模(LSM)和混合专家(MoE)架构,旨在提高大规模模型的建模和训练效率。
主要贡献
1. 提出了一种生产级系统Linear-MoE,用于高效建模和训练大规模MoE模型。
2. 设计了建模和训练子系统,其中建模子系统支持多种LSM方法,训练子系统通过集成多种并行技术,特别是针对Linear-MoE模型的序列并行性,实现高效训练。
3. 探索了混合模型,将Linear-MoE层与标准Transformer-MoE层结合,以提高模型灵活性和性能。
4. 在两个模型系列(A0.3B-2B和A1B-7B)上进行了评估,结果表明Linear-MoE在保持竞争性能的同时实现了效率提升。
研究方法
1. 线性序列建模(LSM)
2. 混合专家(MoE)架构
3. 序列并行性(SP)
4. 混合模型设计
5. 并行训练技术
实验结果
实验结果表明,Linear-MoE在处理长序列时具有显著的效率优势,同时保持了与标准注意力模型相当的性能。在语言建模等下游任务中,Linear-MoE模型也表现出了良好的性能。
未来工作
未来工作将集中在进一步优化系统,以支持更广泛的用例,并探索额外的混合建模策略。此外,还将研究Linear-MoE在极端大规模设置中的可扩展性,以及在不同硬件架构上并行技术的有效性。