Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts

作者: Weigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng

发布时间: 2025-03-10

来源: arxiv

研究方向: 自然语言处理与机器学习

主要内容

本文介绍了Linear-MoE系统,该系统结合了线性序列建模(LSM)和混合专家(MoE)架构,旨在提高大规模模型的建模和训练效率。

主要贡献

1. 提出了一种生产级系统Linear-MoE,用于高效建模和训练大规模MoE模型。

2. 设计了建模和训练子系统,其中建模子系统支持多种LSM方法,训练子系统通过集成多种并行技术,特别是针对Linear-MoE模型的序列并行性,实现高效训练。

3. 探索了混合模型,将Linear-MoE层与标准Transformer-MoE层结合,以提高模型灵活性和性能。

4. 在两个模型系列(A0.3B-2B和A1B-7B)上进行了评估,结果表明Linear-MoE在保持竞争性能的同时实现了效率提升。

研究方法

1. 线性序列建模(LSM)

2. 混合专家(MoE)架构

3. 序列并行性(SP)

4. 混合模型设计

5. 并行训练技术

实验结果

实验结果表明,Linear-MoE在处理长序列时具有显著的效率优势,同时保持了与标准注意力模型相当的性能。在语言建模等下游任务中,Linear-MoE模型也表现出了良好的性能。

未来工作

未来工作将集中在进一步优化系统,以支持更广泛的用例,并探索额外的混合建模策略。此外,还将研究Linear-MoE在极端大规模设置中的可扩展性,以及在不同硬件架构上并行技术的有效性。