Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts

作者: Weigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng

发布时间: 2025-03-10

来源: arxiv

研究方向: 自然语言处理与机器学习

主要内容

本文介绍了Linear-MoE系统，该系统结合了线性序列建模（LSM）和混合专家（MoE）架构，旨在提高大规模模型的建模和训练效率。

1. 提出了一种生产级系统Linear-MoE，用于高效建模和训练大规模MoE模型。

2. 设计了建模和训练子系统，其中建模子系统支持多种LSM方法，训练子系统通过集成多种并行技术，特别是针对Linear-MoE模型的序列并行性，实现高效训练。

3. 探索了混合模型，将Linear-MoE层与标准Transformer-MoE层结合，以提高模型灵活性和性能。

4. 在两个模型系列（A0.3B-2B和A1B-7B）上进行了评估，结果表明Linear-MoE在保持竞争性能的同时实现了效率提升。

1. 线性序列建模（LSM）

2. 混合专家（MoE）架构

3. 序列并行性（SP）

4. 混合模型设计

5. 并行训练技术

实验结果表明，Linear-MoE在处理长序列时具有显著的效率优势，同时保持了与标准注意力模型相当的性能。在语言建模等下游任务中，Linear-MoE模型也表现出了良好的性能。

未来工作将集中在进一步优化系统，以支持更广泛的用例，并探索额外的混合建模策略。此外，还将研究Linear-MoE在极端大规模设置中的可扩展性，以及在不同硬件架构上并行技术的有效性。