Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization
作者: Taishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki
发布时间: 2025-02-27
来源: arxiv
研究方向: 自然语言处理(NLP)和机器学习(ML)
主要内容
Drop-Upcycling 是一种从预训练的密集模型构建 Mixture of Experts (MoE) 模型的方法,旨在平衡知识迁移和专家专业化,以解决 MoE 模型开发中的关键挑战。
主要贡献
1. 提出了一种新的 MoE 模型构建方法 Drop-Upcycling,通过在将密集模型扩展为 MoE 模型时选择性地重新初始化专家 FFN 的参数,有效地平衡了知识迁移和专家专业化。
2. 大量的大规模实验表明,Drop-Upcycling 在长期训练场景中始终优于现有的 MoE 模型构建方法。
3. 将所有研究内容公开,包括 MoE 模型(5.9B 活跃参数)、训练数据、源代码、配置文件、模型检查点和训练日志,以促进可重复性和未来对 MoE 的研究。
研究方法
1. 专家复制:将密集模型的权重复制以创建 MoE 模型。
2. 多样性重新初始化:在每个 MoE 层中,随机选择专家参数的子集,并使用原始统计信息重新初始化。
3. 持续训练:使用标准下一令牌预测损失训练 MoE 模型,可选地结合负载平衡损失。
实验结果
Drop-Upcycling 在不同规模设置下均优于现有方法,包括小规模(8×152M)和中规模(8×1.5B)的 MoE 模型。在大型规模设置(8×3.7B)下,Drop-Upcycling 仍然表现良好。重新初始化比率 r 对模型性能有显著影响,r=0.5 时表现最佳。Drop-Upcycling 促进了有效的专家专业化,独立于负载平衡策略。
未来工作
进一步研究 MoE 模型的高级架构,如细粒度专家和共享专家,以及分析从密集模型到这些高级 MoE 架构的知识迁移过程。