Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning
作者: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
发布时间: 2025-03-10
来源: arxiv
研究方向: 自然语言处理、机器学习、多智能体系统
主要内容
该论文提出了一种名为SYMBOLIC-MOE的混合专家模型框架,旨在通过自适应地选择和混合预训练的语言模型(LLM)来提高复杂推理任务的性能。该框架使用技能基的专家选择策略,并引入了批量推理机制,以提高效率和可扩展性。
主要贡献
1. 提出了基于技能的专家选择策略,通过评估LLM的技能来动态选择最相关的专家模型。
2. 引入了批量推理机制,以减少模型加载和卸载的开销,并提高效率。
3. 在多个基准测试中,SYMBOLIC-MOE的性能优于强LLM和多智能体方法,同时计算成本更低。
4. 通过批量推理,SYMBOLIC-MOE能够在单个GPU上集成16个模型,其时间成本与使用4个GPU的先前多智能体基线相当。
研究方法
1. 技能基的专家选择:通过评估LLM在验证集上的表现来创建模型配置文件,并根据所需技能选择最合适的专家。
2. 批量推理:根据分配的专家将实例分组,确保每个模型只加载一次。
3. 聚合器选择:基于模型聚合不同答案的能力来选择聚合器。
实验结果
在MMLU-Pro、GPQA、AIME和MedMCQA等多个基准测试中,SYMBOLIC-MOE的平均绝对改进率超过最佳多智能体基线8.15%。此外,SYMBOLIC-MOE的运行时间比多智能体基线少44%,在4个GPU上运行时,速度提高了近2倍。
未来工作
研究如何通过蒸馏技术降低推理成本,并进一步提高SYMBOLIC-MOE的效率。此外,还将研究如何利用更先进的技能推断模块来进一步提高模型性能。