Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

作者: Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal

发布时间: 2025-03-10

来源: arxiv

研究方向: 自然语言处理、机器学习、多智能体系统

主要内容

该论文提出了一种名为SYMBOLIC-MOE的混合专家模型框架,旨在通过自适应地选择和混合预训练的语言模型(LLM)来提高复杂推理任务的性能。该框架使用技能基的专家选择策略,并引入了批量推理机制,以提高效率和可扩展性。

主要贡献

1. 提出了基于技能的专家选择策略,通过评估LLM的技能来动态选择最相关的专家模型。

2. 引入了批量推理机制,以减少模型加载和卸载的开销,并提高效率。

3. 在多个基准测试中,SYMBOLIC-MOE的性能优于强LLM和多智能体方法,同时计算成本更低。

4. 通过批量推理,SYMBOLIC-MOE能够在单个GPU上集成16个模型,其时间成本与使用4个GPU的先前多智能体基线相当。

研究方法

1. 技能基的专家选择:通过评估LLM在验证集上的表现来创建模型配置文件,并根据所需技能选择最合适的专家。

2. 批量推理:根据分配的专家将实例分组,确保每个模型只加载一次。

3. 聚合器选择:基于模型聚合不同答案的能力来选择聚合器。

实验结果

在MMLU-Pro、GPQA、AIME和MedMCQA等多个基准测试中,SYMBOLIC-MOE的平均绝对改进率超过最佳多智能体基线8.15%。此外,SYMBOLIC-MOE的运行时间比多智能体基线少44%,在4个GPU上运行时,速度提高了近2倍。

未来工作

研究如何通过蒸馏技术降低推理成本,并进一步提高SYMBOLIC-MOE的效率。此外,还将研究如何利用更先进的技能推断模块来进一步提高模型性能。