Astrea: A MOE-based Visual Understanding Model with Progressive Alignment

作者: Xiaoda Yang, JunYu Lu, Hongshun Qiu, Sijing Li, Hao Li, Shengpeng Ji, Xudong Tang, Jiayang Xu, Jiaqi Duan, Ziyue Jiang, Cong Lin, Sihang Cai, Zejian Xie, Zhuoyang Song, Songxin Zhang

发布时间: 2025-03-14

来源: arxiv

研究方向: 多模态理解与视觉语言模型

主要内容

本文提出了一种名为Astrea的基于MoE架构的视觉语言模型,旨在解决多任务异质性和模型泛化能力之间的平衡问题。Astrea通过引入渐进式预对齐策略、异构专家协作机制和动态知识融合策略,实现了视觉和语言信息的有效整合。

主要贡献

1. 提出了Astrea,一种MoE视觉语言模型,用于解决多任务异质性和模型泛化能力之间的平衡问题。

2. 引入了渐进式预对齐策略,设计了从粗粒度到细粒度的训练方案,并利用残差连接有效地防止知识遗忘,显著提高了模型性能。

3. 提出了一种简单高效的动态特征融合方法,并进一步使用动量对比学习增强了模型性能。

4. 在多个领域的基准测试中,模型实现了最先进的性能,并将开源代码。

研究方法

1. 渐进式预对齐策略:从粗粒度到细粒度地处理视觉信息,逐步建立对整体视觉信息的全局理解,然后逐步捕获更详细的特征。

2. 残差连接:在预对齐阶段,通过引入残差连接来防止模型在训练新目标时忘记之前任务学习到的知识。

3. 动态知识融合:在下游训练中引入动态知识融合模块,自适应地调整专家之间的信息交换强度,并通过概率激活随机残差连接来保持知识连续性。

4. 动量对比学习:利用动量对比学习来捕获长距离依赖关系,并结合自适应权重分配器来实时调整专家的贡献。

5. 动态权重分配:通过动态分配权重到不同的专家模块,根据数据的特征确定每个专家对最终输出的贡献。

实验结果

在12个基准任务中,包括VQA、图像描述和跨模态检索,Astrea显著优于现有最先进模型,平均性能提升+4.7%。实验结果表明,通过渐进式预对齐策略,VLM可以克服任务异质性的限制,为开发通用多模态智能体提供了新的方法。

未来工作

未来工作将集中在进一步优化模型性能,提高模型的鲁棒性和泛化能力,以及探索更多应用场景。