ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
作者: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
发布时间: 2025-03-11
来源: arxiv
研究方向: 多模态理解与生成
主要内容
ARMOR是一种资源高效的纯自回归框架,通过微调现有的多模态大型语言模型(MLLMs)来实现理解和生成能力。它通过改进模型架构、训练数据和训练算法三个方面来提升MLLMs的性能,使其能够生成自然交织的文本-图像。
主要贡献
1. 提出了一种通过微调现有MLLMs来构建统一模型(UniMs)的框架,以资源高效的方式赋予MLLMs生成能力。
2. 引入了非对称编码器-解码器架构,以实现MLLMs的自然文本-图像交织生成,同时最小化计算开销。
3. 收集了一个高质量交织数据集,并提出了一个‘生成什么或如何生成’的培训算法,通过三个渐进式培训阶段将现有的MLLMs升级为UniMs,同时保留其理解能力。
4. 在9个基准测试中进行了广泛的实验,证明了该框架的有效性,进一步证实了完全自回归架构构建UniMs的潜力。
研究方法
1. 非对称编码器-解码器架构
2. 前向切换机制
3. ‘生成什么或如何生成’的培训算法
4. 加权损失计算方法
5. 数据收集和预处理
实验结果
ARMOR在多模态理解方面优于现有的UniMs,同时在多模态生成方面实现了可比的性能。ARMOR仅引入了7%的额外参数来微调InternVL2.5,而现有的UniMs需要从头开始进行完整参数训练。
未来工作
未来工作可能包括探索ARMOR在更多应用场景中的性能,以及进一步优化其架构和训练算法,以实现更高的效率和更好的性能。