Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model
作者: Wenke Huang, Jian Liang, Xianda Guo, Yiyang Fang, Guancheng Wan, Xuankun Rong, Chi Wen, Zekun Shi, Qingyun Li, Didi Zhu, Yanbiao Ma, Ke Liang, Bin Yang, He Li, Jiawei Shao, Mang Ye, Bo Du
发布时间: 2025-03-07
来源: arxiv
研究方向: 多模态大型语言模型(MLLM)的下游微调
主要内容
本文系统地回顾了近年来MLLM微调方法的最新进展,并将其分类为三种范式:选择性微调、添加性微调和重参数化微调。此外,本文在流行的MLLM架构和多样化的下游任务上对这些微调策略进行了基准测试,以建立标准化的评估分析和系统微调原则。最后,本文强调了该领域的一些开放挑战,并提出了未来的研究方向。
主要贡献
1. 对MLLM微调中的专业化和稳定化行为进行了全面和及时的概述。
2. 对现有MLLM微调方法进行了深入的分析,并提供了对现有方法的优缺点分析。
3. 对各种下游场景中的不同微调解决方案进行了广泛的基准分析。
4. 讨论了未来研究方向,以帮助社区重新思考和改进当前的多模态大型语言模型微调设计。
5. 提供了一个公共存储库,以跟踪该领域的最新发展。
研究方法
1. 选择性微调:选择与下游任务相关的参数子集进行微调。
2. 添加性微调:在输入空间或内部架构中添加额外的可训练模块。
3. 重参数化微调:使用低秩矩阵技术分解原始参数权重。
4. 基准测试:在多个下游数据集上比较不同的微调方法。
5. 实验分析:评估微调方法的有效性和影响。
实验结果
实验结果表明,全层选择性微调(Full-ST)在下游任务中实现了最高的任务专业化能力。然而,对于开放响应任务,LoRA和Full-ST都存在严重的过拟合问题,导致性能下降。相比之下,仅对顶层和最后一层进行选择性微调可以增强专业化能力,同时有效减轻过拟合。此外,LoRA和顶层微调在保持上游泛化能力方面表现出色。
未来工作
未来研究方向包括联邦MLLM微调、大型和小型MLLM的协作以及针对不同计算环境的多尺度部署。