LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
发布时间: 2025-02-24
来源: arxiv
研究方向: 视觉语言模型(VLM)的长期输出能力提升
主要内容
该研究旨在提升视觉语言模型在生成长文本方面的能力,特别是针对基于视觉输入的长期输出任务。研究通过构建一个新的数据集LongWriter-V-22k,以及提出了一种改进的监督微调(SFT)和直接偏好优化(DPO)方法,来扩展VLM的输出长度并提高输出质量。
主要贡献
1. 构建了MMLongBench-Write基准,用于评估VLM的长期输出能力。
2. 收集了SFT数据集LongWriter-V-22k,使VLM能够生成超过3000字的文本。
3. 提出了IterDPO方法,有效地提高了长输出文本的质量。
4. 在MMLongBench-Write基准上实现了优异的性能,超过了GPT-4o等大型模型。
研究方法
1. 数据收集:从MMEvol数据集中选取长输出指令图像对,并构建了多图像指令和回译指令等数据。
2. 监督微调:使用LongWriter-V-22k数据集对VLM进行微调。
3. 直接偏好优化:通过IterDPO方法,利用人类反馈来改进长输出文本的质量。
4. 实验:在MMLongBench-Write基准上评估了模型性能,并与基线模型进行了比较。
实验结果
实验结果表明,LongWriter-V模型在输出长度和质量方面都取得了显著的提升,超过了基线模型。特别是在长输出任务上,LongWriter-V模型表现出了更好的性能。
未来工作
未来工作将探索更有效的训练策略和更大的数据集,以进一步提升VLM的长期输出能力。此外,还将研究如何更高效地获取和整合人类反馈,以进一步提高模型性能。