LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

发布时间: 2025-02-24

来源: arxiv

研究方向: 视觉语言模型(VLM)的长期输出能力提升

主要内容

该研究旨在提升视觉语言模型在生成长文本方面的能力,特别是针对基于视觉输入的长期输出任务。研究通过构建一个新的数据集LongWriter-V-22k,以及提出了一种改进的监督微调(SFT)和直接偏好优化(DPO)方法,来扩展VLM的输出长度并提高输出质量。

主要贡献

1. 构建了MMLongBench-Write基准,用于评估VLM的长期输出能力。

2. 收集了SFT数据集LongWriter-V-22k,使VLM能够生成超过3000字的文本。

3. 提出了IterDPO方法,有效地提高了长输出文本的质量。

4. 在MMLongBench-Write基准上实现了优异的性能,超过了GPT-4o等大型模型。

研究方法

1. 数据收集:从MMEvol数据集中选取长输出指令图像对,并构建了多图像指令和回译指令等数据。

2. 监督微调:使用LongWriter-V-22k数据集对VLM进行微调。

3. 直接偏好优化:通过IterDPO方法,利用人类反馈来改进长输出文本的质量。

4. 实验:在MMLongBench-Write基准上评估了模型性能,并与基线模型进行了比较。

实验结果

实验结果表明,LongWriter-V模型在输出长度和质量方面都取得了显著的提升,超过了基线模型。特别是在长输出任务上,LongWriter-V模型表现出了更好的性能。

未来工作

未来工作将探索更有效的训练策略和更大的数据集,以进一步提升VLM的长期输出能力。此外,还将研究如何更高效地获取和整合人类反馈,以进一步提高模型性能。