LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

发布时间: 2025-02-24

来源: arxiv

研究方向: 视觉语言模型（VLM）的长期输出能力提升

主要内容

该研究旨在提升视觉语言模型在生成长文本方面的能力，特别是针对基于视觉输入的长期输出任务。研究通过构建一个新的数据集LongWriter-V-22k，以及提出了一种改进的监督微调（SFT）和直接偏好优化（DPO）方法，来扩展VLM的输出长度并提高输出质量。

1. 构建了MMLongBench-Write基准，用于评估VLM的长期输出能力。

2. 收集了SFT数据集LongWriter-V-22k，使VLM能够生成超过3000字的文本。

3. 提出了IterDPO方法，有效地提高了长输出文本的质量。

4. 在MMLongBench-Write基准上实现了优异的性能，超过了GPT-4o等大型模型。

1. 数据收集：从MMEvol数据集中选取长输出指令图像对，并构建了多图像指令和回译指令等数据。

2. 监督微调：使用LongWriter-V-22k数据集对VLM进行微调。

3. 直接偏好优化：通过IterDPO方法，利用人类反馈来改进长输出文本的质量。

4. 实验：在MMLongBench-Write基准上评估了模型性能，并与基线模型进行了比较。

实验结果表明，LongWriter-V模型在输出长度和质量方面都取得了显著的提升，超过了基线模型。特别是在长输出任务上，LongWriter-V模型表现出了更好的性能。

未来工作将探索更有效的训练策略和更大的数据集，以进一步提升VLM的长期输出能力。此外，还将研究如何更高效地获取和整合人类反馈，以进一步提高模型性能。