Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
作者: Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
发布时间: 2025-02-23 22:30:53
来源: arxiv
研究方向: 视觉语言模型 (VLM) 与合成数据生成
主要内容
本文提出了一种名为 CoSyn 的框架,利用纯文本大型语言模型 (LLM) 的编码能力自动创建合成文本丰富的多模态数据。该框架通过生成代码来渲染合成图像,并利用这些代码作为文本表示来创建视觉语言指令微调数据集。
主要贡献
1. 提出了一种新的合成数据生成方法,通过代码指导生成多模态数据,提高了视觉语言模型在理解文本丰富图像方面的性能。
2. 构建了一个包含 400K 张图像和 2.7M 行视觉语言指令微调数据的大规模数据集。
3. 在七个基准测试中,训练在合成数据上的模型取得了最先进的性能,超越了 Llama 3.2、GPT-4V 和 Gemini 1.5 等开源模型。
4. CoSyn 可以生成合成指向数据,使 VLM 能够在输入图像中定位信息,展示了其在开发能够在真实环境中行动的多模态代理方面的潜力。
研究方法
1. 利用纯文本 LLM 生成代码来渲染合成图像。
2. 使用代码作为文本表示来创建视觉语言指令微调数据。
3. 设计 20 个基于 11 个渲染工具的生成管道,以生成不同类型的图像。
4. 使用人员来增强内容的多样性。
5. 在七个基准测试中评估模型性能,包括 ChartQA、DocVQA、InfographicVQA、TableVQA、AI2D、TextVQA 和 ScreenQA。
实验结果
在七个基准测试中,训练在合成数据上的模型取得了最先进的性能,超越了 Llama 3.2、GPT-4V 和 Gemini 1.5 等开源模型。此外,CoSyn 还可以生成合成指向数据,使 VLM 能够在输入图像中定位信息,展示了其在开发能够在真实环境中行动的多模态代理方面的潜力。
未来工作
提高合成数据的多样性和真实性,以更好地支持模型在高度变化或不断发展的领域中的表现。扩展合成数据的多语言支持。研究如何进一步减少数据偏差,并提高模型的可解释性。