Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

作者: Yuming Yang, Jiang Zhong, Li Jin, Jingwang Huang, Jingpeng Gao, Qing Liu, Yang Bai, Jingyuan Zhang, Rui Jiang, Kaiwen Wei

发布时间: 2025-02-23 22:30:14

来源: arxiv

研究方向: 多模态检索增强生成(MRAG)

主要内容

本文提出了一种基于图表的MRAG任务,旨在解决现有MRAG基准测试主要关注简单图像-文本交互而忽略复杂视觉格式(如图表)的问题。为了生成高质量的评估样本,提出了CHARt-based document question-answering GEneration(CHARGE)框架,通过结构化关键点提取、跨模态验证和基于关键点的生成来生成评估数据。结合CHARGE和专家验证,构建了Chart-MRAG Bench基准,涵盖了来自现实世界文档的8个领域的4,738个问答对。

主要贡献

1. 提出了基于图表的MRAG任务,扩展了MRAG到图表场景,为评估信息密集型视觉环境中的跨模态推理引入了新的维度。

2. 提出了CHARGE框架,通过结构化的关键点提取、验证和生成流程,自动从现实世界图表文档数据中生成问答对。

3. 建立了Chart-MRAG Bench基准,这是一个针对基于图表的MRAG的人类验证基准,涵盖了8个场景、8种问题类型和4,738个问答对。

4. 引入了两个稳健的评估指标来评估MRAG质量,揭示了现有检索和生成方法在图表中心任务中的局限性。

研究方法

1. 结构化关键点提取

2. 跨模态验证

3. 基于关键点的生成

4. 专家验证

5. 多模态语言模型(MLLMs)

6. 多模态检索模型

实验结果

实验结果表明,现有的统一多模态嵌入检索方法在图表场景中表现不佳。即使有地面实况检索,最先进的MLLMs也只实现了58.19%的正确性和73.87%的覆盖率。MLLMs在基于图表的MRAG推理中表现出一致的文本-视觉模态偏差。

未来工作

未来工作将包括更先进的OCR技术以提高问答生成的准确性,以及更全面的评估,涵盖不同的模型架构和框架,以揭示发现的泛化能力和潜在改进方向。