ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

作者: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao

发布时间: 2025-02-27

来源: arxiv

研究方向: 视觉文档检索增强生成(Visual Document Retrieval-Augmented Generation, RAG)

主要内容

本文提出了ViDoRAG,一种针对视觉丰富文档的多代理RAG框架,旨在解决现有RAG方法在视觉文档检索、理解和推理中的局限性。通过引入ViDoSeek数据集,评估了RAG在复杂推理任务中的表现,并提出了一种基于高斯混合模型(GMM)的多模态混合检索策略和迭代推理的多代理生成框架。

主要贡献

1. 提出了ViDoSeek数据集,专门用于评估视觉丰富文档的检索-推理-回答任务,适用于大规模文档集合的RAG系统评估。

2. 提出了ViDoRAG框架,采用多代理、从粗到细的检索增强生成方法,通过动态迭代推理提升生成模型的噪声鲁棒性。

3. 引入了基于GMM的多模态混合检索策略,有效整合了视觉和文本特征,提升了检索效率。

4. 通过大量实验验证了ViDoRAG的有效性,显著优于现有方法,在ViDoSeek基准上取得了超过10%的性能提升。

研究方法

1. 多模态混合检索:结合视觉和文本特征,使用GMM动态调整检索结果的分布。

2. 多代理生成框架:包括Seeker Agent、Inspector Agent和Answer Agent,通过迭代推理从多尺度视角生成答案。

3. 动态检索:基于GMM的自适应召回策略,自动确定每个查询的最优检索数量。

4. 迭代推理:通过Seeker和Inspector的交互,逐步优化答案生成过程。

实验结果

ViDoRAG在ViDoSeek数据集上的实验结果表明,其在单跳和多跳推理任务中均显著优于现有方法,尤其是在复杂推理任务中表现突出。与传统的TextRAG和VisualRAG相比,ViDoRAG在准确性和召回率上均有显著提升,尤其是在多模态混合检索和动态召回策略的帮助下,减少了不必要的计算开销。

未来工作

未来的工作将集中在进一步优化框架的效率,同时保持高准确性,并探索其在教育和金融等领域的实际应用。此外,还将研究如何减少模型生成中的幻觉问题,并进一步扩展框架以处理更多样化的文档类型。