Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs

作者: Gaye Colakoglu, Gürkan Solmaz, Jonathan Fürst

发布时间: 2025-02-27

来源: arxiv

研究方向: 信息提取与自然语言处理

主要内容

本文探讨了使用大型语言模型（LLMs）从布局丰富的文档中提取信息的设计空间。研究重点关注数据结构、模型参与和输出细化三个核心挑战，并通过实验评估了不同设计选择的效果。

主要贡献

1. 引入了从布局丰富的文档中提取信息的设计空间，包括数据结构、模型参与和输出细化三个核心挑战。

2. 开发了用于分析OCR和基于文本的输入、块大小、少样本和CoT提示、LLM模型选择、解码、实体映射、数据清洗和基于F1分数的基准测试的布局感知IE测试套件。

3. 使用GPT-4o、GPT3.5、LLaMA3模型、GPT4-vision和SoA布局感知模型LayoutLMv3进行了全面的评估。

4. 开源了所有代码和实验结果，测试套件可供他人使用和修改以调整他们的IE管道。

研究方法

1. 实验设计：采用单因素试验（OFAT）方法和全因子试验方法来评估不同参数对信息提取性能的影响。

2. 数据集和LLMs：使用Visually Rich Document Understanding（VRDU）数据集，包括GPT-3.5、GPT-4o、LLaMA370B、GPT-4 Vision和LayoutLMv3等模型。

3. 基线配置：基于最佳实践选择基线配置。

4. 数据结构：将原始文档转换为机器可读格式，包括OCR和Markdown转换。

5. 模型参与：构建输入到LLM的组件，包括任务说明、目标模式文档块。

6. 输出细化：对LLM生成的输出进行后处理，以确保与目标模式的一致性。

7. 评估技术：实现精确匹配、子字符串匹配和模糊匹配三种评估技术。

实验结果

实验结果表明，当前通用LLMs可以轻松与SoA微调模型如LayoutLMv3竞争，并且无需任何训练数据。LLMs需要调整IE管道而不是通过数据进行微调。纯文本LLMs通过该方法实现了具有竞争力的性能，而直接结合文本和视觉特征的多模态LLMs仍然以更高的性能完成，但具有更高的成本（令牌使用和API成本）和更低的透明度。

未来工作

未来工作将包括评估更多LLMs和微调的布局感知模型，扩展评估指标，增加测试套件的步骤和因素，以及解决LLMs中的偏见问题。