Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs
作者: Gaye Colakoglu, Gürkan Solmaz, Jonathan Fürst
发布时间: 2025-02-27
来源: arxiv
研究方向: 信息提取与自然语言处理
主要内容
本文探讨了使用大型语言模型(LLMs)从布局丰富的文档中提取信息的设计空间。研究重点关注数据结构、模型参与和输出细化三个核心挑战,并通过实验评估了不同设计选择的效果。
主要贡献
1. 引入了从布局丰富的文档中提取信息的设计空间,包括数据结构、模型参与和输出细化三个核心挑战。
2. 开发了用于分析OCR和基于文本的输入、块大小、少样本和CoT提示、LLM模型选择、解码、实体映射、数据清洗和基于F1分数的基准测试的布局感知IE测试套件。
3. 使用GPT-4o、GPT3.5、LLaMA3模型、GPT4-vision和SoA布局感知模型LayoutLMv3进行了全面的评估。
4. 开源了所有代码和实验结果,测试套件可供他人使用和修改以调整他们的IE管道。
研究方法
1. 实验设计:采用单因素试验(OFAT)方法和全因子试验方法来评估不同参数对信息提取性能的影响。
2. 数据集和LLMs:使用Visually Rich Document Understanding(VRDU)数据集,包括GPT-3.5、GPT-4o、LLaMA370B、GPT-4 Vision和LayoutLMv3等模型。
3. 基线配置:基于最佳实践选择基线配置。
4. 数据结构:将原始文档转换为机器可读格式,包括OCR和Markdown转换。
5. 模型参与:构建输入到LLM的组件,包括任务说明、目标模式文档块。
6. 输出细化:对LLM生成的输出进行后处理,以确保与目标模式的一致性。
7. 评估技术:实现精确匹配、子字符串匹配和模糊匹配三种评估技术。
实验结果
实验结果表明,当前通用LLMs可以轻松与SoA微调模型如LayoutLMv3竞争,并且无需任何训练数据。LLMs需要调整IE管道而不是通过数据进行微调。纯文本LLMs通过该方法实现了具有竞争力的性能,而直接结合文本和视觉特征的多模态LLMs仍然以更高的性能完成,但具有更高的成本(令牌使用和API成本)和更低的透明度。
未来工作
未来工作将包括评估更多LLMs和微调的布局感知模型,扩展评估指标,增加测试套件的步骤和因素,以及解决LLMs中的偏见问题。