MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark
作者: Shengkun Ma, Hao Peng, Lei Hou, Juanzi Li
发布时间: 2025-03-11
来源: arxiv
研究方向: 机器阅读理解(Machine Reading Comprehension, MRC)
主要内容
本文提出了一种新的MRC基准MRCEval,旨在全面评估大型语言模型(LLMs)的阅读理解能力。该基准基于一个新颖的分类法,将MRC技能分为三个层级:上下文理解、外部知识理解和推理。MRCEval包含13个不同的技能,共计2.1K个高质量的多选题。
主要贡献
1. 提出了一个新颖的MRC分类法,将MRC技能分为三个层级:上下文理解、外部知识理解和推理。
2. 构建了MRCEval基准,该基准全面评估LLMs的阅读理解能力。
3. 利用LLMs作为样本生成器和选择裁判,以生成高质量和具有挑战性的样本。
4. 对28个广泛使用的开源和专有模型进行了广泛评估,发现MRC在LLMs时代仍然具有挑战性。
研究方法
1. 提出一个新颖的分类法,将MRC技能分为三个层级:上下文理解、外部知识理解和推理。
2. 构建包含13个不同技能的MRCEval基准。
3. 利用GPT-4o作为样本生成器,生成高质量和具有挑战性的样本。
4. 采用投票策略,使用三个轻量级LLMs作为裁判,选择具有挑战性的样本。
5. 对28个LLMs模型进行评估,并报告准确率作为评估指标。
实验结果
评估结果表明,LLMs在事实提取方面表现良好,但在上下文忠实方面表现不佳。外部知识理解仍然是一个挑战,尽管模型规模增大,但对常识和世界知识的理解和应用能力提升有限。大型模型在推理任务中表现良好,特别是在复杂的多跳推理任务中。
未来工作
进一步研究如何提高LLMs在上下文忠实和外部知识理解方面的能力,以及如何构建更全面的MRC基准,以更好地评估LLMs的阅读理解能力。