MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark

作者: Shengkun Ma, Hao Peng, Lei Hou, Juanzi Li

发布时间: 2025-03-11

来源: arxiv

研究方向: 机器阅读理解(Machine Reading Comprehension, MRC)

主要内容

本文提出了一种新的MRC基准MRCEval,旨在全面评估大型语言模型(LLMs)的阅读理解能力。该基准基于一个新颖的分类法,将MRC技能分为三个层级:上下文理解、外部知识理解和推理。MRCEval包含13个不同的技能,共计2.1K个高质量的多选题。

主要贡献

1. 提出了一个新颖的MRC分类法,将MRC技能分为三个层级:上下文理解、外部知识理解和推理。

2. 构建了MRCEval基准,该基准全面评估LLMs的阅读理解能力。

3. 利用LLMs作为样本生成器和选择裁判,以生成高质量和具有挑战性的样本。

4. 对28个广泛使用的开源和专有模型进行了广泛评估,发现MRC在LLMs时代仍然具有挑战性。

研究方法

1. 提出一个新颖的分类法,将MRC技能分为三个层级:上下文理解、外部知识理解和推理。

2. 构建包含13个不同技能的MRCEval基准。

3. 利用GPT-4o作为样本生成器,生成高质量和具有挑战性的样本。

4. 采用投票策略,使用三个轻量级LLMs作为裁判,选择具有挑战性的样本。

5. 对28个LLMs模型进行评估,并报告准确率作为评估指标。

实验结果

评估结果表明,LLMs在事实提取方面表现良好,但在上下文忠实方面表现不佳。外部知识理解仍然是一个挑战,尽管模型规模增大,但对常识和世界知识的理解和应用能力提升有限。大型模型在推理任务中表现良好,特别是在复杂的多跳推理任务中。

未来工作

进一步研究如何提高LLMs在上下文忠实和外部知识理解方面的能力,以及如何构建更全面的MRC基准,以更好地评估LLMs的阅读理解能力。