MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark

作者: Shengkun Ma, Hao Peng, Lei Hou, Juanzi Li

发布时间: 2025-03-11

来源: arxiv

研究方向: 机器阅读理解（Machine Reading Comprehension, MRC）

主要内容

本文提出了一种新的MRC基准MRCEval，旨在全面评估大型语言模型（LLMs）的阅读理解能力。该基准基于一个新颖的分类法，将MRC技能分为三个层级：上下文理解、外部知识理解和推理。MRCEval包含13个不同的技能，共计2.1K个高质量的多选题。

1. 提出了一个新颖的MRC分类法，将MRC技能分为三个层级：上下文理解、外部知识理解和推理。

2. 构建了MRCEval基准，该基准全面评估LLMs的阅读理解能力。

3. 利用LLMs作为样本生成器和选择裁判，以生成高质量和具有挑战性的样本。

4. 对28个广泛使用的开源和专有模型进行了广泛评估，发现MRC在LLMs时代仍然具有挑战性。

1. 提出一个新颖的分类法，将MRC技能分为三个层级：上下文理解、外部知识理解和推理。

2. 构建包含13个不同技能的MRCEval基准。

3. 利用GPT-4o作为样本生成器，生成高质量和具有挑战性的样本。

4. 采用投票策略，使用三个轻量级LLMs作为裁判，选择具有挑战性的样本。

5. 对28个LLMs模型进行评估，并报告准确率作为评估指标。

评估结果表明，LLMs在事实提取方面表现良好，但在上下文忠实方面表现不佳。外部知识理解仍然是一个挑战，尽管模型规模增大，但对常识和世界知识的理解和应用能力提升有限。大型模型在推理任务中表现良好，特别是在复杂的多跳推理任务中。

进一步研究如何提高LLMs在上下文忠实和外部知识理解方面的能力，以及如何构建更全面的MRC基准，以更好地评估LLMs的阅读理解能力。