MRCEval

Name: MRCEval
Creator: 清华大学计算机科学与技术系
Published: 2025-03-10 18:20:05
License: 暂无描述

arXiv2025-03-10 更新2025-03-12 收录

下载链接：

https://github.com/THU-KEG/MRCEval

下载链接

链接失效反馈

官方服务：

资源简介：

MRCEval是一个全面、具有挑战性且易于访问的机器阅读理解基准，由清华大学计算机科学与技术系构建。该数据集基于新颖的机器阅读理解分类法，涵盖了13个子任务的2.1K高质量多选问题，旨在全面评估大型语言模型在阅读理解方面的能力。

MRCEval is a comprehensive, challenging and easily accessible machine reading comprehension benchmark constructed by the Department of Computer Science and Technology, Tsinghua University. Based on a novel machine reading comprehension taxonomy, this dataset contains 2.1K high-quality multiple-choice questions across 13 subtasks, aiming to comprehensively evaluate the reading comprehension capabilities of large language models.

提供机构：

清华大学计算机科学与技术系

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

MRCEval数据集的构建基于对机器阅读理解能力的全面评估需求，采用了先进的语言模型LLMs作为样本生成器和选择评判员。首先，通过引入一个新的分类法，将阅读理解能力的关键能力分为三个层次：上下文理解、外部知识理解和推理。然后，基于这个分类法，构建了一个包含13个不同阅读理解技能的全面、有挑战性和可访问的MRC基准，共包含2.1K个高质量的多项选择题。在构建过程中，使用了GPT-4o作为生成器，以及三个轻量级模型作为评判员，以生成高质量且有挑战性的样本。最后，在28个广泛使用的开源和专有模型上进行了广泛的评估，突显了即使在LLMs时代，MRC仍然面临着重大挑战。

使用方法

MRCEval数据集的使用方法主要包括以下步骤：首先，根据数据集的文档和代码，了解数据集的结构和内容。其次，选择合适的模型进行训练和评估。最后，使用评估结果来改进模型或研究新的阅读理解技术。需要注意的是，由于数据集包含多个子任务，因此在训练和评估时，可能需要针对不同的子任务进行相应的调整。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解（MRC）是评估自然语言理解能力的核心任务。然而，现有的MRC数据集大多仅评估阅读理解的特定方面，缺乏一个全面的MRC基准。为了填补这一空白，清华大学计算机科学与技术系的马胜坤、郝鹏、侯磊和黎建梓等研究人员提出了MRCEval数据集。MRCEval是一个全面、具有挑战性和可访问性的MRC基准，旨在全面评估大型语言模型（LLMs）的阅读理解能力。该数据集包含了13个不同的阅读理解技能，共有2.1K个高质量的多选题。研究人员对28个广泛使用的开源和专有模型进行了广泛的评估，结果表明，即使在LLMs时代，MRC仍然面临着重大挑战。MRCEval项目已在GitHub上公开发布，为自然语言理解的进步做出了贡献。

当前挑战

MRCEval数据集面临的挑战主要包括：1) 所解决的领域问题的挑战：MRCEval旨在全面评估LLMs的阅读理解能力，涵盖了13个不同的阅读理解技能，这对LLMs的泛化能力和鲁棒性提出了更高的要求。2) 构建过程中所遇到的挑战：MRCEval的构建过程中，研究人员采用了LLMs作为样本生成器和选择裁判，这需要解决LLMs生成样本的质量和多样性问题。此外，数据集的构建还涉及到样本的选择、噪声过滤等问题，这些都需要研究人员进行细致的考虑和处理。

常用场景

经典使用场景

MRCEval数据集被广泛应用于评估大型语言模型在机器阅读理解任务上的能力。它提供了2103个高质量的多选题，涵盖了13个不同的阅读理解技能。该数据集被设计为全面、具有挑战性和易于访问的基准，旨在促进自然语言理解在大型语言模型中的进步。

解决学术问题

MRCEval数据集解决了现有机器阅读理解数据集缺乏综合性的问题。它通过引入一个新的分类法，将阅读理解的关键能力分为三个层次：上下文理解、外部知识理解和推理。这些能力涵盖了事实理解、外部知识获取和应用以及推理等关键技能。MRCEval数据集的提出，为评估大型语言模型在阅读理解任务上的能力提供了一个全面的基准，有助于推动自然语言理解领域的研究。

实际应用

MRCEval数据集的实际应用场景包括但不限于：1）评估和比较不同大型语言模型在机器阅读理解任务上的性能；2）用于研究和开发新的机器阅读理解模型；3）帮助研究人员识别和理解机器阅读理解任务中的挑战和困难；4）为教育机构提供教学和学习的资源。

数据集最近研究