five

MRCEval

收藏
arXiv2025-03-10 更新2025-03-12 收录
下载链接:
https://github.com/THU-KEG/MRCEval
下载链接
链接失效反馈
官方服务:
资源简介:
MRCEval是一个全面、具有挑战性且易于访问的机器阅读理解基准,由清华大学计算机科学与技术系构建。该数据集基于新颖的机器阅读理解分类法,涵盖了13个子任务的2.1K高质量多选问题,旨在全面评估大型语言模型在阅读理解方面的能力。

MRCEval is a comprehensive, challenging and easily accessible machine reading comprehension benchmark constructed by the Department of Computer Science and Technology, Tsinghua University. Based on a novel machine reading comprehension taxonomy, this dataset contains 2.1K high-quality multiple-choice questions across 13 subtasks, aiming to comprehensively evaluate the reading comprehension capabilities of large language models.
提供机构:
清华大学计算机科学与技术系
创建时间:
2025-03-10
搜集汇总
数据集介绍
main_image_url
构建方式
MRCEval数据集的构建基于对机器阅读理解能力的全面评估需求,采用了先进的语言模型LLMs作为样本生成器和选择评判员。首先,通过引入一个新的分类法,将阅读理解能力的关键能力分为三个层次:上下文理解、外部知识理解和推理。然后,基于这个分类法,构建了一个包含13个不同阅读理解技能的全面、有挑战性和可访问的MRC基准,共包含2.1K个高质量的多项选择题。在构建过程中,使用了GPT-4o作为生成器,以及三个轻量级模型作为评判员,以生成高质量且有挑战性的样本。最后,在28个广泛使用的开源和专有模型上进行了广泛的评估,突显了即使在LLMs时代,MRC仍然面临着重大挑战。
使用方法
MRCEval数据集的使用方法主要包括以下步骤:首先,根据数据集的文档和代码,了解数据集的结构和内容。其次,选择合适的模型进行训练和评估。最后,使用评估结果来改进模型或研究新的阅读理解技术。需要注意的是,由于数据集包含多个子任务,因此在训练和评估时,可能需要针对不同的子任务进行相应的调整。
背景与挑战
背景概述
在自然语言处理领域,机器阅读理解(MRC)是评估自然语言理解能力的核心任务。然而,现有的MRC数据集大多仅评估阅读理解的特定方面,缺乏一个全面的MRC基准。为了填补这一空白,清华大学计算机科学与技术系的马胜坤、郝鹏、侯磊和黎建梓等研究人员提出了MRCEval数据集。MRCEval是一个全面、具有挑战性和可访问性的MRC基准,旨在全面评估大型语言模型(LLMs)的阅读理解能力。该数据集包含了13个不同的阅读理解技能,共有2.1K个高质量的多选题。研究人员对28个广泛使用的开源和专有模型进行了广泛的评估,结果表明,即使在LLMs时代,MRC仍然面临着重大挑战。MRCEval项目已在GitHub上公开发布,为自然语言理解的进步做出了贡献。
当前挑战
MRCEval数据集面临的挑战主要包括:1) 所解决的领域问题的挑战:MRCEval旨在全面评估LLMs的阅读理解能力,涵盖了13个不同的阅读理解技能,这对LLMs的泛化能力和鲁棒性提出了更高的要求。2) 构建过程中所遇到的挑战:MRCEval的构建过程中,研究人员采用了LLMs作为样本生成器和选择裁判,这需要解决LLMs生成样本的质量和多样性问题。此外,数据集的构建还涉及到样本的选择、噪声过滤等问题,这些都需要研究人员进行细致的考虑和处理。
常用场景
经典使用场景
MRCEval数据集被广泛应用于评估大型语言模型在机器阅读理解任务上的能力。它提供了2103个高质量的多选题,涵盖了13个不同的阅读理解技能。该数据集被设计为全面、具有挑战性和易于访问的基准,旨在促进自然语言理解在大型语言模型中的进步。
解决学术问题
MRCEval数据集解决了现有机器阅读理解数据集缺乏综合性的问题。它通过引入一个新的分类法,将阅读理解的关键能力分为三个层次:上下文理解、外部知识理解和推理。这些能力涵盖了事实理解、外部知识获取和应用以及推理等关键技能。MRCEval数据集的提出,为评估大型语言模型在阅读理解任务上的能力提供了一个全面的基准,有助于推动自然语言理解领域的研究。
实际应用
MRCEval数据集的实际应用场景包括但不限于:1)评估和比较不同大型语言模型在机器阅读理解任务上的性能;2)用于研究和开发新的机器阅读理解模型;3)帮助研究人员识别和理解机器阅读理解任务中的挑战和困难;4)为教育机构提供教学和学习的资源。
数据集最近研究
最新研究方向
MRCEval数据集的推出,标志着机器阅读理解领域的一个新里程碑。该数据集的构建基于一个创新的分类法,将阅读理解能力分为三个层次:语境理解、外部知识理解和推理。MRCEval涵盖了13种不同的阅读理解技能,并包含了2100个高质量的多选题。这一数据集的构建不仅挑战了现有的语言模型,也揭示了大型语言模型在阅读理解方面仍存在的不足。特别是对于关系或事件事实的理解以及语境忠实度方面,即使是表现最好的模型也面临着挑战。MRCEval的推出,对于推动自然语言理解技术的发展,特别是大型语言模型在阅读理解方面的研究,具有重要意义。
相关研究论文
  • 1
    MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark清华大学计算机科学与技术系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作