CogComp/eraser_multi_rc

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/CogComp/eraser_multi_rc

下载链接

链接失效反馈

资源简介：

Eraser MultiRC（多句子阅读理解）是一个包含短段落和多句子问题的数据集，问题的答案可以从段落内容中得出。数据集设计时考虑了三个关键挑战：每个问题的正确答案数量未预先指定、正确答案不一定是文本中的片段、段落来源多样。数据集的目的是鼓励研究社区探索超越词汇级别匹配的方法。数据集包含训练集、验证集和测试集，分别有24029、3214和4848个样本。数据字段包括passage、query_and_answer、label和evidences。

提供机构：

CogComp

原始信息汇总

数据集概述

名称: Eraser MultiRC (Multi-Sentence Reading Comprehension)

语言: 英语 (en)

许可证: 其他

多语言性: 单语

大小类别: 10K<n<100K

来源数据集: 原创

任务类别: 多项选择

任务ID: 多项选择-qa

数据集结构

数据实例

字段:
- passage: 字符串类型
- query_and_answer: 字符串类型
- label: 分类标签，包括 False (0) 和 True (1)
- evidences: 字符串序列列表

数据分割

名称	训练	验证	测试
默认	24029	3214	4848

数据集创建

许可证信息

许可证: 研究与学术使用许可证，由伊利诺伊大学厄巴纳-香槟分校认知计算组提供。
条款: 允许学术和研究目的的使用、衍生作品的创建和分发，禁止商业使用。

引用信息

@unpublished{eraser2019, title = {ERASER: A Benchmark to Evaluate Rationalized NLP Models}, author = {Jay DeYoung and Sarthak Jain and Nazneen Fatema Rajani and Eric Lehman and Caiming Xiong and Richard Socher and Byron C. Wallace} } @inproceedings{MultiRC2018, author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth}, title = {Looking beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences}, booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)}, year = {2018} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多句阅读理解任务对模型提出了更高层次的语义理解要求。Eraser MultiRC数据集的构建过程体现了这一挑战，其通过众包方式收集了来自新闻、小说、历史文本等七个不同领域的短段落，确保了文本来源的多样性。每个段落均配有多句问题，正确答案的数量并未预先设定，这要求模型独立评估每个候选答案的正确性，而非简单选择最佳选项。数据集的标注过程注重答案的独立性，正确答案不必是文本中的连续片段，从而鼓励模型超越词汇层面的匹配，深入理解段落的内在逻辑。

特点

Eraser MultiRC数据集的特点在于其设计旨在推动阅读理解研究超越表面匹配。该数据集包含超过三万个实例，每个实例由段落、问题与答案对、标签及证据列表组成，其中标签以二分类形式标示答案的正确性。段落来源广泛，涵盖多个领域，增强了数据的代表性和泛化能力。问题设计强调多句推理，正确答案不限于文本片段，迫使模型进行更复杂的语义整合。证据列表提供了支持答案的文本依据，为模型的可解释性研究提供了宝贵资源。

使用方法

使用Eraser MultiRC数据集时，研究者可将其应用于多选问答任务的训练与评估。数据集已划分为训练集、验证集和测试集，分别包含24029、3214和4848个实例，便于进行标准的机器学习流程。用户可通过HuggingFace库直接加载数据，利用passage、query_and_answer、label和evidences字段构建模型输入。该数据集支持端到端的阅读理解模型开发，特别适合探索答案独立性评估和证据提取方法。在学术研究中，引用相关论文可确保工作的可追溯性，同时需遵守数据集附带的学术使用许可协议。

背景与挑战

背景概述

在自然语言处理领域，阅读理解任务长期聚焦于单句层面的信息提取，难以评估模型对跨句逻辑与深层语义的理解能力。为突破这一局限，由伊利诺伊大学厄巴纳-香槟分校认知计算组主导的研究团队于2018年推出了Eraser MultiRC数据集。该数据集旨在通过多句子阅读理解挑战，推动模型超越表面词汇匹配，深入解析文本中分散于多个句子的复杂信息。其段落来源涵盖新闻、小说、历史文本等七个不同领域，增强了数据的多样性与泛化需求，对机器阅读理解的演进产生了显著影响。

当前挑战

Eraser MultiRC数据集致力于解决多句子阅读理解中的核心难题：模型需独立判断每个候选答案的正确性，而非从预设选项中筛选最佳答案，这要求系统具备更精细的推理能力。同时，正确答案不必是文本中的连续片段，增加了答案生成的灵活性，但也对模型的语义合成能力提出了更高要求。在构建过程中，数据来源于多个领域，确保内容多样性，但这也带来了领域适应与标注一致性的挑战。此外，数据标注依赖于众包，需在保证质量的同时处理不同领域文本的复杂语义结构，确保评估的可靠性与公正性。

常用场景

经典使用场景

在自然语言处理领域，多句阅读理解任务要求模型超越简单的词汇匹配，深入理解文本的语义逻辑。Eraser MultiRC数据集通过提供来自新闻、小说等七个领域的短文段落及多句问题，成为评估模型深层推理能力的经典基准。其独特之处在于每个问题的正确答案数量不预先指定，迫使模型独立判断每个候选答案的正确性，而非仅仅选择最佳选项，从而模拟了真实阅读中所需的细致分析过程。

衍生相关工作

围绕Eraser MultiRC数据集，学术界衍生了一系列经典研究工作，例如结合注意力机制和证据提取的模型架构，以增强答案预测的可解释性。相关研究还探索了如何利用该数据集的多句特性来改进预训练语言模型的推理能力，如BERT和RoBERTa的变体。这些工作不仅提升了多句阅读理解的性能指标，还促进了可解释人工智能领域的发展，为后续更复杂的问答和推理任务奠定了坚实的理论基础。

数据集最近研究