ibm/duorc
收藏Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ibm/duorc
下载链接
链接失效反馈官方服务:
资源简介:
DuoRC数据集是一个英文的问答数据集,专门用于训练和评估抽象和提取式问答模型。该数据集包含两个子数据集:SelfRC和ParaphraseRC。SelfRC数据集完全基于Wikipedia的电影情节,而ParaphraseRC则结合了Wikipedia和IMDb的电影情节,其中问题基于Wikipedia情节,答案则基于IMDb情节。数据集由众包工作者创建,涵盖了从10K到1M不等的数据量。
DuoRC is an English-language question answering (QA) dataset specifically designed for training and evaluating both abstractive and extractive QA models. It contains two sub-datasets: SelfRC and ParaphraseRC. The SelfRC dataset is entirely based on Wikipedia movie plots, while ParaphraseRC combines movie plots from Wikipedia and IMDb, where questions are formulated based on Wikipedia plots and answers are sourced from IMDb plots. The dataset was created by crowdworkers, with a total data volume ranging from 10K to 1M.
提供机构:
ibm
原始信息汇总
数据集概述
数据集名称: DuoRC
语言: 英语 (en)
许可证: MIT
多语言性: 单语
大小类别:
- 100K<n<1M
- 10K<n<100K
源数据集: 原始
任务类别:
- 问答
- 文本到文本生成
任务ID:
- abstractive-qa
- extractive-qa
配置名称:
- ParaphraseRC
- SelfRC
数据集结构
数据实例
数据实例包含以下字段:
plot_id: 字符串,电影情节ID。plot: 字符串,电影情节文本。title: 字符串,电影标题。question_id: 字符串,问题ID。question: 字符串,问题文本。answers: 字符串序列,答案列表。no_answer: 布尔值,指示问题是否有答案。
数据分割
数据集分为训练、验证和测试集,具体大小如下:
| 配置名称 | 训练集大小 | 验证集大小 | 测试集大小 |
|---|---|---|---|
| ParaphraseRC | 69,524 | 15,591 | 15,857 |
| SelfRC | 60,721 | 12,961 | 12,559 |
数据集创建
注释过程
- SelfRC: 注释者可以在阅读维基百科电影情节后标记答案范围或合成自己的答案。
- ParaphraseRC: 使用来自SelfRC的维基百科电影情节的问题,注释者根据IMDb电影情节回答问题。
注释者
Amazon Mechanical Turk Workers
许可证信息
MIT License
引用信息
@inproceedings{DuoRC, author = { Amrita Saha and Rahul Aralikatte and Mitesh M. Khapra and Karthik Sankaranarayanan}, title = {{DuoRC: Towards Complex Language Understanding with Paraphrased Reading Comprehension}}, booktitle = {Meeting of the Association for Computational Linguistics (ACL)}, year = {2018} }
搜集汇总
数据集介绍

构建方式
在机器阅读理解领域,DuoRC数据集的构建体现了对复杂语言理解的深度探索。该数据集通过众包方式,借助亚马逊土耳其机器人平台,从维基百科和IMDb电影剧情中收集问题与答案。具体而言,数据集包含两个子集:SelfRC基于维基百科电影剧情,标注者可在剧情中标记答案或自行合成答案;ParaphraseRC则利用维基百科剧情生成问题,但要求标注者依据对应的IMDb剧情提供答案。这种双源设计旨在模拟现实世界中信息的多源性与表述差异,为模型训练提供了丰富的语境对比。
特点
DuoRC数据集的核心特点在于其独特的双源结构与复杂性。数据集以电影剧情为背景,涵盖了超过十万个问答对,分为训练集、验证集和测试集,确保无电影剧情在训练与测试间重叠。每个实例包含剧情ID、剧情文本、电影标题、问题ID、问题文本、答案列表及无答案标志。这种设计不仅支持抽取式问答,还适用于生成式问答任务,通过答案的多样性与剧情间的语义差异,挑战模型的理解与推理能力。
使用方法
使用DuoRC数据集时,研究者可将其应用于抽象式问答或抽取式问答任务。对于抽象式问答,模型需基于给定剧情和问题生成多词答案,常用指标如精确匹配和F1分数进行评估;对于抽取式问答,模型则预测答案在剧情中的起止位置。数据集可通过HuggingFace平台加载,支持ParaphraseRC和SelfRC两种配置,用户可根据需求选择子集进行训练与测试,以推动自然语言处理技术在复杂语境下的进步。
背景与挑战
背景概述
在自然语言处理领域,机器阅读理解作为衡量人工智能语言理解能力的关键任务,长期受到学术界与工业界的广泛关注。DuoRC数据集由印度理工学院马德拉斯分校与IBM研究院的研究团队于2018年联合创建,旨在推动复杂语言理解研究。该数据集以电影剧情文本为基础,通过众包方式构建了包含问答对的大规模语料,其核心研究问题聚焦于抽象式与抽取式问答,尤其强调对同一事件不同表述(如维基百科与IMDb剧情描述)的深层语义对齐与推理。DuoRC的推出为机器阅读理解模型提供了更具挑战性的评估基准,促进了跨文本源推理能力的发展,对问答系统与语言模型研究产生了显著影响。
当前挑战
DuoRC数据集所针对的领域挑战在于提升机器对复杂叙事文本的理解与推理能力,特别是在面对同一事件的多源异构描述时,模型需克服语义差异与表述多样性,实现精准的答案生成或定位。在构建过程中,数据集面临双重挑战:其一,众包标注过程中,如何确保问答对的质量与一致性,避免因标注者主观差异引入噪声;其二,在ParaphraseRC子集中,需有效对齐维基百科与IMDb剧情文本,处理两者在细节、风格与完整性上的显著差异,这对数据清洗与对齐机制提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,阅读理解任务旨在评估模型对文本深层语义的理解能力。DuoRC数据集以其独特的双源结构,为抽象式与抽取式问答提供了经典的应用场景。该数据集通过结合维基百科与IMDb电影情节的平行文本,构建了ParaphraseRC与SelfRC两个子集,使模型能够在不同表述的相同叙事中寻找答案,从而模拟真实世界中信息的多源性与复杂性。这种设计不仅考验模型的信息定位能力,更推动其进行语义推理与跨文本融合,成为评估问答系统鲁棒性的重要基准。
解决学术问题
DuoRC数据集的构建,直接回应了传统阅读理解数据集中答案过于依赖原文表面匹配的局限性。它通过引入释义情节与自主合成答案的机制,有效解决了模型在复杂语言理解中面临的语义泛化与推理不足问题。该数据集促使研究者探索如何让模型超越简单的文本匹配,实现更深层的逻辑推断与上下文融合,从而推动抽象式问答技术的发展。其意义在于为自然语言理解研究提供了更贴近真实应用场景的评估框架,促进了跨文本推理与生成模型的进步。
衍生相关工作
自DuoRC数据集发布以来,它催生了一系列围绕复杂问答与跨文本理解的研究工作。例如,基于BART与检索增强架构的模型被广泛应用于该数据集的抽象式问答任务,推动了生成式阅读理解技术的发展。同时,许多研究利用其释义对特性,探索了跨域迁移学习与对抗性训练方法,以提升模型对语义变化的鲁棒性。这些工作不仅丰富了阅读理解领域的方法论,也为多源信息融合与语义推理提供了新的实验平台,持续影响着自然语言处理的前沿探索。
以上内容由遇见数据集搜集并总结生成



