deepmind/narrativeqa_manual

Name: deepmind/narrativeqa_manual
Creator: deepmind
Published: 2024-01-18 11:10:06
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/deepmind/narrativeqa_manual

下载链接

链接失效反馈

官方服务：

资源简介：

NarrativeQA Manual是一个英语数据集，包含故事和相应的问题，旨在测试阅读理解能力，特别是对长文档的理解。该数据集需要手动下载文件，因为原始存储库中的脚本每次都会从原始URL下载故事，有时链接会失效或无效。因此，需要使用作者提供的脚本手动下载故事。数据集的结构包括文档、问题和答案，文档部分包含故事的详细信息，如ID、类型、URL、文件大小、字数、开始和结束标记、摘要等。问题部分包含问题的文本和标记，答案部分包含多个可能的答案。数据集分为训练集、验证集和测试集。

提供机构：

deepmind

原始信息汇总

数据集概述

名称: NarrativeQA

语言: 英语

许可证: Apache-2.0

多语言性: 单语种

大小: 10K<n<100K

源数据: 原始数据

任务类别: 文本到文本生成

任务ID: 抽象问答

论文代码ID: narrativeqa

美观名称: NarrativeQA Manual

数据集结构

数据实例

组成: 每个数据点包含一个问题和答案对，以及用于回答问题的摘要/故事。
示例:

{ "document": {...}, "question": {...}, "answers": [...] }

数据字段

document:
- id: 故事的唯一ID。
- kind: 故事来源，如“电影”或“古腾堡”。
- url: 故事下载的URL。
- file_size: 故事文件大小（字节）。
- word_count: 故事中的单词数。
- start: 故事的前三个词。
- end: 故事的最后三个词。
- summary:
  - text: 故事的维基百科摘要文本。
  - tokens: 摘要文本的标记化版本。
  - url: 摘要的维基百科URL。
  - title: 摘要的维基百科标题。
question: 关于故事的问题及其标记化版本。
answers: 问题的有效答案列表，每个答案包含文本和标记化版本。

数据分割

训练集: 32747个例子
验证集: 3461个例子
测试集: 10557个例子

数据集创建

源数据

来源: 故事和电影剧本从Project Gutenburg和多个电影剧本库（主要是imsdb）下载。

注释

注释过程: 使用Amazon Mechanical Turk工人，基于人类编写的摘要提出问题。
注释者: Amazon Mechanical Turk工人。

许可证信息

许可证: Apache-2.0

引用信息

@article{narrativeqa, author = {Tomav s Kov cisky and Jonathan Schwarz and Phil Blunsom and Chris Dyer and Karl Moritz Hermann and Gabor Melis and Edward Grefenstette}, title = {The {NarrativeQA} Reading Comprehension Challenge}, journal = {Transactions of the Association for Computational Linguistics}, url = {https://TBD}, volume = {TBD}, year = {2018}, pages = {TBD}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对长篇文本的阅读理解任务需要高质量的数据支撑。NarrativeQA数据集的构建过程体现了严谨的学术设计。其源数据主要采集自古登堡计划的文学作品以及公开的电影剧本库，确保了文本的多样性与复杂性。随后，研究团队通过亚马逊众包平台，邀请标注者基于人工撰写的维基百科故事摘要，创作了多样化的问答对。标注过程中，标注者被要求避免复制原文，并需构思能够考察叙事中人物、事件及因果关系的非局部性问题，同时答案需为语法完整的句子或短语，从而保证了数据在语义深度与语言自然度上的高标准。

特点

该数据集在阅读理解研究领域具有鲜明的特色。其核心在于专注于长篇叙事文本的深度理解，涵盖了超过四万六千个数据实例，规模适中且内容详实。每个数据点不仅包含完整的原始故事文本及其维基百科摘要，还提供了针对摘要提出的问题以及多个参考答案，结构丰富。数据集明确区分了“仅使用摘要”和“仅使用故事”两种任务模式，为评估模型在不同信息粒度下的理解能力提供了清晰框架。此外，数据按故事源头进行了严格的训练、验证和测试集划分，确保了评估的公正性与可靠性。

使用方法

为有效利用该数据集进行模型训练与评估，需遵循特定的加载流程。由于原始故事文件的在线链接可能失效，用户需首先运行作者提供的脚本手动下载故事文本至本地目录。完成下载后，可通过Hugging Face的`datasets`库，使用`load_dataset`函数并指定`data_dir`参数为本地故事文件夹路径来加载数据集。加载后的数据可直接用于训练抽象问答或文本生成模型。研究者可根据论文建议，选择基于故事全文或仅基于摘要来回答问题，从而系统性地探究模型处理不同长度和来源文本的阅读理解能力。

背景与挑战

背景概述

在自然语言处理领域，阅读理解任务长期聚焦于短文本的浅层信息提取，而缺乏对长文档深层叙事结构的探索。DeepMind于2018年推出的NarrativeQA数据集，正是为了弥补这一研究空白而构建。该数据集由Tomáš Kočiský、Jonathan Schwarz等研究人员主导，核心研究问题在于评估模型对长篇叙事文本的整体理解能力，包括情节推理、角色关系与事件因果逻辑。通过整合来自古登堡计划与电影剧本库的原始故事，并辅以人工撰写的维基百科摘要，该数据集推动了抽象式问答任务的发展，为机器理解复杂叙事结构设立了新的基准。

当前挑战

NarrativeQA数据集所针对的领域挑战在于，传统阅读理解模型往往局限于局部事实检索，难以应对长文档中跨段落的信息整合与隐含逻辑推理。该任务要求模型超越表层匹配，深入理解叙事的时间线、角色动机与情节演变，这对现有自然语言理解技术构成了显著考验。在构建过程中，数据收集面临原始故事来源异构、版权与格式不一的难题；标注环节则需通过众包设计引导标注者提出非局部化、多样且语法完整的问答对，同时避免问题与答案的机械复制，确保数据质量与挑战性之间的平衡。

常用场景

经典使用场景

在自然语言处理领域，长文本阅读理解任务一直面临着信息整合与推理的挑战。NarrativeQA数据集通过提供电影剧本和古登堡计划书籍的完整叙事文本及其对应的问题-答案对，为研究者构建了一个评估模型在长文档上进行抽象问答能力的基准平台。该数据集特别强调对叙事整体结构的理解，要求模型不仅捕捉局部细节，还需把握情节发展、人物关系等宏观线索，从而推动了阅读 comprehension 模型从片段式理解向全局性推理的演进。

实际应用

在实际应用层面，NarrativeQA所训练的模型能够赋能智能教育系统，为学生提供针对长篇文学或影视内容的自动化阅读理解辅导与评估。在数字人文领域，它可辅助研究者快速分析大量叙事文本的主题脉络与情节结构。此外，该技术也能集成至智能助理中，使其具备基于长文档（如产品手册、历史档案）进行深入问答的能力，从而提升信息服务的深度与准确性。

衍生相关工作

围绕NarrativeQA数据集，学术界涌现出一系列经典研究工作。例如，基于Transformer的模型如BERT、Longformer等被广泛适配以处理其长文本特性，探索有效的上下文编码策略。同时，该数据集也催生了专注于叙事理解的专用架构，以及结合摘要生成与问答的混合任务方法。这些工作不仅持续刷新数据集的性能榜单，更推动了预训练语言模型在长序列建模、篇章级语义表示等方向的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集