DocRED

arXiv2019-08-09 更新2024-06-21 收录

下载链接：

https://github.com/thunlp/DocRED

下载链接

链接失效反馈

资源简介：

DocRED是由清华大学计算机科学与技术系创建的大规模文档级关系抽取数据集，包含5,053篇维基百科文档，标注了132,375个实体和56,354个关系事实。该数据集不仅要求从多句话中提取实体和推断关系，还提供了远监督数据以支持弱监督学习场景。DocRED的应用领域广泛，旨在推动文档级关系抽取的研究，解决现有方法在处理跨句关系时的局限性。

提供机构：

清华大学计算机科学与技术系

创建时间：

2019-06-14

搜集汇总

数据集介绍

构建方式

DocRED数据集的构建过程分为四个阶段：首先，利用远程监督假设对Wikipedia文档进行标注；其次，标注文档中的所有命名实体提及和共指信息；然后，将命名实体提及与Wikidata条目进行链接；最后，标注实体之间的关系和相应的支持证据。为了确保标注质量，标注人员需要经过培训并通过测试任务。数据集从完整的英文Wikipedia文档集合和Wikidata中构建，使用Wikipedia文档的引言部分作为语料库，因为这些部分通常质量较高，包含大部分关键信息。

使用方法

DocRED数据集可用于监督和弱监督场景的关系抽取任务。在监督设置中，只使用人工标注的数据进行训练和评估。在弱监督设置中，训练集被远程监督数据替换。为了评估DocRED的挑战性，作者实现了最新的关系抽取方法，并在不同的设置下进行了全面的评估。实验结果表明，现有方法在DocRED上的性能显著下降，表明文档级关系抽取是一个更具挑战性的问题，需要进一步努力。

背景与挑战

背景概述

在实体间关系抽取（RE）领域，传统的RE方法主要关注从单个句子中抽取实体对的关系。然而，现实中的许多关系事实跨越多个句子，这使得现有的句子级RE方法难以应对。为了推动文档级RE的研究，清华大学计算机科学与技术系的研究团队于2019年构建了DocRED数据集。该数据集由维基百科和维基数据构建，包含5,053个维基百科文档，132,375个实体和56,354个关系事实。DocRED要求在文档中阅读多个句子以识别实体并推断其关系，这是现有句子级RE数据集所不具备的。此外，DocRED还提供了大规模的远监督数据，使其适用于监督和弱监督场景。DocRED的发布为文档级RE研究提供了重要的基准数据集，推动了该领域的发展。

当前挑战

DocRED数据集在文档级RE领域提出了新的挑战。首先，文档级RE需要更复杂的推理能力，因为超过60%的关系实例需要复杂的推理而非简单的模式识别。其次，处理长文档和高维实体对需要高效的计算模型，现有的基于上下文的RE模型在计算效率上还有待提高。此外，DocRED的远监督数据存在标注错误的问题，这在弱监督场景下是一个主要的挑战。为了解决这些挑战，未来研究可以探索显式考虑推理的模型，设计更高效的模型架构以收集和综合跨句信息，并利用远监督数据提高文档级RE的性能。

常用场景

经典使用场景

DocRED 数据集在关系抽取领域具有广泛的应用，特别是在文档级关系抽取任务中。文档级关系抽取旨在从文本中识别实体之间的关系，这对于构建大规模知识图谱具有重要意义。DocRED 数据集包含了来自维基百科和 Wikidata 的 5,053 篇文档，其中标注了 132,375 个实体和 56,354 个关系事实，使其成为迄今为止最大的文档级关系抽取数据集。DocRED 的特点是要求读取多句话来识别实体和推断其关系，这与传统的句子级关系抽取任务不同。此外，DocRED 还提供了大规模的远程监督数据，支持弱监督关系抽取场景。

解决学术问题

DocRED 数据集解决了现有关系抽取方法无法很好地处理文档中多个实体之间复杂跨句关系的难题。通过引入文档级关系抽取任务，DocRED 推动了关系抽取领域从句子级向文档级的转变，为研究文档级关系抽取提供了重要的数据基础。DocRED 数据集的发布，促进了关系抽取领域的研究，并为开发通用的文档级关系抽取方法提供了可能。

实际应用

DocRED 数据集在实际应用中具有广泛的应用前景，例如在信息抽取、问答系统、文本摘要等领域。通过使用 DocRED 数据集训练的关系抽取模型，可以从大量的文本数据中自动抽取实体之间的关系，从而构建大规模的知识图谱，为各种应用提供知识支持。此外，DocRED 数据集还可以用于评估和改进关系抽取模型的效果，推动关系抽取技术的发展。

数据集最近研究