DocRED

Name: DocRED
Creator: OpenDataLab
Published: 2026-05-17 04:30:13
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/DocRED

下载链接

链接失效反馈

官方服务：

资源简介：

DocRED（Document-Level Relation Extraction Dataset）是由维基百科和维基数据构建的关系提取数据集。数据集中的每个文档都使用命名实体提及、共指信息、句内和句间关系以及支持证据进行人工注释。 DocRED 需要阅读文档中的多个句子来提取实体并通过综合文档的所有信息来推断它们的关系。除了人工注释的数据，该数据集还提供了大规模的远程监督数据。 DocRED 包含 132,375 个实体和 56,354 个关系事实，在 5,053 个 Wikipedia 文档上进行了注释。除了人工注释的数据外，该数据集还提供了超过 101,873 个文档的大规模远程监督数据。

DocRED (Document-Level Relation Extraction Dataset) is a relation extraction dataset constructed from Wikipedia and Wikidata. Each document in the dataset is manually annotated with named entity mentions, coreference information, intra-sentence and inter-sentence relations, and supporting evidence. DocRED requires reading multiple sentences within a single document to extract entities and infer their relational connections by synthesizing all contextual information from the document. In addition to the manually annotated data, this dataset also provides large-scale distant supervision data. DocRED contains 132,375 entities and 56,354 relational facts, which are annotated on 5,053 Wikipedia documents. Besides the manually annotated data, the dataset also offers large-scale distant supervision data covering over 101,873 documents.

提供机构：

OpenDataLab

创建时间：

2022-05-30

搜集汇总

数据集介绍

构建方式

DocRED数据集的构建基于大规模的文档集合，通过人工标注和自动化工具相结合的方式，提取出文档中的实体及其关系。首先，从多个领域的文本中筛选出具有丰富实体和关系的文档。随后，专业标注人员对这些文档进行细致的关系标注，确保每对实体之间的关系被准确识别和分类。此外，自动化工具用于辅助标注过程，提高效率并减少人为错误。最终，经过多轮质量检查和校对，形成了这一高质量的关系抽取数据集。

使用方法

DocRED数据集主要用于关系抽取和文档理解任务。研究者可以利用该数据集训练和评估关系抽取模型，通过分析文档中的实体及其关系，提升模型的识别和分类能力。此外，DocRED还可用于开发文档摘要和信息检索系统，通过理解文档中的复杂关系，提高系统的信息提取和整合能力。数据集的多样性和高质量标注使其成为自然语言处理领域的重要资源，广泛应用于学术研究和工业应用中。

背景与挑战

背景概述

DocRED（Document-Level Relation Extraction Dataset）是由Yuan Yao等人在2019年创建的，旨在推动文档级关系抽取领域的研究。该数据集由清华大学和阿里巴巴集团共同开发，包含超过5000篇文档，涵盖了96种不同的关系类型。DocRED的创建标志着文档级关系抽取研究的一个重要里程碑，因为它不仅提供了丰富的标注数据，还引入了多实体和多关系的复杂性，使得研究者能够更全面地探索文档级信息抽取的挑战。

当前挑战

DocRED数据集在构建过程中面临了多重挑战。首先，文档级关系抽取需要处理长文本中的复杂语义关系，这要求模型具备强大的上下文理解能力。其次，数据集中的多实体和多关系特性增加了模型的复杂性和计算负担。此外，标注过程的复杂性也是一个重要挑战，因为需要人工标注者对文档中的多个实体及其关系进行细致的标注。这些挑战共同构成了DocRED数据集在推动文档级关系抽取研究中的核心难题。

发展历史

创建时间与更新

DocRED数据集由Yuan Yao等人于2019年创建，旨在推动自然语言处理领域中的文档级关系抽取任务。该数据集自创建以来，未有公开的更新记录。

重要里程碑

DocRED的发布标志着文档级关系抽取研究进入了一个新的阶段。其独特之处在于包含了大量多实体、多关系的复杂文档，挑战了传统句子级关系抽取的局限性。该数据集的引入促使研究者开发新的模型和方法，以应对文档级上下文中的关系抽取难题。此外，DocRED还提供了人工标注的验证集和测试集，确保了研究的可重复性和评估的公正性。

当前发展情况

DocRED自发布以来，已成为文档级关系抽取领域的基准数据集，吸引了众多研究者的关注和参与。其丰富的文档内容和复杂的实体关系，推动了深度学习模型在该领域的应用和发展。当前，DocRED不仅用于学术研究，还被工业界用于开发和评估文档处理系统。随着自然语言处理技术的不断进步，DocRED将继续为文档级关系抽取的研究提供宝贵的资源和挑战，推动该领域向更深层次和更广泛应用的方向发展。

发展历程

DocRED首次发表于ACL 2019会议，作为一个大规模的文档级关系抽取数据集，旨在推动自然语言处理领域的发展。
2019年
DocRED被广泛应用于多个研究项目中，成为评估文档级关系抽取模型性能的标准数据集之一。
2020年
DocRED的扩展版本发布，增加了更多的文档和关系实例，进一步丰富了数据集的内容和多样性。
2021年
DocRED在多个国际竞赛中被用作基准数据集，推动了文档级关系抽取技术的快速发展和创新。
2022年

常用场景

经典使用场景

在自然语言处理领域，DocRED数据集以其丰富的多文档关系抽取任务而著称。该数据集通过整合多个文档中的信息，旨在识别和分类实体之间的关系。这一任务不仅要求模型具备强大的文本理解能力，还需要其在多文档环境中进行有效的信息整合与推理。DocRED的经典使用场景包括但不限于：在医学文献中自动提取疾病与药物之间的关联，或在法律文件中识别不同实体之间的法律关系。

解决学术问题

DocRED数据集在解决多文档关系抽取这一学术难题上具有重要意义。传统的单文档关系抽取方法在处理复杂的多文档情境时往往表现不佳，而DocRED通过提供大规模的多文档数据，推动了相关研究的发展。该数据集不仅促进了模型在多文档环境下的关系抽取能力，还为跨文档信息整合和推理提供了新的研究方向。其成果在提高信息抽取系统的准确性和鲁棒性方面具有深远影响。

实际应用

DocRED数据集在实际应用中展现出广泛的应用前景。例如，在智能医疗系统中，DocRED可以帮助自动提取和整合医学文献中的关键信息，从而加速新药研发和疾病诊断。在法律领域，该数据集可用于自动化法律文件分析，提高法律服务的效率和准确性。此外，DocRED还可应用于新闻事件追踪、金融风险评估等多个领域，为各行业的信息处理和决策支持提供强有力的技术支持。

数据集最近研究