tonytan48/Re-DocRED

Name: tonytan48/Re-DocRED
Creator: tonytan48
Published: 2022-11-25 02:48:32
License: 暂无描述

Hugging Face2022-11-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tonytan48/Re-DocRED

下载链接

链接失效反馈

官方服务：

资源简介：

Re-DocRED数据集是为了解决DocRED数据集中的假阴性问题（即不完整标注）而创建的。该数据集通过补充大量关系三元组解决了DocRED的不完整性问题，解决了逻辑不一致性问题，并纠正了共指错误。Re-DocRED数据集包含3,053个训练文档、500个开发文档和500个测试文档，平均每个文档包含28.1个三元组、19.4个实体和7.9个句子。

The Re-DocRED dataset was constructed to address the false negative issue (i.e., incomplete annotation) inherent in the DocRED dataset. This dataset resolves the incompleteness of DocRED by supplementing a substantial number of relational triples, fixes logical inconsistencies, and rectifies coreference errors. It comprises 3,053 training documents, 500 development documents, and 500 test documents. On average, each document contains 28.1 relational triples, 19.4 entities, and 7.9 sentences.

提供机构：

tonytan48

原始信息汇总

Re-DocRED Dataset 概述

数据集描述

Re-DocRED Dataset 是对原始 DocRED 数据集的修订版本，旨在解决原始数据集中的 false negative 问题。该数据集由 EMNLP 2022 研究论文 Revisiting DocRED – Addressing the False Negative Problem in Relation Extraction 提出。

修订内容

解决不完全性问题：补充了大量关系三元组。
处理逻辑不一致：解决了 DocRED 中的逻辑矛盾。
修正共指错误：纠正了 DocRED 中的共指错误。

数据集统计

数据集位于 ./data 目录下，具体统计数据如下：

	Train	Dev	Test
# Documents	3,053	500	500
Avg. # Triples	28.1	34.6	34.9
Avg. # Entities	19.4	19.4	19.6
Avg. # Sents	7.9	8.2	7.9

引用信息

若使用此数据集，请引用以下文献： bibtex @inproceedings{tan2022revisiting, title={Revisiting DocRED – Addressing the False Negative Problem in Relation Extraction}, author={Tan, Qingyu and Xu, Lu and Bing, Lidong and Ng, Hwee Tou and Aljunied, Sharifah Mahani}, booktitle={Proceedings of EMNLP}, url={https://arxiv.org/abs/2205.12696}, year={2022} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，关系抽取是文本挖掘中的一项关键任务。Re-DocRED数据集的构建，是对原有DocRED数据集的深入反思与改进，该数据集通过修订4,053篇文档，补充了大量关系三元组，解决了原数据集中存在的漏标问题，并对逻辑不一致和指代错误进行了校正，从而提升了数据集的质量和可用性。

特点

Re-DocRED数据集的特色在于其解决了DocRED数据集中长期存在的三个主要问题：关系三元组的漏标、逻辑不一致以及指代错误。通过这些修正，数据集在训练关系抽取模型时，能够提供更为准确和全面的训练样本，有助于提高模型的性能和鲁棒性。

使用方法

使用Re-DocRED数据集时，用户可以访问其官方提供的训练、开发和测试集，每个数据集均包含文档编号、实体、关系和句子级别的信息。用户需要根据研究需求，对数据进行预处理，如文本清洗、分词等，之后可以运用该数据集进行关系抽取模型的训练和评估。

背景与挑战

背景概述

在自然语言处理领域，文档级关系提取是构建知识图谱的重要环节。DocRED作为该领域广泛使用的基准数据集，尽管在推进研究方面发挥了重要作用，但其存在注释不完整的问题。为此，tan2022等研究人员在EMNLP 2022会议上提出了Re-DocRED数据集，该数据集针对原有DocRED数据集中的缺陷进行了修订，补充了大量关系三元组，解决了逻辑不一致性和指代错误问题，进一步提升了数据集的质量和实用性。

当前挑战

Re-DocRED数据集在解决原有DocRED数据集的假阴性问题上面临诸多挑战。首先，如何精确识别并补充缺失的关系三元组，确保注释的完整性，是一大难题。其次，处理逻辑不一致性和指代错误需要高度精细的标注工作，这对标注人员的专业知识和耐心都是一种考验。此外，在保证数据集质量的同时，还需兼顾数据集的规模和多样性，以满足不同场景下的研究需求。

常用场景

经典使用场景

在自然语言处理领域，文档级关系抽取是信息提取任务中的关键环节。Re-DocRED数据集作为DocRED的修订版，其经典使用场景在于为研究者提供了一个更为精确和完整的文档级关系抽取基准。通过补充大量关系三元组，并解决逻辑不一致和指代错误问题，该数据集使得研究者能够更好地训练和评估关系抽取模型，从而推动该领域技术的发展。

衍生相关工作

基于Re-DocRED数据集，学术界涌现了一系列经典工作，包括但不限于改进关系抽取算法、增强模型对逻辑不一致和指代错误的处理能力。这些研究进一步推动了文档级关系抽取技术的进步，促进了自然语言处理领域的发展，为后续的研究提供了坚实的基础。

数据集最近研究