five

tonytan48/Re-DocRED

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tonytan48/Re-DocRED
下载链接
链接失效反馈
官方服务:
资源简介:
Re-DocRED数据集是为了解决DocRED数据集中的假阴性问题(即不完整标注)而创建的。该数据集通过补充大量关系三元组解决了DocRED的不完整性问题,解决了逻辑不一致性问题,并纠正了共指错误。Re-DocRED数据集包含3,053个训练文档、500个开发文档和500个测试文档,平均每个文档包含28.1个三元组、19.4个实体和7.9个句子。

The Re-DocRED dataset was constructed to address the false negative issue (i.e., incomplete annotation) inherent in the DocRED dataset. This dataset resolves the incompleteness of DocRED by supplementing a substantial number of relational triples, fixes logical inconsistencies, and rectifies coreference errors. It comprises 3,053 training documents, 500 development documents, and 500 test documents. On average, each document contains 28.1 relational triples, 19.4 entities, and 7.9 sentences.
提供机构:
tonytan48
原始信息汇总

Re-DocRED Dataset 概述

数据集描述

Re-DocRED Dataset 是对原始 DocRED 数据集的修订版本,旨在解决原始数据集中的 false negative 问题。该数据集由 EMNLP 2022 研究论文 Revisiting DocRED – Addressing the False Negative Problem in Relation Extraction 提出。

修订内容

  1. 解决不完全性问题:补充了大量关系三元组。
  2. 处理逻辑不一致:解决了 DocRED 中的逻辑矛盾。
  3. 修正共指错误:纠正了 DocRED 中的共指错误。

数据集统计

数据集位于 ./data 目录下,具体统计数据如下:

Train Dev Test
# Documents 3,053 500 500
Avg. # Triples 28.1 34.6 34.9
Avg. # Entities 19.4 19.4 19.6
Avg. # Sents 7.9 8.2 7.9

引用信息

若使用此数据集,请引用以下文献: bibtex @inproceedings{tan2022revisiting, title={Revisiting DocRED – Addressing the False Negative Problem in Relation Extraction}, author={Tan, Qingyu and Xu, Lu and Bing, Lidong and Ng, Hwee Tou and Aljunied, Sharifah Mahani}, booktitle={Proceedings of EMNLP}, url={https://arxiv.org/abs/2205.12696}, year={2022} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,关系抽取是文本挖掘中的一项关键任务。Re-DocRED数据集的构建,是对原有DocRED数据集的深入反思与改进,该数据集通过修订4,053篇文档,补充了大量关系三元组,解决了原数据集中存在的漏标问题,并对逻辑不一致和指代错误进行了校正,从而提升了数据集的质量和可用性。
特点
Re-DocRED数据集的特色在于其解决了DocRED数据集中长期存在的三个主要问题:关系三元组的漏标、逻辑不一致以及指代错误。通过这些修正,数据集在训练关系抽取模型时,能够提供更为准确和全面的训练样本,有助于提高模型的性能和鲁棒性。
使用方法
使用Re-DocRED数据集时,用户可以访问其官方提供的训练、开发和测试集,每个数据集均包含文档编号、实体、关系和句子级别的信息。用户需要根据研究需求,对数据进行预处理,如文本清洗、分词等,之后可以运用该数据集进行关系抽取模型的训练和评估。
背景与挑战
背景概述
在自然语言处理领域,文档级关系提取是构建知识图谱的重要环节。DocRED作为该领域广泛使用的基准数据集,尽管在推进研究方面发挥了重要作用,但其存在注释不完整的问题。为此,tan2022等研究人员在EMNLP 2022会议上提出了Re-DocRED数据集,该数据集针对原有DocRED数据集中的缺陷进行了修订,补充了大量关系三元组,解决了逻辑不一致性和指代错误问题,进一步提升了数据集的质量和实用性。
当前挑战
Re-DocRED数据集在解决原有DocRED数据集的假阴性问题上面临诸多挑战。首先,如何精确识别并补充缺失的关系三元组,确保注释的完整性,是一大难题。其次,处理逻辑不一致性和指代错误需要高度精细的标注工作,这对标注人员的专业知识和耐心都是一种考验。此外,在保证数据集质量的同时,还需兼顾数据集的规模和多样性,以满足不同场景下的研究需求。
常用场景
经典使用场景
在自然语言处理领域,文档级关系抽取是信息提取任务中的关键环节。Re-DocRED数据集作为DocRED的修订版,其经典使用场景在于为研究者提供了一个更为精确和完整的文档级关系抽取基准。通过补充大量关系三元组,并解决逻辑不一致和指代错误问题,该数据集使得研究者能够更好地训练和评估关系抽取模型,从而推动该领域技术的发展。
衍生相关工作
基于Re-DocRED数据集,学术界涌现了一系列经典工作,包括但不限于改进关系抽取算法、增强模型对逻辑不一致和指代错误的处理能力。这些研究进一步推动了文档级关系抽取技术的进步,促进了自然语言处理领域的发展,为后续的研究提供了坚实的基础。
数据集最近研究
最新研究方向
在文档级关系抽取领域,Re-DocRED数据集的提出是对原有DocRED数据集的深入改进。研究者针对DocRED数据集中存在的假阴性样本问题进行了修订,通过补充大量关系三元组解决了标注不完整的问题,同时解决了逻辑不一致性和指代错误。该数据集的发布,不仅优化了关系抽取任务的训练效果,也为文档级关系抽取领域带来了新的研究方向,即如何更准确地处理和标注大规模数据集中的关系三元组,进而提高关系抽取的准确性和鲁棒性。Re-DocRED数据集的成果对于推动自然语言处理领域的发展具有积极影响,为后续研究提供了更为精确的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作