DocRED
收藏魔搭社区2025-11-05 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/DocRED
下载链接
链接失效反馈官方服务:
资源简介:
displayName: DocRED
labelTypes:
- Text
license:
- MIT
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/1906.06127v3.pdf
publishDate: "2019"
publishUrl: https://github.com/thunlp/DocRED
publisher:
- Tsinghua University
- Tencent
tags:
- Documents
- Annotation
taskTypes:
- Text Information Extraction
- Text Relation Extraction
---
# 数据集介绍
## 简介
DocRED(Document-Level Relation Extraction Dataset)是由维基百科和维基数据构建的关系提取数据集。数据集中的每个文档都使用命名实体提及、共指信息、句内和句间关系以及支持证据进行人工注释。 DocRED 需要阅读文档中的多个句子来提取实体并通过综合文档的所有信息来推断它们的关系。除了人工注释的数据,该数据集还提供了大规模的远程监督数据。 DocRED 包含 132,375 个实体和 56,354 个关系事实,在 5,053 个 Wikipedia 文档上进行了注释。除了人工注释的数据外,该数据集还提供了超过 101,873 个文档的大规模远程监督数据。
## 引文
```
@article{yao2019docred,
title={DocRED: A large-scale document-level relation extraction dataset},
author={Yao, Yuan and Ye, Deming and Li, Peng and Han, Xu and Lin, Yankai and Liu, Zhenghao and Liu, Zhiyuan and Huang, Lixin and Zhou, Jie and Sun, Maosong},
journal={arXiv preprint arXiv:1906.06127},
year={2019}
}
```
## Download dataset
:modelscope-code[]{type="git"}
显示名称:DocRED
标签类型:
- 文本(Text)
许可证:
- MIT协议
媒体类型:
- 文本(Text)
论文链接:https://arxiv.org/pdf/1906.06127v3.pdf
发布日期:"2019"
发布仓库链接:https://github.com/thunlp/DocRED
发布方:
- 清华大学(Tsinghua University)
- 腾讯(Tencent)
标签:
- 文档(Documents)
- 标注(Annotation)
任务类型:
- 文本信息抽取(Text Information Extraction)
- 文本关系抽取(Text Relation Extraction)
---
# 数据集介绍
## 简介
DocRED(文档级关系抽取数据集,Document-Level Relation Extraction Dataset)是基于维基百科与维基数据构建的大规模关系抽取数据集。数据集中的每篇文档均经人工标注,涵盖命名实体提及、共指信息、句内与句间关系及支撑证据。相较于传统句子级关系抽取任务,DocRED要求模型通读文档内多句文本,通过整合全文所有信息抽取实体并推断实体间的关联关系。除人工标注的标准数据集外,该数据集还提供了大规模远程监督数据。DocRED共在5053篇维基百科文档上完成标注,包含132375个实体与56354个关系事实;此外,数据集还附带了超过101873份文档的远程监督数据。
## 引文
@article{yao2019docred,
title={DocRED: A large-scale document-level relation extraction dataset},
author={Yao, Yuan and Ye, Deming and Li, Peng and Han, Xu and Lin, Yankai and Liu, Zhenghao and Liu, Zhiyuan and Huang, Lixin and Zhou, Jie and Sun, Maosong},
journal={arXiv preprint arXiv:1906.06127},
year={2019}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-08
搜集汇总
数据集介绍

背景与挑战
背景概述
DocRED是一个文档级关系抽取数据集,包含手动标注的实体和关系信息,以及大规模远程监督数据,适用于需要综合文档信息进行实体关系推断的任务。
以上内容由遇见数据集搜集并总结生成



