five

DocRED

收藏
魔搭社区2025-11-05 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/DocRED
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: DocRED labelTypes: - Text license: - MIT mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1906.06127v3.pdf publishDate: "2019" publishUrl: https://github.com/thunlp/DocRED publisher: - Tsinghua University - Tencent tags: - Documents - Annotation taskTypes: - Text Information Extraction - Text Relation Extraction --- # 数据集介绍 ## 简介 DocRED(Document-Level Relation Extraction Dataset)是由维基百科和维基数据构建的关系提取数据集。数据集中的每个文档都使用命名实体提及、共指信息、句内和句间关系以及支持证据进行人工注释。 DocRED 需要阅读文档中的多个句子来提取实体并通过综合文档的所有信息来推断它们的关系。除了人工注释的数据,该数据集还提供了大规模的远程监督数据。 DocRED 包含 132,375 个实体和 56,354 个关系事实,在 5,053 个 Wikipedia 文档上进行了注释。除了人工注释的数据外,该数据集还提供了超过 101,873 个文档的大规模远程监督数据。 ## 引文 ``` @article{yao2019docred, title={DocRED: A large-scale document-level relation extraction dataset}, author={Yao, Yuan and Ye, Deming and Li, Peng and Han, Xu and Lin, Yankai and Liu, Zhenghao and Liu, Zhiyuan and Huang, Lixin and Zhou, Jie and Sun, Maosong}, journal={arXiv preprint arXiv:1906.06127}, year={2019} } ``` ## Download dataset :modelscope-code[]{type="git"}

显示名称:DocRED 标签类型: - 文本(Text) 许可证: - MIT协议 媒体类型: - 文本(Text) 论文链接:https://arxiv.org/pdf/1906.06127v3.pdf 发布日期:"2019" 发布仓库链接:https://github.com/thunlp/DocRED 发布方: - 清华大学(Tsinghua University) - 腾讯(Tencent) 标签: - 文档(Documents) - 标注(Annotation) 任务类型: - 文本信息抽取(Text Information Extraction) - 文本关系抽取(Text Relation Extraction) --- # 数据集介绍 ## 简介 DocRED(文档级关系抽取数据集,Document-Level Relation Extraction Dataset)是基于维基百科与维基数据构建的大规模关系抽取数据集。数据集中的每篇文档均经人工标注,涵盖命名实体提及、共指信息、句内与句间关系及支撑证据。相较于传统句子级关系抽取任务,DocRED要求模型通读文档内多句文本,通过整合全文所有信息抽取实体并推断实体间的关联关系。除人工标注的标准数据集外,该数据集还提供了大规模远程监督数据。DocRED共在5053篇维基百科文档上完成标注,包含132375个实体与56354个关系事实;此外,数据集还附带了超过101873份文档的远程监督数据。 ## 引文 @article{yao2019docred, title={DocRED: A large-scale document-level relation extraction dataset}, author={Yao, Yuan and Ye, Deming and Li, Peng and Han, Xu and Lin, Yankai and Liu, Zhenghao and Liu, Zhiyuan and Huang, Lixin and Zhou, Jie and Sun, Maosong}, journal={arXiv preprint arXiv:1906.06127}, year={2019} } ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DocRED是一个文档级关系抽取数据集,包含手动标注的实体和关系信息,以及大规模远程监督数据,适用于需要综合文档信息进行实体关系推断的任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作