DWIE|信息提取数据集|文档分析数据集

arXiv2021-03-09 更新2024-07-30 收录

信息提取

文档分析

下载链接：

https://github.com/klimzaporojets/DWIE

下载链接

链接失效反馈

资源简介：

DWIE是一个以实体为中心的多任务数据集，用于文档级信息提取，结合了四个主要的信息提取子任务：命名实体识别、共指消解、关系提取和实体链接。该数据集描述了整个文档级别上概念实体的交互和属性，与当前主流的提及驱动方法不同，后者从单个句子中检测和分类命名实体提及开始。

创建时间：

2020-09-26

原始信息汇总

DWIE: 实体中心的多任务文档级信息抽取数据集

简介

DWIE（Deutsche Welle 信息抽取语料库）是一个新的文档级多任务信息抽取（IE）数据集。它结合了四个主要IE子任务：

命名实体识别：23,130个实体，分为311个多标签实体类型（标签）。
共指消解：43,373个实体提及，聚类为23,130个实体。
关系抽取：21,749个实体间的关系，分为65个多标签关系类型。
实体链接：命名实体链接到维基百科（20181115版本）。

DWIE被设计为一个实体中心的数据集，描述了整个文档级别上概念实体的交互和属性。这与目前主导的提及驱动方法形成对比，后者从单个句子中检测和分类命名实体提及开始。数据集从新闻平台（Deutsche Welle的英文在线内容）随机抽样，并生成标注方案以覆盖这些内容。

数据集下载和预处理

公开可用的DWIE标注位于data/annos目录中。要获取每个标注文章的内容，需要运行以下脚本： bash pip install -r requirements_download_dataset.txt python src/dwie_download.py

该脚本将使用Deutsche Welle网络服务检索文章内容，将其添加到标注文件中，并保存在data/annos_with_content目录中。

数据集格式

data/annos_with_content目录中的每个标注文章位于不同的.json文件中，包含以下键：

id：文章的唯一标识符。
content：使用src/dwie_download.py脚本下载的文章文本内容。
tags：用于区分train和test文档集。
mentions：文章中的实体提及列表，每个提及包含以下键：
- begin：提及的第一个字符的偏移量（在content字段内）。
- end：提及的最后一个字符的偏移量（在content字段内）。
- text：实体提及的文本表示。
- concept：表示实体提及的实体ID（文章中的多个实体提及可以指向同一个concept）。
- candidates：候选维基百科链接。
- scores：候选实体链接在维基百科语料库上的先验概率。
concepts：聚类每个实体提及的实体列表，每个实体包含以下键：
- concept：文档级别的唯一实体ID。
- text：属于该实体的最长提及的文本。
- keyword：指示实体是否为关键词。
- count：文档中属于该实体的提及数量。
- link：实体链接到维基百科。
- tags：与实体关联的多标签分类标签。
relations：实体间（concepts）的文档级别关系列表，每个关系包含以下键：
- s：关系中的主体实体ID。
- p：定义关系名称的谓词（例如，"citizen_of"，"member_of"等）。
- o：关系中的客体实体ID。
iptc：多标签文章IPTC分类代码。

数据集使用

如果您在自己的研究中使用此代码/数据集，请引用以下文献：

@article{ZAPOROJETS2021102563, title = {{DWIE}: An entity-centric dataset for multi-task document-level information extraction}, journal = {Information Processing & Management}, volume = {58}, number = {4}, pages = {102563}, year = {2021}, issn = {0306-4573}, doi = {https://doi.org/10.1016/j.ipm.2021.102563}, url = {https://www.sciencedirect.com/science/article/pii/S0306457321000662}, author = {Klim Zaporojets and Johannes Deleu and Chris Develder and Thomas Demeester} }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

NHANES

NHANES（National Health and Nutrition Examination Survey）是美国国家健康与营养调查的数据集，旨在评估美国人口的健康和营养状况。数据集包括健康检查、实验室测试、问卷调查等多方面的信息。

www.cdc.gov 收录

Hang Seng Index

恒生指数（Hang Seng Index）是香港股市的主要股票市场指数，由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司，反映了香港股市的整体表现。

www.hsi.com.hk 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集，共计约1,0000,000轮，上亿级token，包含正式&非正式风格对话，使用偏口语化自然表达。覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上，DOTS-NLP-216包含了对真实场景的对话采集，及高度还原真实场景的模拟对话这两种方式，兼顾分布的代表性、多样性和样本规模。

魔搭社区收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库，包含超过130万条记录，涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录