DWIE
收藏DWIE: 实体中心的多任务文档级信息抽取数据集
简介
DWIE(Deutsche Welle 信息抽取语料库)是一个新的文档级多任务信息抽取(IE)数据集。它结合了四个主要IE子任务:
- 命名实体识别:23,130个实体,分为311个多标签实体类型(标签)。
- 共指消解:43,373个实体提及,聚类为23,130个实体。
- 关系抽取:21,749个实体间的关系,分为65个多标签关系类型。
- 实体链接:命名实体链接到维基百科(20181115版本)。
DWIE被设计为一个实体中心的数据集,描述了整个文档级别上概念实体的交互和属性。这与目前主导的提及驱动方法形成对比,后者从单个句子中检测和分类命名实体提及开始。数据集从新闻平台(Deutsche Welle的英文在线内容)随机抽样,并生成标注方案以覆盖这些内容。
数据集下载和预处理
公开可用的DWIE标注位于data/annos目录中。要获取每个标注文章的内容,需要运行以下脚本:
bash
pip install -r requirements_download_dataset.txt
python src/dwie_download.py
该脚本将使用Deutsche Welle网络服务检索文章内容,将其添加到标注文件中,并保存在data/annos_with_content目录中。
数据集格式
data/annos_with_content目录中的每个标注文章位于不同的.json文件中,包含以下键:
id:文章的唯一标识符。content:使用src/dwie_download.py脚本下载的文章文本内容。tags:用于区分train和test文档集。mentions:文章中的实体提及列表,每个提及包含以下键:begin:提及的第一个字符的偏移量(在content字段内)。end:提及的最后一个字符的偏移量(在content字段内)。text:实体提及的文本表示。concept:表示实体提及的实体ID(文章中的多个实体提及可以指向同一个concept)。candidates:候选维基百科链接。scores:候选实体链接在维基百科语料库上的先验概率。
concepts:聚类每个实体提及的实体列表,每个实体包含以下键:concept:文档级别的唯一实体ID。text:属于该实体的最长提及的文本。keyword:指示实体是否为关键词。count:文档中属于该实体的提及数量。link:实体链接到维基百科。tags:与实体关联的多标签分类标签。
relations:实体间(concepts)的文档级别关系列表,每个关系包含以下键:s:关系中的主体实体ID。p:定义关系名称的谓词(例如,"citizen_of","member_of"等)。o:关系中的客体实体ID。
iptc:多标签文章IPTC分类代码。
数据集使用
如果您在自己的研究中使用此代码/数据集,请引用以下文献:
@article{ZAPOROJETS2021102563, title = {{DWIE}: An entity-centric dataset for multi-task document-level information extraction}, journal = {Information Processing & Management}, volume = {58}, number = {4}, pages = {102563}, year = {2021}, issn = {0306-4573}, doi = {https://doi.org/10.1016/j.ipm.2021.102563}, url = {https://www.sciencedirect.com/science/article/pii/S0306457321000662}, author = {Klim Zaporojets and Johannes Deleu and Chris Develder and Thomas Demeester} }

- 1DWIE: an entity-centric dataset for multi-task document-level information extraction · 2021年



