DWIE

arXiv2021-03-09 更新2024-07-30 收录

下载链接：

https://github.com/klimzaporojets/DWIE

下载链接

链接失效反馈

官方服务：

资源简介：

DWIE是一个以实体为中心的多任务数据集，用于文档级信息提取，结合了四个主要的信息提取子任务：命名实体识别、共指消解、关系提取和实体链接。该数据集描述了整个文档级别上概念实体的交互和属性，与当前主流的提及驱动方法不同，后者从单个句子中检测和分类命名实体提及开始。

DWIE is an entity-centric multi-task dataset for document-level information extraction that integrates four core information extraction subtasks: named entity recognition (NER), coreference resolution, relation extraction, and entity linking. This dataset characterizes the interactions and attributes of conceptual entities across the entire document level. In contrast to current mainstream mention-driven approaches, which start by detecting and classifying named entity mentions from individual sentences.

创建时间：

2020-09-26

原始信息汇总

DWIE: 实体中心的多任务文档级信息抽取数据集

简介

DWIE（Deutsche Welle 信息抽取语料库）是一个新的文档级多任务信息抽取（IE）数据集。它结合了四个主要IE子任务：

命名实体识别：23,130个实体，分为311个多标签实体类型（标签）。
共指消解：43,373个实体提及，聚类为23,130个实体。
关系抽取：21,749个实体间的关系，分为65个多标签关系类型。
实体链接：命名实体链接到维基百科（20181115版本）。

DWIE被设计为一个实体中心的数据集，描述了整个文档级别上概念实体的交互和属性。这与目前主导的提及驱动方法形成对比，后者从单个句子中检测和分类命名实体提及开始。数据集从新闻平台（Deutsche Welle的英文在线内容）随机抽样，并生成标注方案以覆盖这些内容。

数据集下载和预处理

公开可用的DWIE标注位于data/annos目录中。要获取每个标注文章的内容，需要运行以下脚本： bash pip install -r requirements_download_dataset.txt python src/dwie_download.py

该脚本将使用Deutsche Welle网络服务检索文章内容，将其添加到标注文件中，并保存在data/annos_with_content目录中。

数据集格式

data/annos_with_content目录中的每个标注文章位于不同的.json文件中，包含以下键：

id：文章的唯一标识符。
content：使用src/dwie_download.py脚本下载的文章文本内容。
tags：用于区分train和test文档集。
mentions：文章中的实体提及列表，每个提及包含以下键：
- begin：提及的第一个字符的偏移量（在content字段内）。
- end：提及的最后一个字符的偏移量（在content字段内）。
- text：实体提及的文本表示。
- concept：表示实体提及的实体ID（文章中的多个实体提及可以指向同一个concept）。
- candidates：候选维基百科链接。
- scores：候选实体链接在维基百科语料库上的先验概率。
concepts：聚类每个实体提及的实体列表，每个实体包含以下键：
- concept：文档级别的唯一实体ID。
- text：属于该实体的最长提及的文本。
- keyword：指示实体是否为关键词。
- count：文档中属于该实体的提及数量。
- link：实体链接到维基百科。
- tags：与实体关联的多标签分类标签。
relations：实体间（concepts）的文档级别关系列表，每个关系包含以下键：
- s：关系中的主体实体ID。
- p：定义关系名称的谓词（例如，"citizen_of"，"member_of"等）。
- o：关系中的客体实体ID。
iptc：多标签文章IPTC分类代码。

数据集使用

如果您在自己的研究中使用此代码/数据集，请引用以下文献：

@article{ZAPOROJETS2021102563, title = {{DWIE}: An entity-centric dataset for multi-task document-level information extraction}, journal = {Information Processing & Management}, volume = {58}, number = {4}, pages = {102563}, year = {2021}, issn = {0306-4573}, doi = {https://doi.org/10.1016/j.ipm.2021.102563}, url = {https://www.sciencedirect.com/science/article/pii/S0306457321000662}, author = {Klim Zaporojets and Johannes Deleu and Chris Develder and Thomas Demeester} }

搜集汇总

数据集介绍

构建方式

在信息抽取领域，传统数据集多采用基于局部提及的标注方式，难以捕捉文档层面的语义关联。DWIE数据集通过自底向上的数据驱动方法构建，采用三阶段标注流程：首先进行探索性标注以从语料中归纳实体与关系类型；随后基于归纳出的模式进行模式驱动标注，并引入逻辑规则确保关系一致性；最后通过独立专家重标注进行跨标注者一致性校验与精修。该数据集包含802篇随机选取的英文新闻文档，涵盖命名实体识别、共指消解、关系抽取和实体链接四项核心任务，所有标注均在实体簇层面进行，实现了从提及驱动到实体中心的范式转变。

使用方法

DWIE数据集适用于多任务信息抽取模型的开发与评估，尤其侧重于探索实体中心与文档层面的联合学习。在使用时，研究者需构建能够处理实体簇而非独立提及的模型架构，例如基于图神经网络的跨度表示方法。数据集支持对命名实体识别、共指消解、关系抽取及实体链接任务的独立或联合训练，其评估需采用专门设计的软实体级指标，以平衡提及级预测与簇级一致性。典型应用包括扩展动态图信息抽取框架，通过注意力传播、共指传播等图消息传递机制，在文档范围内进行上下文信息共享与跨任务交互，以提升对隐式关系的推理能力。

背景与挑战

背景概述

DWIE（Deutsche Welle Corpus for Information Extraction）数据集由根特大学IDLab研究团队于2021年正式发布，旨在构建一个面向文档级信息抽取的多任务实体中心数据集。该数据集突破了传统基于提及的标注范式，将命名实体识别、共指消解、关系抽取和实体链接四大核心任务整合于统一框架，并采用自底向上的数据驱动标注策略，从802篇英语新闻语料中提炼出311种实体类型与65种关系类型。DWIE通过实体簇级别的标注架构，强调跨句子的文档级语义推理，为知识图谱构建、智能问答等下游任务提供了更为丰富的语义表示基础，推动了信息抽取领域从局部上下文建模向全局文档理解的理论演进。

当前挑战

DWIE数据集面临的核心挑战主要体现在任务定义与评估方法两个维度。在任务层面，实体中心标注要求模型具备文档级推理能力，需从分散的实体提及中推断隐含关系（如“国防部隶属于英国”），这对传统基于局部触发的抽取模型构成显著挑战。构建过程中，标注一致性维护尤为困难，需设计三层标注流程与逻辑规则约束以保证多标签实体与关系的语义协调。评估方法上，传统基于提及的指标易受高频实体干扰，而严格基于实体簇的评估则对聚类错误过于敏感，为此研究者提出了融合提及与簇权重的软实体级评估指标，以平衡模型在细粒度预测与整体语义连贯性之间的表现。

常用场景

经典使用场景

在信息抽取研究领域，DWIE数据集常被用于探索文档级实体中心的多任务联合建模。其经典使用场景集中于训练和评估能够同时处理命名实体识别、共指消解、关系抽取和实体链接的端到端神经网络模型。研究者利用该数据集验证图神经网络在跨任务信息传递中的有效性，特别是在文档范围内进行长距离上下文推理的能力。通过实体中心的标注范式，模型需从分散的提及中整合信息，推断实体层面的语义关系，从而推动超越句子边界的深层理解。

解决学术问题

DWIE数据集主要解决了信息抽取中实体中心标注与文档级推理的学术挑战。传统数据集多采用提及驱动和句子级标注，难以捕捉文档中隐含的跨句关系。DWIE通过实体聚类和文档级关系标注，使模型能够学习基于实体的整体表示，而非孤立提及。该数据集促进了多任务联合学习的研究，尤其在图神经网络与注意力机制的应用上，为信息抽取中的长距离依赖建模和任务间交互提供了新的实验平台。其提出的软实体级评估指标也弥补了传统提及级与硬实体级评估的不足。

实际应用

在实际应用中，DWIE数据集支持构建高性能的新闻内容分析系统，用于自动化知识图谱构建与事件脉络梳理。其文档级实体关系抽取能力可辅助媒体机构进行新闻摘要生成、事件关联分析和人物关系挖掘。在智能问答领域，基于DWIE训练的模型能提升对复杂文档的理解精度，从而改善答案的准确性与完整性。此外，该数据集还可用于个性化新闻推荐系统，通过深入理解实体间的语义联系，为用户提供更精准的内容匹配。

数据集最近研究