five

uCDCR

收藏
arXiv2026-03-03 更新2026-03-05 收录
下载链接:
https://huggingface.co/datasets/AnZhu/uCDCR
下载链接
链接失效反馈
官方服务:
资源简介:
uCDCR是由哥廷根大学团队构建的跨文档共指消解基准数据集,整合了ECB+、WEC-Eng等12个异构语料库,覆盖新闻、邮件等多领域文本。该数据集包含实体和事件两类共指标注,通过统一JSON格式重构原始XML/CoNLL等数据,并补充短语头部、上下文等关键属性。其创建过程涉及文本重解析、标注映射及链级特征提取,旨在解决CDCR领域因数据分散、标注标准不统一导致的研究碎片化问题,为模型泛化性评估提供标准化平台。

The uCDCR benchmark dataset for cross-document coreference resolution (CDCR) was constructed by the team from the University of Göttingen. It integrates 12 heterogeneous corpora including ECB+ and WEC-Eng, covering multi-domain texts such as news and emails. This dataset includes two types of coreference annotations: entities and events. It reconstructs original data in formats like XML/CoNLL into a unified JSON structure, and supplements key attributes such as phrase heads and contextual information. Its construction process involves text re-parsing, annotation mapping and chain-level feature extraction. It aims to address the research fragmentation problem in the CDCR field caused by scattered data and inconsistent annotation standards, providing a standardized platform for evaluating the generalization capability of models.
提供机构:
哥廷根大学
创建时间:
2026-02-28
原始信息汇总

uCDCR 数据集概述

数据集基本信息

  • 数据集名称: uCDCR (unified Cross Document Coreference Resolution)
  • 主要功能: 提供了一个统一格式,整合了12个英文跨文档共指消解(CDCR)数据集,旨在通过避免从这些数据集发布时的多样格式中进行繁琐的解析,来简化CDCR内的模型训练和数据分析。
  • 策划者: Anastasia Zhukova
  • 语言: 英语
  • 许可证: CC-BY-SA-4.0
  • 任务类别: 文本分类
  • 数据规模: 10K < n < 100K

数据集详情

该数据集致力于解决自然语言理解中识别和跟踪大规模、异构文本集合中的实体和事件(即跨文档共指消解)的任务。它整合了不同领域公开可用的CDCR语料库,纠正了已知的不一致性,并丰富了缺失的属性,以促进可重复的研究。数据集同时包含实体和事件共指。

数据集来源

  • 代码仓库: https://github.com/anastasia-zhukova/uCDCR
  • 相关论文: Zhukova, A., Ruas, T., Wahle, J. P., & Gipp, B. (2026). Piecing together cross-document coreference resolution datasets: Systematic dataset analysis and unification. Paper accepted for presentation at LREC 2026. https://arxiv.org/abs/2603.00621

数据集结构

uCDCR整合了以下12个子数据集:

  • CD2CR
  • CEREC_exp
  • ECB+
  • ECB+METAm
  • FCC-T
  • GVC
  • HyperCoref_exp
  • MEANTIME_eng
  • NewsWCL50r
  • NIdent_en-cd
  • NP4E_cd
  • WEC-Eng

汇总统计表

数据集 主题数 子主题数 文档数 词元数 词元/文档 上下文长度 链数 提及数 单例提及 提及/文档
CD2CR 1 264 528 86K 164 153 5222 7597 4496 14.4
CEREC_exp 1 77 456 62K 137 152 1475 7080 468 15.5
ECB+ 43 86 976 628K 643 149 4952 15051 3445 15.4
ECB+METAm 18 36 402 184K 459 161 2095 6348 1481 15.8
FCC-T 1 183 428 355K 829 214 469 3561 254 8.3
GVC 1 241 510 185K 364 183 1679 7284 635 14.3
HyperCoref_exp 35 324 40938 29M 727 184 13102 60401 5869 1.5
MEANTIME_eng 4 120 120 53K 442 181 2938 6506 2270 54.2
NewsWCL50r 10 10 50 50K 992 223 433 6531 102 130.6
NIdent_en-cd 1 5 93 50K 541 212 2463 12988 1275 139.7
NP4E_cd 1 5 94 51K 545 209 667 6559 0 69.8
WEC-Eng 18 7370 37129 5054K 136 149 7597 43672 865 1.2
uCDCR (总计/平均) 115 8680 81229 36M 498* 181* 43092 183578 21160 40.1*

注:星号(*)表示平均值。

文件组织

每个子数据集的文件夹包含解析后的原始数据,在 train/val/test 文件夹中包含两个 **_mentions.json 文件(分别对应事件和实体)。每个数据集还有一个将这些提及合并到一个parquet文件中的版本,以及(如果之前公开过)一个类似CoNLL格式的文档分词parquet文件。 典型目录结构如下:

val │ entity_mentions.json │ event_mentions.json
| test │ entity_mentions.json │ event_mentions.json
| train │ entity_mentions.json │ event_mentions.json
│ all_documents.parquet all_mentions.parquet

注:all_documents.parquet 文件并非所有数据集都可用。

数据格式

1. **_mentions.json 格式

此格式基于 WEC-EngBarhom et al. 2019 的提及格式进行改编和扩展。使用spaCy解析文档句子以提取提及属性,并通过依存子树中的最高节点提取提及头部。

主要字段说明:

  • coref_chain: 此提及所属的共指链的唯一标识符。
  • mention_id: 提及ID。
  • tokens_str: 完整的提及字符串。
  • mention_type: 提及类型的缩写(如 HUM)。
  • mention_full_type: 提及类型的完整形式(如 HUMAN_PART_PER)。
  • tokens_text: 提及分词后的文本列表。
  • mention_head: 提及短语的头部词。
  • mention_head_lemma: 提及头部词的词元。
  • sent_id: 句子ID。
  • topic_id: 主题ID。
  • subtopic_id: 子主题ID。
  • doc_id: 文档ID。
  • mention_context: 提及所在的上下文(文档内提及前后约N个词元,N=100,向上取整至完整句子)。
  • context_start_end_global_id: 上下文在文档全局词元ID中的起始和结束位置列表。
  • tokens_number_context: 提及在上下文中的位置。
  • is_singleton: 标记此提及是否为单例。
  • conll_doc_key: 用于在 all_documents.parquet.json 文件之间进行一对一文档映射的组合键。

2. all_documents.parquet 格式

当可用时(针对先前公开的全文),该文件包含以下列:

主要字段说明:

  • split: 数据集划分。
  • topic/subtopic_name/doc: 每个数据集内唯一的文档键。使用 conll_doc_key 字段与 *_mentions.json 中的提及进行匹配。
  • sent_id: 句子ID。与 *_mentions.json 中的属性匹配。
  • token_id: 每个句子内的词元ID。与 *_mentions.json 中的 tokens_number 属性匹配。
  • token: 词元文本。与 *_mentions.json 中的 tokens_text 属性匹配。
  • token_id_global: 每个文档内的全局词元ID。用于通过 context_start_end_global_id 属性匹配 *_mentions.json 中的提及上下文。
  • reference: CoNLL格式的引用标记。(1 表示词元是属于共指链1的提及的开始,1) 表示提及的结束,(1) 表示提及由单个词元组成。引用可以嵌套。

直接用途

要训练一个简单的提及二元分类模型,仅需要 entity_mentions.jsonevent_mentions.json 文件。每个文件包含一个提及列表。编码一个提及需要使用以下属性:

  1. mention_context: 提及出现的词元列表。
  2. tokens_number_context: 提及在 mention_context 中出现位置的索引列表,用于定位提及。
  3. coref_chain: 如果两个提及的此值相同,则表明它们是共指的。
搜集汇总
数据集介绍
main_image_url
构建方式
在跨文档指代消解领域,数据集的异构性长期阻碍了研究的可比性与可复现性。uCDCR通过系统整合12个公开可用的英文CDCR语料库,构建了一个统一的基准数据集。其构建过程首先将原始数据从XML、CoNLL、CSV等多种格式统一转换为标准化的JSON格式,并利用spaCy工具对文档进行重新解析与分词,以纠正原有标记化不一致的问题。随后,通过字符串与词符级别的精确映射,将原始标注的提及重新对齐至重新解析后的文本,并提取补充了缺失的属性,如提及头部词元、上下文窗口及话题-子话题结构。这一流程不仅确保了数据格式的一致性,还通过提取链级与提及级特征,为跨数据集的系统分析奠定了坚实基础。
使用方法
uCDCR数据集为跨文档指代消解模型的训练、评估与泛化能力测试提供了系统化平台。研究人员可直接使用其发布的标准化JSON文件,其中分别包含事件提及与实体提及的标注信息,以及相应的文档文本。数据集已预先划分为训练、验证与测试集,支持在子话题层面与话题层面进行核心ference解析评估。使用者可基于统一的评估脚本计算MUC、B³、CEAFe及CoNLL F1分数,从而在不同数据集间进行公平的性能比较。此外,该数据集配套的解析与分析代码便于用户深入探究词汇多样性、歧义性等语言学属性对模型性能的影响,进而推动构建更具鲁棒性的CDCR模型。
背景与挑战
背景概述
跨文档共指消解作为自然语言理解中的核心任务,旨在识别并关联不同文档中指向相同实体或事件的表达,对于多文档摘要、信息检索及知识库构建等下游应用具有关键意义。然而,该领域长期面临数据集格式异构、标注标准不一以及研究碎片化等挑战,尤其以事件共指消解为主导的定义方式,进一步忽视了实体共指消解的复杂性。为应对这些问题,哥廷根大学的研究团队于2026年提出了uCDCR数据集,通过整合12个公开可用的英文跨文档共指消解语料库,将其统一为一致的JSON格式,并修正了已知的不一致性与缺失属性,从而为领域提供了首个标准化的评估框架。该数据集的建立不仅促进了研究的可复现性,还通过系统化的词汇多样性与歧义性分析,揭示了现有基准数据集如ECB+在词汇多样性方面的局限性,显著推动了跨文档共指消解模型的泛化能力与整体进展。
当前挑战
uCDCR数据集致力于解决跨文档共指消解领域中的两大核心挑战:其一,在领域问题层面,该任务需同时处理实体与事件共指消解,而传统研究往往侧重于事件共指,忽略了实体共指的复杂性,导致模型泛化能力不足;此外,跨文档共指消解涉及大规模、异质性文本集合,模型必须克服词汇表达多样性高、语义歧义性强以及跨文档上下文依赖等难题。其二,在构建过程中,研究团队面临了多重挑战:包括原始数据集格式的异构性(如XML、CoNLL、CSV等多种格式并存),标注标准与规则的差异所导致的数据不一致性,以及词汇化过程中的标记化错误修复;同时,数据整合还需完成缺失属性(如提及头部、上下文信息)的提取与补充,并确保数据分割的合理性与评估协议的统一性,这些步骤均对数据集的标准化与可靠性提出了严峻考验。
常用场景
经典使用场景
在自然语言处理领域,跨文档共指消解(CDCR)旨在识别并关联不同文档中指向相同实体或事件的表达。uCDCR数据集作为首个统一的CDCR基准,其经典使用场景集中于为模型训练与评估提供标准化框架。通过整合12个公开可用的英文CDCR语料库,涵盖新闻、电子邮件及科学文献等多个领域,uCDCR将异构的数据格式、标注标准和评估协议统一为一致的JSON格式。这使得研究者能够在同一基准下系统比较不同模型的性能,尤其适用于探索实体与事件共指消解的联合任务,从而推动模型在多样化语言环境和标注范式下的泛化能力研究。
解决学术问题
uCDCR主要解决了跨文档共指消解研究中长期存在的碎片化问题。以往研究因数据集格式不一、标注标准各异且偏重于事件共指消解(ECR),导致模型评估缺乏可比性,阻碍了方法论的创新与可重复性。该数据集通过统一数据格式、纠正标注不一致性并补充缺失属性,建立了公平、可解释的跨数据集分析框架。其意义在于首次将实体与事件共指消解纳入同一评估体系,揭示了二者在消解难度上的可比性,纠正了以往仅聚焦事件共指的学术倾向。此外,uCDCR提供的词汇多样性与歧义性量化分析,为理解语言特性对模型性能的影响提供了实证基础,促进了CDCR领域向更系统、稳健的研究范式转变。
实际应用
在实际应用层面,uCDCR数据集支撑了多种自然语言理解下游任务的发展。基于其统一的跨文档共指消解能力,该数据集可直接应用于多文档摘要系统,通过准确关联不同来源中的核心实体与事件,生成连贯、信息密集的摘要内容。在信息检索领域,uCDCR有助于提升跨文档实体链接的精度,改善知识库的构建与更新效率,特别是在新闻监控、舆情分析等场景中实现对动态事件的持续追踪。此外,该数据集也为司法文档分析、学术文献管理等领域提供了技术基础,使得机器能够更有效地理解分散于多文本中的复杂指代关系,从而增强自动化信息处理系统的可靠性与实用性。
数据集最近研究
最新研究方向
跨文档共指消解(CDCR)作为自然语言理解中的核心任务,近年来研究焦点逐渐从单一事件共指消解(ECR)转向实体与事件联合消解的综合性框架。前沿工作致力于构建统一化基准数据集以克服领域碎片化问题,例如uCDCR通过整合12个异构英文语料库,标准化数据格式与评估协议,首次实现了跨数据集的可复现比较。热点方向包括利用大语言模型进行隐喻性改写以增强词汇多样性,以及探索跨子主题、跨领域的共指消解以提升模型泛化能力。这一进展不仅推动了多文档摘要、信息检索等下游应用的发展,也为构建更稳健、可解释的CDCR系统奠定了数据基础。
相关研究论文
  • 1
    Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification哥廷根大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作