uCDCR

Name: uCDCR
Creator: 哥廷根大学
Published: 2026-03-03 21:12:08
License: 暂无描述

arXiv2026-03-03 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/AnZhu/uCDCR

下载链接

链接失效反馈

官方服务：

资源简介：

uCDCR是由哥廷根大学团队构建的跨文档共指消解基准数据集，整合了ECB+、WEC-Eng等12个异构语料库，覆盖新闻、邮件等多领域文本。该数据集包含实体和事件两类共指标注，通过统一JSON格式重构原始XML/CoNLL等数据，并补充短语头部、上下文等关键属性。其创建过程涉及文本重解析、标注映射及链级特征提取，旨在解决CDCR领域因数据分散、标注标准不统一导致的研究碎片化问题，为模型泛化性评估提供标准化平台。

The uCDCR benchmark dataset for cross-document coreference resolution (CDCR) was constructed by the team from the University of Göttingen. It integrates 12 heterogeneous corpora including ECB+ and WEC-Eng, covering multi-domain texts such as news and emails. This dataset includes two types of coreference annotations: entities and events. It reconstructs original data in formats like XML/CoNLL into a unified JSON structure, and supplements key attributes such as phrase heads and contextual information. Its construction process involves text re-parsing, annotation mapping and chain-level feature extraction. It aims to address the research fragmentation problem in the CDCR field caused by scattered data and inconsistent annotation standards, providing a standardized platform for evaluating the generalization capability of models.

提供机构：

哥廷根大学

创建时间：

2026-02-28

原始信息汇总

uCDCR 数据集概述

数据集基本信息

数据集名称: uCDCR (unified Cross Document Coreference Resolution)
主要功能: 提供了一个统一格式，整合了12个英文跨文档共指消解（CDCR）数据集，旨在通过避免从这些数据集发布时的多样格式中进行繁琐的解析，来简化CDCR内的模型训练和数据分析。
策划者: Anastasia Zhukova
语言: 英语
许可证: CC-BY-SA-4.0
任务类别: 文本分类
数据规模: 10K < n < 100K

数据集详情

该数据集致力于解决自然语言理解中识别和跟踪大规模、异构文本集合中的实体和事件（即跨文档共指消解）的任务。它整合了不同领域公开可用的CDCR语料库，纠正了已知的不一致性，并丰富了缺失的属性，以促进可重复的研究。数据集同时包含实体和事件共指。

数据集来源

代码仓库: https://github.com/anastasia-zhukova/uCDCR
相关论文: Zhukova, A., Ruas, T., Wahle, J. P., & Gipp, B. (2026). Piecing together cross-document coreference resolution datasets: Systematic dataset analysis and unification. Paper accepted for presentation at LREC 2026. https://arxiv.org/abs/2603.00621

数据集结构

uCDCR整合了以下12个子数据集：

CD2CR
CEREC_exp
ECB+
ECB+METAm
FCC-T
GVC
HyperCoref_exp
MEANTIME_eng
NewsWCL50r
NIdent_en-cd
NP4E_cd
WEC-Eng

汇总统计表

数据集	主题数	子主题数	文档数	词元数	词元/文档	上下文长度	链数	提及数	单例提及	提及/文档
CD2CR	1	264	528	86K	164	153	5222	7597	4496	14.4
CEREC_exp	1	77	456	62K	137	152	1475	7080	468	15.5
ECB+	43	86	976	628K	643	149	4952	15051	3445	15.4
ECB+METAm	18	36	402	184K	459	161	2095	6348	1481	15.8
FCC-T	1	183	428	355K	829	214	469	3561	254	8.3
GVC	1	241	510	185K	364	183	1679	7284	635	14.3
HyperCoref_exp	35	324	40938	29M	727	184	13102	60401	5869	1.5
MEANTIME_eng	4	120	120	53K	442	181	2938	6506	2270	54.2
NewsWCL50r	10	10	50	50K	992	223	433	6531	102	130.6
NIdent_en-cd	1	5	93	50K	541	212	2463	12988	1275	139.7
NP4E_cd	1	5	94	51K	545	209	667	6559	0	69.8
WEC-Eng	18	7370	37129	5054K	136	149	7597	43672	865	1.2
uCDCR (总计/平均)	115	8680	81229	36M	498*	181*	43092	183578	21160	40.1*

注：星号(*)表示平均值。

文件组织

每个子数据集的文件夹包含解析后的原始数据，在 train/val/test 文件夹中包含两个 **_mentions.json 文件（分别对应事件和实体）。每个数据集还有一个将这些提及合并到一个parquet文件中的版本，以及（如果之前公开过）一个类似CoNLL格式的文档分词parquet文件。典型目录结构如下：

val │ entity_mentions.json │ event_mentions.json
| test │ entity_mentions.json │ event_mentions.json
| train │ entity_mentions.json │ event_mentions.json
│ all_documents.parquet all_mentions.parquet

注：all_documents.parquet 文件并非所有数据集都可用。

数据格式

1. `**_mentions.json` 格式

此格式基于 WEC-Eng 和 Barhom et al. 2019 的提及格式进行改编和扩展。使用spaCy解析文档句子以提取提及属性，并通过依存子树中的最高节点提取提及头部。

主要字段说明:

coref_chain: 此提及所属的共指链的唯一标识符。
mention_id: 提及ID。
tokens_str: 完整的提及字符串。
mention_type: 提及类型的缩写（如 HUM）。
mention_full_type: 提及类型的完整形式（如 HUMAN_PART_PER）。
tokens_text: 提及分词后的文本列表。
mention_head: 提及短语的头部词。
mention_head_lemma: 提及头部词的词元。
sent_id: 句子ID。
topic_id: 主题ID。
subtopic_id: 子主题ID。
doc_id: 文档ID。
mention_context: 提及所在的上下文（文档内提及前后约N个词元，N=100，向上取整至完整句子）。
context_start_end_global_id: 上下文在文档全局词元ID中的起始和结束位置列表。
tokens_number_context: 提及在上下文中的位置。
is_singleton: 标记此提及是否为单例。
conll_doc_key: 用于在 all_documents.parquet 和 .json 文件之间进行一对一文档映射的组合键。

2. `all_documents.parquet` 格式

当可用时（针对先前公开的全文），该文件包含以下列：

主要字段说明:

split: 数据集划分。
topic/subtopic_name/doc: 每个数据集内唯一的文档键。使用 conll_doc_key 字段与 *_mentions.json 中的提及进行匹配。
sent_id: 句子ID。与 *_mentions.json 中的属性匹配。
token_id: 每个句子内的词元ID。与 *_mentions.json 中的 tokens_number 属性匹配。
token: 词元文本。与 *_mentions.json 中的 tokens_text 属性匹配。
token_id_global: 每个文档内的全局词元ID。用于通过 context_start_end_global_id 属性匹配 *_mentions.json 中的提及上下文。
reference: CoNLL格式的引用标记。(1 表示词元是属于共指链1的提及的开始，1) 表示提及的结束，(1) 表示提及由单个词元组成。引用可以嵌套。

直接用途

要训练一个简单的提及二元分类模型，仅需要 entity_mentions.json 和 event_mentions.json 文件。每个文件包含一个提及列表。编码一个提及需要使用以下属性：

mention_context: 提及出现的词元列表。
tokens_number_context: 提及在 mention_context 中出现位置的索引列表，用于定位提及。
coref_chain: 如果两个提及的此值相同，则表明它们是共指的。

搜集汇总

数据集介绍

构建方式

在跨文档指代消解领域，数据集的异构性长期阻碍了研究的可比性与可复现性。uCDCR通过系统整合12个公开可用的英文CDCR语料库，构建了一个统一的基准数据集。其构建过程首先将原始数据从XML、CoNLL、CSV等多种格式统一转换为标准化的JSON格式，并利用spaCy工具对文档进行重新解析与分词，以纠正原有标记化不一致的问题。随后，通过字符串与词符级别的精确映射，将原始标注的提及重新对齐至重新解析后的文本，并提取补充了缺失的属性，如提及头部词元、上下文窗口及话题-子话题结构。这一流程不仅确保了数据格式的一致性，还通过提取链级与提及级特征，为跨数据集的系统分析奠定了坚实基础。

使用方法

uCDCR数据集为跨文档指代消解模型的训练、评估与泛化能力测试提供了系统化平台。研究人员可直接使用其发布的标准化JSON文件，其中分别包含事件提及与实体提及的标注信息，以及相应的文档文本。数据集已预先划分为训练、验证与测试集，支持在子话题层面与话题层面进行核心ference解析评估。使用者可基于统一的评估脚本计算MUC、B³、CEAFe及CoNLL F1分数，从而在不同数据集间进行公平的性能比较。此外，该数据集配套的解析与分析代码便于用户深入探究词汇多样性、歧义性等语言学属性对模型性能的影响，进而推动构建更具鲁棒性的CDCR模型。

背景与挑战

背景概述

跨文档共指消解作为自然语言理解中的核心任务，旨在识别并关联不同文档中指向相同实体或事件的表达，对于多文档摘要、信息检索及知识库构建等下游应用具有关键意义。然而，该领域长期面临数据集格式异构、标注标准不一以及研究碎片化等挑战，尤其以事件共指消解为主导的定义方式，进一步忽视了实体共指消解的复杂性。为应对这些问题，哥廷根大学的研究团队于2026年提出了uCDCR数据集，通过整合12个公开可用的英文跨文档共指消解语料库，将其统一为一致的JSON格式，并修正了已知的不一致性与缺失属性，从而为领域提供了首个标准化的评估框架。该数据集的建立不仅促进了研究的可复现性，还通过系统化的词汇多样性与歧义性分析，揭示了现有基准数据集如ECB+在词汇多样性方面的局限性，显著推动了跨文档共指消解模型的泛化能力与整体进展。

当前挑战

uCDCR数据集致力于解决跨文档共指消解领域中的两大核心挑战：其一，在领域问题层面，该任务需同时处理实体与事件共指消解，而传统研究往往侧重于事件共指，忽略了实体共指的复杂性，导致模型泛化能力不足；此外，跨文档共指消解涉及大规模、异质性文本集合，模型必须克服词汇表达多样性高、语义歧义性强以及跨文档上下文依赖等难题。其二，在构建过程中，研究团队面临了多重挑战：包括原始数据集格式的异构性（如XML、CoNLL、CSV等多种格式并存），标注标准与规则的差异所导致的数据不一致性，以及词汇化过程中的标记化错误修复；同时，数据整合还需完成缺失属性（如提及头部、上下文信息）的提取与补充，并确保数据分割的合理性与评估协议的统一性，这些步骤均对数据集的标准化与可靠性提出了严峻考验。

常用场景

经典使用场景

在自然语言处理领域，跨文档共指消解（CDCR）旨在识别并关联不同文档中指向相同实体或事件的表达。uCDCR数据集作为首个统一的CDCR基准，其经典使用场景集中于为模型训练与评估提供标准化框架。通过整合12个公开可用的英文CDCR语料库，涵盖新闻、电子邮件及科学文献等多个领域，uCDCR将异构的数据格式、标注标准和评估协议统一为一致的JSON格式。这使得研究者能够在同一基准下系统比较不同模型的性能，尤其适用于探索实体与事件共指消解的联合任务，从而推动模型在多样化语言环境和标注范式下的泛化能力研究。

解决学术问题

uCDCR主要解决了跨文档共指消解研究中长期存在的碎片化问题。以往研究因数据集格式不一、标注标准各异且偏重于事件共指消解（ECR），导致模型评估缺乏可比性，阻碍了方法论的创新与可重复性。该数据集通过统一数据格式、纠正标注不一致性并补充缺失属性，建立了公平、可解释的跨数据集分析框架。其意义在于首次将实体与事件共指消解纳入同一评估体系，揭示了二者在消解难度上的可比性，纠正了以往仅聚焦事件共指的学术倾向。此外，uCDCR提供的词汇多样性与歧义性量化分析，为理解语言特性对模型性能的影响提供了实证基础，促进了CDCR领域向更系统、稳健的研究范式转变。

实际应用

在实际应用层面，uCDCR数据集支撑了多种自然语言理解下游任务的发展。基于其统一的跨文档共指消解能力，该数据集可直接应用于多文档摘要系统，通过准确关联不同来源中的核心实体与事件，生成连贯、信息密集的摘要内容。在信息检索领域，uCDCR有助于提升跨文档实体链接的精度，改善知识库的构建与更新效率，特别是在新闻监控、舆情分析等场景中实现对动态事件的持续追踪。此外，该数据集也为司法文档分析、学术文献管理等领域提供了技术基础，使得机器能够更有效地理解分散于多文本中的复杂指代关系，从而增强自动化信息处理系统的可靠性与实用性。

数据集最近研究