uCDCR
收藏uCDCR 数据集概述
数据集基本信息
- 数据集名称: uCDCR (unified Cross Document Coreference Resolution)
- 主要功能: 提供了一个统一格式,整合了12个英文跨文档共指消解(CDCR)数据集,旨在通过避免从这些数据集发布时的多样格式中进行繁琐的解析,来简化CDCR内的模型训练和数据分析。
- 策划者: Anastasia Zhukova
- 语言: 英语
- 许可证: CC-BY-SA-4.0
- 任务类别: 文本分类
- 数据规模: 10K < n < 100K
数据集详情
该数据集致力于解决自然语言理解中识别和跟踪大规模、异构文本集合中的实体和事件(即跨文档共指消解)的任务。它整合了不同领域公开可用的CDCR语料库,纠正了已知的不一致性,并丰富了缺失的属性,以促进可重复的研究。数据集同时包含实体和事件共指。
数据集来源
- 代码仓库: https://github.com/anastasia-zhukova/uCDCR
- 相关论文: Zhukova, A., Ruas, T., Wahle, J. P., & Gipp, B. (2026). Piecing together cross-document coreference resolution datasets: Systematic dataset analysis and unification. Paper accepted for presentation at LREC 2026. https://arxiv.org/abs/2603.00621
数据集结构
uCDCR整合了以下12个子数据集:
- CD2CR
- CEREC_exp
- ECB+
- ECB+METAm
- FCC-T
- GVC
- HyperCoref_exp
- MEANTIME_eng
- NewsWCL50r
- NIdent_en-cd
- NP4E_cd
- WEC-Eng
汇总统计表
| 数据集 | 主题数 | 子主题数 | 文档数 | 词元数 | 词元/文档 | 上下文长度 | 链数 | 提及数 | 单例提及 | 提及/文档 |
|---|---|---|---|---|---|---|---|---|---|---|
| CD2CR | 1 | 264 | 528 | 86K | 164 | 153 | 5222 | 7597 | 4496 | 14.4 |
| CEREC_exp | 1 | 77 | 456 | 62K | 137 | 152 | 1475 | 7080 | 468 | 15.5 |
| ECB+ | 43 | 86 | 976 | 628K | 643 | 149 | 4952 | 15051 | 3445 | 15.4 |
| ECB+METAm | 18 | 36 | 402 | 184K | 459 | 161 | 2095 | 6348 | 1481 | 15.8 |
| FCC-T | 1 | 183 | 428 | 355K | 829 | 214 | 469 | 3561 | 254 | 8.3 |
| GVC | 1 | 241 | 510 | 185K | 364 | 183 | 1679 | 7284 | 635 | 14.3 |
| HyperCoref_exp | 35 | 324 | 40938 | 29M | 727 | 184 | 13102 | 60401 | 5869 | 1.5 |
| MEANTIME_eng | 4 | 120 | 120 | 53K | 442 | 181 | 2938 | 6506 | 2270 | 54.2 |
| NewsWCL50r | 10 | 10 | 50 | 50K | 992 | 223 | 433 | 6531 | 102 | 130.6 |
| NIdent_en-cd | 1 | 5 | 93 | 50K | 541 | 212 | 2463 | 12988 | 1275 | 139.7 |
| NP4E_cd | 1 | 5 | 94 | 51K | 545 | 209 | 667 | 6559 | 0 | 69.8 |
| WEC-Eng | 18 | 7370 | 37129 | 5054K | 136 | 149 | 7597 | 43672 | 865 | 1.2 |
| uCDCR (总计/平均) | 115 | 8680 | 81229 | 36M | 498* | 181* | 43092 | 183578 | 21160 | 40.1* |
注:星号(*)表示平均值。
文件组织
每个子数据集的文件夹包含解析后的原始数据,在 train/val/test 文件夹中包含两个 **_mentions.json 文件(分别对应事件和实体)。每个数据集还有一个将这些提及合并到一个parquet文件中的版本,以及(如果之前公开过)一个类似CoNLL格式的文档分词parquet文件。
典型目录结构如下:
val
│ entity_mentions.json
│ event_mentions.json
|
test
│ entity_mentions.json
│ event_mentions.json
|
train
│ entity_mentions.json
│ event_mentions.json
│
all_documents.parquet
all_mentions.parquet
注:
all_documents.parquet文件并非所有数据集都可用。
数据格式
1. **_mentions.json 格式
此格式基于 WEC-Eng 和 Barhom et al. 2019 的提及格式进行改编和扩展。使用spaCy解析文档句子以提取提及属性,并通过依存子树中的最高节点提取提及头部。
主要字段说明:
coref_chain: 此提及所属的共指链的唯一标识符。mention_id: 提及ID。tokens_str: 完整的提及字符串。mention_type: 提及类型的缩写(如HUM)。mention_full_type: 提及类型的完整形式(如HUMAN_PART_PER)。tokens_text: 提及分词后的文本列表。mention_head: 提及短语的头部词。mention_head_lemma: 提及头部词的词元。sent_id: 句子ID。topic_id: 主题ID。subtopic_id: 子主题ID。doc_id: 文档ID。mention_context: 提及所在的上下文(文档内提及前后约N个词元,N=100,向上取整至完整句子)。context_start_end_global_id: 上下文在文档全局词元ID中的起始和结束位置列表。tokens_number_context: 提及在上下文中的位置。is_singleton: 标记此提及是否为单例。conll_doc_key: 用于在all_documents.parquet和.json文件之间进行一对一文档映射的组合键。
2. all_documents.parquet 格式
当可用时(针对先前公开的全文),该文件包含以下列:
主要字段说明:
split: 数据集划分。topic/subtopic_name/doc: 每个数据集内唯一的文档键。使用conll_doc_key字段与*_mentions.json中的提及进行匹配。sent_id: 句子ID。与*_mentions.json中的属性匹配。token_id: 每个句子内的词元ID。与*_mentions.json中的tokens_number属性匹配。token: 词元文本。与*_mentions.json中的tokens_text属性匹配。token_id_global: 每个文档内的全局词元ID。用于通过context_start_end_global_id属性匹配*_mentions.json中的提及上下文。reference: CoNLL格式的引用标记。(1表示词元是属于共指链1的提及的开始,1)表示提及的结束,(1)表示提及由单个词元组成。引用可以嵌套。
直接用途
要训练一个简单的提及二元分类模型,仅需要 entity_mentions.json 和 event_mentions.json 文件。每个文件包含一个提及列表。编码一个提及需要使用以下属性:
mention_context: 提及出现的词元列表。tokens_number_context: 提及在mention_context中出现位置的索引列表,用于定位提及。coref_chain: 如果两个提及的此值相同,则表明它们是共指的。
- 1Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification哥廷根大学 · 2026年



