uCDCR

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/AnZhu/uCDCR

下载链接

链接失效反馈

官方服务：

资源简介：

uCDCR（统一跨文档共指消解）数据集提供了一个统一的格式，整合了12个英文CDCR数据集，旨在简化模型训练和数据分析，避免从原始数据集的多样格式中进行繁琐的解析。该数据集支持跨文档共指消解（CDCR）任务，涵盖实体和事件共指，适用于多文档摘要、信息检索和知识库填充等下游应用。数据集包含训练/验证/测试分割，每个分割包含实体和事件的提及文件（JSON格式）以及合并后的Parquet文件。数据集字段包括共指链标识、提及ID、提及文本、类型、上下文信息等，并提供了详细的字段说明和使用示例。数据集通过统一格式和标准化评估协议，促进了CDCR领域的可重复研究。

创建时间：

2026-02-20

原始信息汇总

uCDCR 数据集概述

数据集基本信息

数据集名称: uCDCR (unified Cross Document Coreference Resolution)
主要功能: 为跨文档共指消解任务提供统一格式的数据集。
包含内容: 整合了12个英文CDCR数据集，涵盖实体和事件共指。
语言: 英语
许可协议: CC-BY-SA-4.0
数据规模: 10K < n < 100K
任务类别: 文本分类
维护者: Anastasia Zhukova

数据集来源与背景

创建动机: 解决现有CDCR数据集格式异构、标注标准不一的问题，简化模型训练与数据分析流程。
相关论文: Zhukova, A., Ruas, T., Wahle, J. P., & Gipp, B. (2026). Piecing together cross-document coreference resolution datasets: Systematic dataset analysis and unification. Paper accepted for presentation at LREC 2026. https://arxiv.org/abs/2603.00621
代码仓库: https://github.com/anastasia-zhukova/uCDCR

数据集结构

数据集文件主要分为两种格式：

1. `*_mentions.json` 文件

位置: 位于 train、val、test 文件夹内。
类型: 包含 entity_mentions.json 和 event_mentions.json。
格式来源: 格式改编并扩展自 WEC-Eng 数据集及 Barhom 等人 (2019) 使用的提及格式。
关键字段:
- coref_chain: 共指链的唯一标识符。
- mention_id: 提及ID。
- tokens_str: 完整的提及字符串。
- mention_context: 提及的上下文（约前后100个词元）。
- tokens_number_context: 提及在上下文中的位置。
- is_singleton: 标记该提及是否为单例。

2. Parquet 文件

all_mentions.parquet: 每个数据集中所有提及的合并版本。
all_documents.parquet: 包含分词后的文档（在原始全文公开可用时提供）。
- 关键字段: split, topic/subtopic_name/doc, sent_id, token_id, token, token_id_global, reference (CoNLL格式)。

包含的源数据集

数据集	共指目标	公开全文	训练/验证/测试划分
CD2CR	实体	是	沿用原始划分
CEREC	实体	是	沿用原始划分
ECB+	事件 + 实体	是	沿用原始划分
ECB+METAm	事件 + 实体	是	沿用原始划分
FCC-T	事件	信息未提供	信息未提供

直接用途

用于训练简单的提及二元分类模型，仅需使用 entity_mentions.json 和 event_mentions.json 文件。模型编码提及时需使用以下属性：

mention_context: 提及出现的词元列表。
tokens_number_context: 提及在 mention_context 中出现的位置索引。
coref_chain: 用于判断两个提及是否共指（值相同则共指）。

训练目标可参照 Eirew 等人 (2021) 的方法，对提及对在其上下文中进行编码，并以共指链关系作为训练目标。

搜集汇总

数据集介绍

构建方式

在跨文档指代消解研究领域，数据格式的异构性长期阻碍了模型的统一训练与评估。uCDCR数据集通过系统整合12个公开的英文CDCR语料库，构建了一套标准化的数据格式。该过程不仅将原始数据从CSV、CoNLL、XML及JSON等多种格式解析并统一为一致的JSON与Parquet文件，还修正了已知的数据不一致问题，并为部分数据集补充了缺失的属性信息。这种构建方式旨在消除繁琐的格式解析负担，为研究者提供一个可直接用于模型训练与分析的高质量统一资源。

特点

uCDCR数据集的核心特点在于其高度的统一性与丰富性。它首次将多个来源的实体与事件指代消解数据整合至同一框架下，涵盖了新闻、金融等多个领域。数据集提供了详尽的标注信息，包括指代链标识、提及类型、句法头部、上下文窗口及文档级令牌映射等结构化字段。尤为重要的是，uCDCR引入了标准化的评估协议与度量指标，并辅以词汇多样性与歧义性分析，为跨数据集的公平、可解释性比较奠定了坚实基础，显著提升了研究的可复现性。

使用方法

使用uCDCR数据集进行模型训练时，研究者可直接利用`entity_mentions.json`与`event_mentions.json`文件。每个文件包含提及列表，其中`mention_context`字段提供了提及所在的上下文令牌序列，`tokens_number_context`标明了提及在上下文中的位置索引，而`coref_chain`则用于判断两个提及是否指向同一实体或事件。通过编码提及对及其上下文，并以`coref_chain`的一致性作为训练目标，即可构建二分类模型。此外，配套的`all_documents.parquet`文件提供了完整的文档令牌化信息，便于进行更深入的文档级分析与映射。

背景与挑战

背景概述

跨文档共指消解（CDCR）作为自然语言理解的关键任务，旨在从异构文本集合中识别并追踪实体与事件的指代关系，其研究成果直接支撑多文档摘要、信息检索及知识库构建等下游应用。然而，该领域长期面临数据集格式分散、标注标准不一以及研究重心偏向事件共指等挑战，导致模型训练与评估缺乏统一基准。为应对这一困境，由Anastasia Zhukova等人主导的uCDCR数据集于2026年正式发布，该数据集整合了12个英文CDCR语料库，通过标准化格式与评估协议，首次实现了实体与事件共指的统一表征，为领域研究提供了可复现、可比较的综合性框架。

当前挑战

在跨文档共指消解领域，核心挑战在于处理文本中实体与事件指代的复杂性与歧义性，尤其是在多文档语境下，同一概念可能以多样化的词汇或句法形式呈现，增加了模型准确关联指代的难度。uCDCR在构建过程中，需克服原始数据集格式异构（如CSV、CoNLL、XML等）、标注规范不一致以及部分语料缺失完整文本等问题。通过系统化解析与增强缺失属性，该数据集实现了多源数据的无缝整合，但如何在此基础上进一步提升模型对词汇多样性及语义模糊性的鲁棒性，仍是未来研究的关键方向。

常用场景

经典使用场景

在自然语言理解领域，跨文档共指消解（CDCR）是处理大规模异构文本集合中实体与事件追踪的关键任务。uCDCR数据集通过整合12个英文CDCR数据集，提供了一个统一格式的语料库，极大地简化了模型训练与数据分析流程。其经典使用场景在于为研究人员提供标准化的数据输入，支持端到端的共指消解模型开发，特别是在处理多源文档时，能够有效避免因原始数据格式差异导致的解析负担，从而加速实验迭代与模型优化进程。

衍生相关工作

基于uCDCR的统一格式，多项经典研究工作得以衍生与发展。例如，借鉴Eirew等人（2021）的跨文档事件共指方法，研究者可利用该数据集的提及对编码与共指链标签，训练高效的二分类模型。同时，数据集整合的标准化评估协议促进了跨模型性能比较，如Barhom等人（2019）的实体与事件共指框架可在统一基准下进行验证与优化。这些工作不仅推动了CDCR算法的创新，也为迁移学习与领域自适应研究提供了丰富的实验平台。

数据集最近研究