coref-data/corefud_raw

Name: coref-data/corefud_raw
Creator: coref-data
Published: 2025-03-26 05:53:54
License: 暂无描述

Hugging Face2025-03-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/coref-data/corefud_raw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个语言版本的共指消解数据，涵盖了加泰罗尼亚语、捷克语、德语、英语、西班牙语、法语、匈牙利语、立陶宛语、挪威语、波兰语、俄语和土耳其语等。每个语言版本的数据集都包含训练集和验证集，数据特征包括文档ID、句子、核心指代实体、词性标注、依存关系等。数据集用于自然语言处理中的共指消解任务。

提供机构：

coref-data

原始信息汇总

数据集概述

该数据集包含多个语言版本的共指消解（coreference resolution）数据，每个语言版本都有训练集和验证集。以下是各语言版本的数据集详细信息：

语言版本列表

ca_ancora-corefud
cs_pcedt-corefud
cs_pdt-corefud
de_parcorfull-corefud
de_potsdamcc-corefud
en_gum-corefud
en_parcorfull-corefud
es_ancora-corefud
fr_democrat-corefud
hu_korkor-corefud
hu_szegedkoref-corefud
lt_lcc-corefud
no_bokmaalnarc-corefud
no_nynorsknarc-corefud
pl_pcc-corefud
ru_rucor-corefud
tr_itcc-corefud

数据集特征

每个语言版本的数据集包含以下特征：

doc_id: 文档ID，数据类型为字符串。
sentences: 句子列表，包含以下子特征：
- comment: 注释，数据类型为字符串。
- global_entity: 全局实体，数据类型为字符串。
- newdoc: 新文档标记，数据类型为字符串或布尔值。
- newpar: 新段落标记，数据类型为字符串或空值。
- sent_id: 句子ID，数据类型为字符串。
- speaker: 说话者，数据类型为字符串或空值。
- text: 句子文本，数据类型为字符串。
- tokens: 词元列表，包含以下子特征：
  - coref_mentions: 共指提及列表，包含以下子特征：
    - eid: 实体ID，数据类型为字符串。
    - eid_or_grp: 实体ID或组，数据类型为字符串。
    - etype: 实体类型，数据类型为字符串。
    - other: 其他信息，数据类型为字符串。
    - span: 跨度，数据类型为字符串。
  - deprel: 依存关系，数据类型为字符串。
  - feats: 特征，数据类型为字符串。
  - form: 词形，数据类型为字符串。
  - head: 头部，数据类型为整数。
  - lemma: 词条，数据类型为字符串。
  - misc: 杂项，数据类型为字符串。
  - ord: 顺序，数据类型为浮点数或整数。
  - upos: 通用词性，数据类型为字符串。
  - xpos: 特定词性，数据类型为字符串或空值。
coref_entities: 共指实体列表，包含以下子特征：
- eid: 实体ID，数据类型为字符串。
- eid_or_grp: 实体ID或组，数据类型为字符串。
- etype: 实体类型，数据类型为字符串。
- other: 其他信息，数据类型为字符串。
- sent_id: 句子ID，数据类型为字符串。
- span: 跨度，数据类型为字符串。

数据集分割

每个语言版本的数据集包含训练集和验证集，具体信息如下：

`ca_ancora-corefud`

训练集：字节数为55414823，样本数为1011。
验证集：字节数为8272249，样本数为131。
下载大小：9176152字节。
数据集大小：63687072字节。

`cs_pcedt-corefud`

训练集：字节数为181873031，样本数为1875。
验证集：字节数为31760999，样本数为337。
下载大小：34234633字节。
数据集大小：213634030字节。

`cs_pdt-corefud`

训练集：字节数为139395037，样本数为2533。
验证集：字节数为19218699，样本数为316。
下载大小：28371405字节。
数据集大小：158613736字节。

`de_parcorfull-corefud`

训练集：字节数为1258403，样本数为15。
验证集：字节数为157231，样本数为2。
下载大小：257396字节。
数据集大小：1415634字节。

`de_potsdamcc-corefud`

训练集：字节数为7858720，样本数为142。
验证集：字节数为989705，样本数为17。
下载大小：1061886字节。
数据集大小：8848425字节。

`en_gum-corefud`

训练集：字节数为35327836，样本数为151。
验证集：字节数为4651251，样本数为22。
下载大小：6458421字节。
数据集大小：39979087字节。

`en_parcorfull-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

`es_ancora-corefud`

训练集：字节数为63472833，样本数为1080。
验证集：字节数为8035460，样本数为131。
下载大小：10216005字节。
数据集大小：71508293字节。

`fr_democrat-corefud`

训练集：字节数为31612977，样本数为50。
验证集：字节数为4049114，样本数为46。
下载大小：6646264字节。
数据集大小：35662091字节。

`hu_korkor-corefud`

训练集：字节数为2644257，样本数为76。
验证集：字节数为348293，样本数为9。
下载大小：656442字节。
数据集大小：2992550字节。

`hu_szegedkoref-corefud`

训练集：字节数为13240965，样本数为320。
验证集：字节数为1564544，样本数为40。
下载大小：2612405字节。
数据集大小：14805509字节。

`lt_lcc-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

`no_bokmaalnarc-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

`no_nynorsknarc-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

`pl_pcc-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

`ru_rucor-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

`tr_itcc-corefud`

训练集：字节数为1126075，样本数为15。
验证集：字节数为142079，样本数为2。
下载大小：240468字节。
数据集大小：1268154字节。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，指代消解任务旨在识别文本中指向同一实体的不同表达。CorefUD数据集的构建体现了多语言协同标注的学术理念，其原始数据源自多个独立的指代消解语料库，如AnCora、PDT和PCC等。通过统一的UD（Universal Dependencies）框架进行标准化转换，将不同来源的标注体系映射为一致的格式，确保了跨语言数据的可比性与互操作性。该过程涉及复杂的语言学对齐，包括词法、句法及指代关系的整合，最终形成结构化的多语言文档集合，为研究提供了坚实的语料基础。

特点

CorefUD数据集的核心特征在于其广泛的多语言覆盖与丰富的标注层次。该数据集囊括了加泰罗尼亚语、捷克语、德语、英语、西班牙语、法语、匈牙利语、立陶宛语、挪威语、波兰语、俄语及土耳其语等十余种语言，展现了语言多样性。每个语言配置均包含训练集与验证集，数据规模从数千到数十万字节不等。标注信息不仅涵盖基本的词形、词性、句法依赖，还深度集成了指代消解实体与提及，通过eid、etype等字段细致刻画了实体类型与跨句共指关系，为模型训练提供了多维度的语言学信号。

使用方法

针对指代消解模型的开发与评估，CorefUD数据集提供了便捷的标准化使用路径。研究者可通过HuggingFace数据集库直接加载特定语言配置，如'en_gum-corefud'或'es_ancora-corefud'，快速获取结构化的文档数据。每个样本以文档为单位，包含句子序列及对应的词元标注，核心指代信息存储于tokens层的coref_mentions与顶层的coref_entities中。用户可依据训练与验证划分进行模型训练，利用丰富的词法句法特征增强指代消解性能，亦可通过跨语言配置比较语言特性对指代现象的影响，推动多语言自然语言理解的前沿探索。

背景与挑战

背景概述

在自然语言处理领域，指代消解是理解文本语义连贯性的核心任务之一，其目标在于识别文本中指向同一实体的不同表达。CorefUD数据集作为一项多语言指代消解资源，由多个研究机构合作构建，旨在统一不同语言中已有的指代标注体系，促进跨语言指代模型的开发。该数据集整合了包括英语、德语、西班牙语等十余种语言的标注语料，涵盖了新闻、学术文本等多种文体，为指代消解研究提供了丰富的跨语言基准。其创建推动了指代消解任务从单一语言向多语言泛化的演进，增强了自然语言理解系统在处理复杂文本时的鲁棒性。

当前挑战

指代消解任务本身面临诸多挑战，例如实体提及的模糊性、长距离依赖关系的捕捉以及跨句指代的识别，这些都需要模型具备深层次的语义推理能力。在构建CorefUD数据集的过程中，挑战主要源于多语言标注标准的统一，不同语言在语法结构和指代习惯上的差异使得标注规范难以协调。此外，整合来自不同来源的语料时，需处理标注格式、实体类型定义的不一致性，确保数据质量的均衡与可比性。这些构建难题限制了数据集的规模扩展，并对多语言指代消解模型的训练与评估提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，指代消解是理解文本连贯性的核心任务之一。CorefUD数据集以其多语言、统一标注的特性，成为训练和评估指代消解模型的经典资源。该数据集整合了包括英语、德语、西班牙语在内的多种语言语料，每个样本均提供句子级别的词法、句法及指代关系标注，使得研究者能够构建跨语言的统一指代消解系统，推动模型在复杂语境下的实体关联识别能力。

解决学术问题

指代消解研究长期面临标注标准不统一、跨语言数据稀缺的挑战。CorefUD数据集通过融合Universal Dependencies框架，提供了跨语言一致的指代标注方案，有效解决了不同语料库间标注差异导致的模型泛化难题。该数据集促进了多语言指代消解的理论探索，为研究语言普遍性与特异性在指代现象中的表现提供了实证基础，显著提升了学术社区对指代机制的认知深度。

衍生相关工作

基于CorefUD数据集，学术界涌现了一系列经典工作。例如，研究团队利用其多语言特性开发了跨语言指代消解基准测试框架，评估了预训练模型在多语种上的表现。同时，该数据集启发了对指代消解与句法依存关系交互的深入探究，衍生出结合图神经网络与注意力机制的联合模型，这些工作显著推动了指代消解技术向更高效、更通用的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集