coref-data/corefud_raw
收藏Hugging Face2025-03-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coref-data/corefud_raw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个语言版本的共指消解数据,涵盖了加泰罗尼亚语、捷克语、德语、英语、西班牙语、法语、匈牙利语、立陶宛语、挪威语、波兰语、俄语和土耳其语等。每个语言版本的数据集都包含训练集和验证集,数据特征包括文档ID、句子、核心指代实体、词性标注、依存关系等。数据集用于自然语言处理中的共指消解任务。
该数据集包含多个语言版本的共指消解数据,涵盖了加泰罗尼亚语、捷克语、德语、英语、西班牙语、法语、匈牙利语、立陶宛语、挪威语、波兰语、俄语和土耳其语等。每个语言版本的数据集都包含训练集和验证集,数据特征包括文档ID、句子、核心指代实体、词性标注、依存关系等。数据集用于自然语言处理中的共指消解任务。
提供机构:
coref-data
原始信息汇总
数据集概述
该数据集包含多个语言版本的共指消解(coreference resolution)数据,每个语言版本都有训练集和验证集。以下是各语言版本的数据集详细信息:
语言版本列表
ca_ancora-corefudcs_pcedt-corefudcs_pdt-corefudde_parcorfull-corefudde_potsdamcc-corefuden_gum-corefuden_parcorfull-corefudes_ancora-corefudfr_democrat-corefudhu_korkor-corefudhu_szegedkoref-corefudlt_lcc-corefudno_bokmaalnarc-corefudno_nynorsknarc-corefudpl_pcc-corefudru_rucor-corefudtr_itcc-corefud
数据集特征
每个语言版本的数据集包含以下特征:
doc_id: 文档ID,数据类型为字符串。sentences: 句子列表,包含以下子特征:comment: 注释,数据类型为字符串。global_entity: 全局实体,数据类型为字符串。newdoc: 新文档标记,数据类型为字符串或布尔值。newpar: 新段落标记,数据类型为字符串或空值。sent_id: 句子ID,数据类型为字符串。speaker: 说话者,数据类型为字符串或空值。text: 句子文本,数据类型为字符串。tokens: 词元列表,包含以下子特征:coref_mentions: 共指提及列表,包含以下子特征:eid: 实体ID,数据类型为字符串。eid_or_grp: 实体ID或组,数据类型为字符串。etype: 实体类型,数据类型为字符串。other: 其他信息,数据类型为字符串。span: 跨度,数据类型为字符串。
deprel: 依存关系,数据类型为字符串。feats: 特征,数据类型为字符串。form: 词形,数据类型为字符串。head: 头部,数据类型为整数。lemma: 词条,数据类型为字符串。misc: 杂项,数据类型为字符串。ord: 顺序,数据类型为浮点数或整数。upos: 通用词性,数据类型为字符串。xpos: 特定词性,数据类型为字符串或空值。
coref_entities: 共指实体列表,包含以下子特征:eid: 实体ID,数据类型为字符串。eid_or_grp: 实体ID或组,数据类型为字符串。etype: 实体类型,数据类型为字符串。other: 其他信息,数据类型为字符串。sent_id: 句子ID,数据类型为字符串。span: 跨度,数据类型为字符串。
数据集分割
每个语言版本的数据集包含训练集和验证集,具体信息如下:
ca_ancora-corefud
- 训练集:字节数为55414823,样本数为1011。
- 验证集:字节数为8272249,样本数为131。
- 下载大小:9176152字节。
- 数据集大小:63687072字节。
cs_pcedt-corefud
- 训练集:字节数为181873031,样本数为1875。
- 验证集:字节数为31760999,样本数为337。
- 下载大小:34234633字节。
- 数据集大小:213634030字节。
cs_pdt-corefud
- 训练集:字节数为139395037,样本数为2533。
- 验证集:字节数为19218699,样本数为316。
- 下载大小:28371405字节。
- 数据集大小:158613736字节。
de_parcorfull-corefud
- 训练集:字节数为1258403,样本数为15。
- 验证集:字节数为157231,样本数为2。
- 下载大小:257396字节。
- 数据集大小:1415634字节。
de_potsdamcc-corefud
- 训练集:字节数为7858720,样本数为142。
- 验证集:字节数为989705,样本数为17。
- 下载大小:1061886字节。
- 数据集大小:8848425字节。
en_gum-corefud
- 训练集:字节数为35327836,样本数为151。
- 验证集:字节数为4651251,样本数为22。
- 下载大小:6458421字节。
- 数据集大小:39979087字节。
en_parcorfull-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
es_ancora-corefud
- 训练集:字节数为63472833,样本数为1080。
- 验证集:字节数为8035460,样本数为131。
- 下载大小:10216005字节。
- 数据集大小:71508293字节。
fr_democrat-corefud
- 训练集:字节数为31612977,样本数为50。
- 验证集:字节数为4049114,样本数为46。
- 下载大小:6646264字节。
- 数据集大小:35662091字节。
hu_korkor-corefud
- 训练集:字节数为2644257,样本数为76。
- 验证集:字节数为348293,样本数为9。
- 下载大小:656442字节。
- 数据集大小:2992550字节。
hu_szegedkoref-corefud
- 训练集:字节数为13240965,样本数为320。
- 验证集:字节数为1564544,样本数为40。
- 下载大小:2612405字节。
- 数据集大小:14805509字节。
lt_lcc-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
no_bokmaalnarc-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
no_nynorsknarc-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
pl_pcc-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
ru_rucor-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
tr_itcc-corefud
- 训练集:字节数为1126075,样本数为15。
- 验证集:字节数为142079,样本数为2。
- 下载大小:240468字节。
- 数据集大小:1268154字节。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指代消解任务旨在识别文本中指向同一实体的不同表达。CorefUD数据集的构建体现了多语言协同标注的学术理念,其原始数据源自多个独立的指代消解语料库,如AnCora、PDT和PCC等。通过统一的UD(Universal Dependencies)框架进行标准化转换,将不同来源的标注体系映射为一致的格式,确保了跨语言数据的可比性与互操作性。该过程涉及复杂的语言学对齐,包括词法、句法及指代关系的整合,最终形成结构化的多语言文档集合,为研究提供了坚实的语料基础。
特点
CorefUD数据集的核心特征在于其广泛的多语言覆盖与丰富的标注层次。该数据集囊括了加泰罗尼亚语、捷克语、德语、英语、西班牙语、法语、匈牙利语、立陶宛语、挪威语、波兰语、俄语及土耳其语等十余种语言,展现了语言多样性。每个语言配置均包含训练集与验证集,数据规模从数千到数十万字节不等。标注信息不仅涵盖基本的词形、词性、句法依赖,还深度集成了指代消解实体与提及,通过eid、etype等字段细致刻画了实体类型与跨句共指关系,为模型训练提供了多维度的语言学信号。
使用方法
针对指代消解模型的开发与评估,CorefUD数据集提供了便捷的标准化使用路径。研究者可通过HuggingFace数据集库直接加载特定语言配置,如'en_gum-corefud'或'es_ancora-corefud',快速获取结构化的文档数据。每个样本以文档为单位,包含句子序列及对应的词元标注,核心指代信息存储于tokens层的coref_mentions与顶层的coref_entities中。用户可依据训练与验证划分进行模型训练,利用丰富的词法句法特征增强指代消解性能,亦可通过跨语言配置比较语言特性对指代现象的影响,推动多语言自然语言理解的前沿探索。
背景与挑战
背景概述
在自然语言处理领域,指代消解是理解文本语义连贯性的核心任务之一,其目标在于识别文本中指向同一实体的不同表达。CorefUD数据集作为一项多语言指代消解资源,由多个研究机构合作构建,旨在统一不同语言中已有的指代标注体系,促进跨语言指代模型的开发。该数据集整合了包括英语、德语、西班牙语等十余种语言的标注语料,涵盖了新闻、学术文本等多种文体,为指代消解研究提供了丰富的跨语言基准。其创建推动了指代消解任务从单一语言向多语言泛化的演进,增强了自然语言理解系统在处理复杂文本时的鲁棒性。
当前挑战
指代消解任务本身面临诸多挑战,例如实体提及的模糊性、长距离依赖关系的捕捉以及跨句指代的识别,这些都需要模型具备深层次的语义推理能力。在构建CorefUD数据集的过程中,挑战主要源于多语言标注标准的统一,不同语言在语法结构和指代习惯上的差异使得标注规范难以协调。此外,整合来自不同来源的语料时,需处理标注格式、实体类型定义的不一致性,确保数据质量的均衡与可比性。这些构建难题限制了数据集的规模扩展,并对多语言指代消解模型的训练与评估提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,指代消解是理解文本连贯性的核心任务之一。CorefUD数据集以其多语言、统一标注的特性,成为训练和评估指代消解模型的经典资源。该数据集整合了包括英语、德语、西班牙语在内的多种语言语料,每个样本均提供句子级别的词法、句法及指代关系标注,使得研究者能够构建跨语言的统一指代消解系统,推动模型在复杂语境下的实体关联识别能力。
解决学术问题
指代消解研究长期面临标注标准不统一、跨语言数据稀缺的挑战。CorefUD数据集通过融合Universal Dependencies框架,提供了跨语言一致的指代标注方案,有效解决了不同语料库间标注差异导致的模型泛化难题。该数据集促进了多语言指代消解的理论探索,为研究语言普遍性与特异性在指代现象中的表现提供了实证基础,显著提升了学术社区对指代机制的认知深度。
衍生相关工作
基于CorefUD数据集,学术界涌现了一系列经典工作。例如,研究团队利用其多语言特性开发了跨语言指代消解基准测试框架,评估了预训练模型在多语种上的表现。同时,该数据集启发了对指代消解与句法依存关系交互的深入探究,衍生出结合图神经网络与注意力机制的联合模型,这些工作显著推动了指代消解技术向更高效、更通用的方向发展。
以上内容由遇见数据集搜集并总结生成



