CorefUD 1.3
收藏arXiv2025-09-22 更新2025-09-24 收录
下载链接:
https://ufal.mff.cuni.cz/corefud
下载链接
链接失效反馈官方服务:
资源简介:
CorefUD 1.3是一个包含17种语言的24个数据集的集合,旨在促进多语言指代消解的研究。该数据集涵盖了新闻、小说、圣经文本和维基百科文章等多个领域,并包含了法语ANCOR、印地语HDTB和韩语ECMT等新数据集。数据集的创建旨在解决多语言指代消解的问题,并为研究人员提供一个探索基于LLM的指代消解方法的平台。
CorefUD 1.3 is a collection of 24 datasets spanning 17 languages, designed to advance research in multilingual coreference resolution. This dataset covers multiple domains including news, fiction, biblical texts, and Wikipedia articles, and incorporates new datasets such as French ANCOR, Hindi HDTB, and Korean ECMT. It was developed to address the challenges of multilingual coreference resolution and provide researchers with a platform to explore LLM-based coreference resolution methods.
提供机构:
Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, Prague, Czechia; University of West Bohemia, Faculty of Applied Sciences, Department of Computer Science and Engineering, Pilsen, Czechia
创建时间:
2025-09-22
原始信息汇总
CorefUD 数据集概述
数据集简介
CorefUD(Coreference in Universal Dependencies)是一项旨在收集多种语言共指消解语料库并将其统一到相同方案和数据格式(CoNLL-U)的倡议。
主要特点
- 数据格式:采用CoNLL-U格式
- 语言覆盖:多语言语料库
- 标注内容:共指消解标注
版本发布
- CorefUD 1.3(2025年4月17日)
- CorefUD 1.2(2024年3月28日)
- CorefUD 1.1(2023年2月24日)
- CorefUD 1.0(2022年4月4日)
- CorefUD 0.2(2021年12月12日)
- CorefUD 0.1(2021年3月11日)
相关活动
- CRAC 2025多语言共指消解共享任务
- 历届共享任务:CRAC 2024、CRAC 2023、CRAC 2022
技术文档
- CorefUD 1.0文件格式描述:corefud-1.0-format.pdf(最后更新2023年2月6日)
- ÚFAL技术报告
联系方式
- Anna Nedoluzhko
- Michal Novák
- Martin Popel
- Zdeněk Žabokrtský
- Daniel Zeman
搜集汇总
数据集介绍

构建方式
CorefUD 1.3作为多语言指代消解研究的重要资源,其构建过程体现了严格的语言数据标准化理念。该数据集通过整合22个来源不同的标注语料,覆盖17种语言和五大语系,采用统一的CorefUD标注框架对原始数据进行格式转换和语义对齐。在版本迭代中,新增法语ANCOR会话转录数据、印地语HDTB和韩语ECMT三个语料,并对已有语料的形态句法标注进行了基于UD 2.15模型的自动化预测升级。针对零指代现象,数据集通过人工插入空节点的方式在依存句法树中显式标注隐含论元,并采用文档级随机采样策略将开发集和测试集规模控制在25k词以内,在保证数据代表性的同时优化计算效率。
特点
该数据集的显著特征在于其跨语言覆盖的广度和标注深度的高度统一。语言类型学上囊括从屈折语到孤立语的多样性体系,文本领域涵盖新闻、文学、圣经和维基百科等多维文体。标注体系采用基于Universal Dependencies的依存结构对齐方案,通过核心匹配策略统一处理不同语言的指代链识别。特别值得关注的是对零指代现象的系统性标注,在代词脱落语言中通过空节点技术实现隐含论元的可计算化表征。数据分布方面采用8:1:1的标准划分比例,并通过宏平均评估机制平衡不同规模语料对整体性能的影响。
使用方法
数据集支持两种典型的使用范式:传统管道方法和基于大语言模型的端到端方法。对于传统方法,提供包含黄金标注的CoNLL-U格式数据,支持从空节点预测到指代聚类分阶段的模型训练。针对LLM范式,创新性地设计了纯文本序列化格式,通过方括号标记实体边界和##前缀标注空节点,适配生成式模型的提示学习需求。评估体系以排除单例的CoNLL F1分数为核心指标,结合MUC、B³、CEAF-e等多维度度量,并配备依赖树对齐的空节点匹配算法。研究者可通过官方提供的格式转换工具实现CoNLL-U与纯文本格式的双向转换,以及输出结果的后处理清洗。
背景与挑战
背景概述
CorefUD 1.3是由查尔斯大学和西波希米亚大学的研究团队于2025年发布的多语言指代消解数据集,作为CODI-CRAC 2025研讨会共享任务的核心资源。该数据集整合了22个标注一致的指代语料库,涵盖17种语言和5种语系,包括新增加的韩语和印地语数据。其核心研究目标在于解决跨语言身份指代消解问题,特别是针对零指代现象(zero anaphora)的标注与处理。通过统一采用Universal Dependencies框架下的空节点标注机制,CorefUD 1.3显著推动了非英语语言的指代消解研究,并为大规模多语言模型评估提供了标准化基准。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,多语言指代消解需克服不同语言的语法结构和话语惯例差异,特别是零指代在代词脱落语言中的复杂表现;同时,传统评估指标对LLM生成的扁平化文本序列适配不足,需开发新的序列化格式与评估方法。在构建过程中,数据 harmonization 面临标注准则不统一的难题,例如不同语料库对桥接关系和事件指代的标注差异;此外,将对话语料(如法语ANCOR)中的交叉句子指代转化为线性标注时存在信息损失,而部分数据集(如韩语ECMT)的原始标注错误也增加了数据清洗的复杂度。
常用场景
经典使用场景
CorefUD 1.3作为多语言指代消解研究的关键资源,其最经典的使用场景在于为跨语言指代消解系统提供标准化训练与评估平台。该数据集通过整合17种语言的22个标注语料库,构建了统一的身份共指标注框架,尤其擅长处理零指代(zero anaphora)等复杂语言现象。在第四届多语言指代消解共享任务中,参赛系统通过CorefUD的CoNLL-U格式数据学习跨语言的指代链识别模式,其中传统模型如CorPipe通过依赖树结构与 Mention-Pair 评分机制实现实体聚类,而LLM赛道系统则探索了基于纯文本序列标注的端到端生成范式。
解决学术问题
CorefUD 1.3显著解决了多语言指代消解中的标注异构性问题,通过统一21个数据集的标注规范,消除了不同语言在指代范围、零指代重建程度等方面的差异。该数据集使研究者能够系统比较语言类型学因素(如代词脱落语言)对指代解析的影响,例如通过标注空节点(empty nodes)支持对匈牙利语、土耳其语等语言的零指代量化分析。其引入的基于依赖关系的零指代对齐评估方法,突破了传统精确匹配对零指代的局限性,为跨语言指代理论提供了可计算验证基础。
衍生相关工作
基于CorefUD衍生的经典工作包括ÚFAL团队提出的CorPipe多阶段管道模型,该模型通过联合预测提及与链接关系在连续三届共享任务中保持领先;斯坦福NLP组的Stanza系统则发展了基于头词联接的高效词级指代消解算法。在LLM范式探索中,LLM-GLaRef-CRAC25首次实现了基于Gemma模型的端到端指代标注生成,而LLM-PUXCRAC2025提出的难度感知提示工程策略为少样本指代解析提供了新思路。这些工作共同推动了多语言指代消解从传统管道模型向预训练语言模型范式的演进。
以上内容由遇见数据集搜集并总结生成



