GOLEMcoref
收藏Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/lattice-nlp/GOLEMcoref
下载链接
链接失效反馈官方服务:
资源简介:
GOLEMcoref是一个多语言共指消解数据集,专门针对虚构文学作品构建。该数据集包含7种语言:印尼语、中文、荷兰语、英语、意大利语、韩语和西班牙语。数据来源于三个流行的粉丝小说平台:Archive of Our Own (AO3)、Postype和Wattpad,收录了完整的短篇故事作品。作为该领域的首创,GOLEMcoref为虚构文学提供了首个多语言覆盖的黄金标准基准。所有文本均由人类专家根据专门的注释指南进行完整标注和精心整理,并附有讨论注释挑战的报告。数据集规模包括230个文档、55,652个句子、811,389个词元、3,407,934个字符、102,682个提及和4,942个实体。每个文档包含文件名、语言、文本、词元计数、提及列表和句子跨度等信息;每个提及包含起始位置、结束位置和共指链标识符。该数据集经过标准化和重新格式化,采用统一的文档结构,旨在简化跨数据集比较、多语言实验、共指消解系统基准测试、NLP管道互操作性以及可复现的评估设置。本版本不引入新的注释,仅将原始数据集重构为共享模式。
GOLEMcoref is a multilingual coreference resolution dataset specifically constructed for fictional literary works. The dataset includes 7 languages: Indonesian, Chinese, Dutch, English, Italian, Korean, and Spanish. The data is sourced from three popular fan fiction platforms: Archive of Our Own (AO3), Postype, and Wattpad, encompassing complete short story works. As a pioneering effort in this domain, GOLEMcoref provides the first gold-standard benchmark with multilingual coverage for fiction. All texts are fully annotated and meticulously curated by human experts following specialized annotation guidelines, accompanied by a report discussing annotation challenges. The dataset scale comprises 230 documents, 55,652 sentences, 811,389 tokens, 3,407,934 characters, 102,682 mentions, and 4,942 entities. Each document includes information such as filename, language, text, token count, mention list, and sentence spans; each mention contains start position, end position, and coreference chain identifier. The dataset is standardized and reformatted with a unified document structure, aiming to simplify cross-dataset comparisons, multilingual experiments, benchmarking of coreference resolution systems, NLP pipeline interoperability, and reproducible evaluation setups. This version does not introduce new annotations but restructures the original dataset into a shared schema.
创建时间:
2026-06-30
原始信息汇总
数据集名称
GOLEMcoref
数据集摘要
这是一个标准化和重新格式化后的共指消解数据集,源自原始的GOLEMcoref数据集。其目的是为多个共指消解数据集提供统一的文档结构,以简化跨数据集比较、多语言实验、共指消解系统的基准测试、NLP管道互操作性以及可复现的评估设置。该仓库不引入新的标注,仅将原始数据集重构为共享模式,且忽略分裂先行语。
原始数据集
- 来源论文: Andreas Van Cranenburgh 等人于2026年发表的《GOLEMcoref: A Multilingual Coreference Dataset of Fiction》,收录于ACL 2026短文中。
- 原始仓库: https://github.com/GOLEM-lab/GOLEMcoref
数据集特点
- 是一个用于共指消解的黄金标准基准。
- 涵盖 7种语言:英语、西班牙语、印尼语、意大利语、韩语、荷兰语、中文。
- 包含来自3个流行同人小说平台(Archive of Our Own、Postype、Wattpad)的虚构短篇小说。
- 是首个提供多语言覆盖的虚构文学共指消解数据集。
- 包含完整作品。
- 是黄金标准:由人类完全标注和策展,遵循专门指南,并附有讨论标注挑战的报告。
数据统计
- 语言: en, es, id, it, ko, nl, zh
- 文档数: 230
- 句子数: 55,652
- 词元数: 811,389
- 字符数: 3,407,934
- 提及数: 102,682
- 实体数: 4,942
数据集结构
每个文档包含以下字段:
file_namelanguagetexttokens_countmentionssentence_spans
提及(Mentions)
每个提及包含以下字段及每个数据集特有的额外字段:
onsetoffsetCOREF
许可协议
Creative Commons Attribution 4.0 International (CC-BY-4.0)
搜集汇总
数据集介绍

构建方式
GOLEMcoref数据集源自对多语种虚构文学作品中指代现象的精细标注,其构建基石为来自Archive of Our Own、Postype及Wattpad三大流行同人小说平台的完整短篇故事。研究者遵循专业化指南,组织人工标注团队对七种语言——涵盖印度尼西亚语、中文、荷兰语、英语、意大利语、韩语及西班牙语——的文本进行黄金标准级的指代关系标注。原始标注数据被统一重构为标准化文档结构,仅保留核心指代信息而忽略分裂先行词,旨在为跨数据集比较与多语言实验提供一致的基准框架。
特点
该数据集的核心亮点在于其独特的跨语言覆盖与虚构文学专注性,汇集了230篇文档、逾55,000个句子与近百万词元的丰富语料,囊括10万余条提及与近5千个实体。它不仅是首个面向多语种小说的黄金标准指代消解基准,更通过完整作品而非片段来保留叙事连贯性。此外,数据集附有详细的标注挑战报告与指南,确保了注释质量的严谨性与可复现性。
使用方法
使用者可直接加载标准化后的文档,每个样本包含文件名、语言标识、完整文本、词元统计、提及列表及句子跨度信息。提及数据以onset与offset界定字符位置,并通过COREF字段关联至同一实体。该格式便于直接输入至指代消解模型进行训练与评估,亦能无缝对接多语言NLP流水线。建议引用原始论文并遵循CC-BY-4.0许可协议进行学术研究。
背景与挑战
背景概述
GOLEMcoref数据集由Andreas Van Cranenburgh等人于2026年创建,发表于ACL短论文,旨在填补多语言共指消解领域在虚构文学体裁上的数据空白。该数据集涵盖英语、西班牙语、印尼语、意大利语、韩语、荷兰语和中文七种语言,包含来自Archive of Our Own、Postype和Wattpad三大同人小说平台的230篇完整短篇故事,共计55,652个句子、811,389个词元及超过10万个指称标注。作为首个面向虚构文学的多语言黄金标准共指消解基准,GOLEMcoref由人类标注者依据专门指南精心标注,为跨语言共指消解系统的开发和评估提供了高质量、标准化的实验平台,显著推动了自然语言处理在文学文本理解领域的研究进展。
当前挑战
GOLEMcoref所解决的领域核心挑战在于共指消解在虚构文学中的复杂性问题,例如叙事中角色指代的多变性与歧义性、跨句子和跨段落的长距离共指关系,以及不同语言在语法和表达习惯上的显著差异。在构建过程中,团队面临两大挑战:其一,从非结构化同人小说平台爬取文本并确保版权与质量,需人工筛选完整作品;其二,设计一套跨语言统一的标注指南,以处理各语言特有的指称现象(如中文的零代词、意大利语的性别一致),同时保持标注一致性。此外,标注工作量巨大,需协调多语言团队完成超过10万个指称的精确标注,并解决注释者间的分歧,最终以报告形式公开标注难点,确保数据集的可靠性与可复现性。
常用场景
经典使用场景
在自然语言处理领域,指代消解(Coreference Resolution)是一项核心任务,旨在将文本中指向同一实体的不同表述进行归并。GOLEMcoref数据集凭借其涵盖7种语言、以虚构短篇小说为载体的独特设计,成为跨语言指代消解系统研发与评测的经典基准。研究者常借助该数据集训练和评估模型在多样化语言与文化语境下识别实体指代链条的能力,尤其适用于探索多代词系统、零代词现象以及文学性表达中的指代模式。其完整的篇章结构和黄金标准标注确保了实验结果的高度可靠性,为多语言指代消解技术的进步奠定了坚实基础。
衍生相关工作
围绕GOLEMcoref数据集,学术界已催生一系列具有影响力的衍生工作。研究者借鉴其多语言设计范式,拓展出针对更多语种或特定文学体裁(如古典小说、戏剧)的指代消解资源。该数据集还被用作多任务学习框架的组成部分,与命名实体识别(NER)和关系抽取协同优化,催生了融合篇章结构信息的联合模型。此外,基于该数据集的无监督与少样本指代消解研究日益涌现,推动了推理式神经网络与跨语言预训练模型在该任务上的适应策略创新。上述工作不仅证实了GOLEMcoref作为评测基准的广泛适用性,也进一步强化了其在推动可解释、可迁移的指代消解技术演进中的核心地位。
数据集最近研究
最新研究方向
GOLEMcoref作为首个覆盖七语种的小说类指代消解黄金标准基准,正引领多语言叙事文本中实体关系建模的前沿探索。该数据集基于Archive of Our Own、Postype及Wattpad三大同人小说平台,收录230篇完整短篇小说,包含逾十万个标注提及,为跨语言文学语料库的标准化比较开辟了新路径。当前研究热点聚焦于利用其统一文档架构,推动多语言指代消解系统的可复现评估与互操作性优化,特别是在兼顾同人创作中高频出现的非规范命名与隐含指代方面。这一资源不仅填补了虚构叙事体裁在自然语言处理研究中的空白,亦为人机协同的文学文本分析、多语言叙事理解及文化计算等交叉领域提供了关键支撑,彰显了从经典语料到当代网络文学语料扩展的深刻学术价值。
以上内容由遇见数据集搜集并总结生成



