litbank-fr-PER
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/lattice-nlp/litbank-fr-PER
下载链接
链接失效反馈官方服务:
资源简介:
litbank-fr-PER数据集是一个标准化和重新格式化后的版本,源自原始法语文学指代消解数据集。该数据集专注于19世纪和20世纪法国文学作品,特别针对人物实体(PER)的指代消解任务。数据来源于两篇相关研究论文(Mélanie等,2024;Bourgois和Poibeau,2025),旨在通过统一文档结构简化跨数据集比较、多语言实验、指代消解系统基准测试、NLP管道互操作性和可复现评估设置。数据集包含32个文档,共计24,224个句子、551,697个词元、2,689,691个字符、71,883个提及和3,721个实体。每个文档包含以下字段:文件名称(file_name)、语言(language)、文本内容(text)、词元标注(stanza_tokens)、提及列表(mentions)和句子跨度(sentence_spans)。其中,提及字段包括起始位置(onset)、结束位置(offset)和指代链标识(COREF)等子字段。该数据集适用于法语指代消解、命名实体识别(NER)及相关自然语言处理任务,尤其适合用于文学文本分析和多语言NLP研究。
The litbank-fr-PER dataset is a standardized and reformatted version derived from the original French literary coreference resolution dataset. It focuses on 19th and 20th century French literary works, specifically targeting person entity (PER) coreference resolution tasks. The data originates from two related research papers (Mélanie et al., 2024; Bourgois and Poibeau, 2025), aiming to simplify cross-dataset comparisons, multilingual experiments, coreference resolution system benchmarking, NLP pipeline interoperability, and reproducible evaluation settings through unified document structures. The dataset contains 32 documents, totaling 24,224 sentences, 551,697 tokens, 2,689,691 characters, 71,883 mentions, and 3,721 entities. Each document includes the following fields: file name (file_name), language (language), text content (text), token annotations (stanza_tokens), mention lists (mentions), and sentence spans (sentence_spans). The mentions field includes subfields such as onset, offset, and coreference chain identifier (COREF). This dataset is suitable for French coreference resolution, named entity recognition (NER), and related natural language processing tasks, particularly for literary text analysis and multilingual NLP research.
创建时间:
2026-05-08
搜集汇总
数据集介绍

构建方式
litbank-fr-PER数据集源自对法国19至20世纪文学作品的深度挖掘,原始语料由Frédérique Mélanie-Becquet等人通过BookNLP-fr管道处理,并由Antoine Bourgois等人进一步开展指代消解标注。本版本在不增删原始标注的前提下,仅对数据结构进行标准化重整,统一了文档格式,以支撑跨数据集比较、多语言实验及指代消解系统的可重复评测。数据集涵盖32篇文献,包含逾55万词元和7万余条指代提及。
特点
该数据集聚焦于法语长篇小说的指代消解任务,具有高密度语言特征与丰富的人物指代关系。其标注涉及3,721个实体,提及与实体间复杂的共指链充分反映了文学叙事中多样化的指代模式。标准化后的结构保留了原文句子与词元信息,同时以统一的onset、offset和COREF字段记录每一提及的起止位置及其所属实体ID,便于模型直接训练与评估。
使用方法
使用时可直接加载JSON格式文档,利用‘mentions’字段中的标注信息构建共指聚类任务。数据集支持与HuggingFace Datasets库无缝集成,通过分割句子列表与提及列表即可生成训练样本。建议采用基于跨度(span)或基于链接(link)的指代消解模型,结合stanza_tokens进行词级特征提取,并依据sentence_spans将实例限定于句子边界内进行迭代预测。
背景与挑战
背景概述
litbank-fr-PER数据集诞生于计算语言学与数字人文学科交叉的前沿领域,由法国巴黎高等师范学院等机构的研究团队于2024年至2025年间创建,核心贡献者包括Frédérique Mélanie-Becquet、Antoine Bourgois和Thierry Poibeau等学者。该数据集专注于法文长篇文学作品中的命名实体(PER)指代消解任务,旨在解决19至20世纪法文小说中复杂的人物指代关系识别问题。作为BookNLP-fr项目的延伸,它填补了法文文学文本在核心指代标注资源上的空白,为推动多语言、多体裁的核心指代消解研究提供了标准化基准,对计算文学研究和自然语言处理领域产生了重要影响。
当前挑战
领域层面,该数据集主要应对长篇法文文学作品中独特的指代消解难题:小说中人物数量众多、指代关系跨越长距离文本、叙述视角转换频繁、以及非显性指代(如零代词和隐喻性称呼)的识别等,远超一般新闻或对话文本的复杂度。构建过程中,团队面临两大挑战:一是如何从原始未标注的文学文本中高效提取准确的命名实体及共指链,这需要结合BookNLP-fp管道与人工审核,确保标注质量;二是将32部完整文学作品标准化为统一文档结构,跨越不同出版格式和章节划分,以支持跨数据集比较和可重复实验,对数据清洗和格式对齐提出了极高要求。
常用场景
经典使用场景
在自然语言处理领域,指代消解作为篇章理解的核心任务之一,长期以来受限于高质量标注语料的匮乏。litbank-fr-PER数据集应运而生,它聚焦于法语文学文本中的人物指代关系,为研究者提供了一个精心重构的标准化基准资源。该数据集最经典的使用场景是训练和评估跨文档的指代消解模型,尤其适用于处理长篇法语小说中复杂的人物链识别任务。通过统一的数据结构,它使得不同来源的指代标注得以无缝整合,为法语文学语料上的端到端指代消解系统提供了可靠的评测平台。
解决学术问题
该数据集有效解决了法语文学领域指代消解研究中长期存在的两大困境:一是缺乏大规模、结构统一的标注语料,二是跨数据集比较和可复现性评估难以实现。通过标准化格式,它使得研究者能够公平比较不同模型的性能,推动了多语言指代消解实验的开展。其深远意义在于为法语文学的语言学计算分析奠定了数据基础,使得数字人文研究者得以系统探究十九至二十世纪法语小说中的人物命名与回指规律,从而深化对文学叙事结构的计算理解。
衍生相关工作
围绕litbank-fr-PER数据集,学术界已涌现出一系列经典工作。最直接相关的是Bourgois与Poibeau在2025年发表的指代消解研究,该工作首次系统评估了主流模型在全长度法语虚构作品上的表现,揭示了长篇文本中指代消解的特殊挑战。此外,Mélanie-Becquet等人在2024年提出的BookNLP-fr管道,正是基于该数据集构建了一套面向法语文学文本的定制化处理流程,涵盖词性标注、句法分析和指代消解等模块。这些衍生工作共同推动了计算文学研究从短句评测向长篇叙事理解的范式转型。
以上内容由遇见数据集搜集并总结生成



