Project Dialogism Novel Corpus (PDNC)

Name: Project Dialogism Novel Corpus (PDNC)
Creator: 多伦多大学
Published: 2022-04-12 22:23:55
License: 暂无描述

arXiv2022-04-12 更新2024-06-21 收录

下载链接：

https://github.com/Priya22/pdnc-lrec2022

下载链接

链接失效反馈

官方服务：

资源简介：

Project Dialogism Novel Corpus (PDNC)是由多伦多大学创建的一个针对英语文学文本引用归属问题的数据集。PDNC包含22部完整小说中的35,978条引用标注，是目前同类数据集中最大的。数据集中的每条引用都标注了说话者、对话对象、引用类型、指称表达和引用文本中的角色提及。PDNC的创建旨在通过提供大规模的标注数据，帮助评估和改进文学文本中的引用归属和共指模型。数据集的应用领域包括文学文本的计算分析，如角色提及追踪、角色风格变化分析等。

Project Dialogism Novel Corpus (PDNC), developed by the University of Toronto, is a dataset focused on the task of quotation attribution in English literary texts. PDNC contains 35,978 annotated quotation instances spanning 22 full-length novels, making it the largest publicly available dataset of its kind. Each quotation in the dataset is annotated with speaker identity, addressee, quotation type, referential expressions, and character mentions within the quoted text. The development of PDNC aims to provide large-scale annotated data to help evaluate and improve models for quotation attribution and coreference resolution in literary texts. Application domains of this dataset include computational analysis of literary texts, such as character mention tracking and analysis of character stylistic variation.

提供机构：

多伦多大学

创建时间：

2022-04-12

搜集汇总

数据集介绍

构建方式

在文学计算分析领域，构建高质量的标注数据集是推动引文归属研究的关键。Project Dialogism Novel Corpus（PDNC）的构建过程体现了严谨的学术方法。数据集从古登堡计划中选取了22部完整的英文小说，涵盖了文学小说、儿童文学、侦探小说和科幻小说等多种体裁，以确保文本的多样性和代表性。预处理阶段利用GutenTag软件自动识别文本中的引文和初始角色列表。核心的标注工作由具备文学背景的注释员通过专门设计的网络平台完成，每部小说均由两位注释员独立标注，随后通过多轮共识讨论解决分歧，最终形成了包含35,978条引文的精标注语料。

特点

PDNC数据集在规模与标注深度上均具有显著特点，为文学文本计算分析设立了新标准。其最突出的特征是规模宏大，覆盖超过175万词符，引文标注数量达35,978条，远超同类数据集一个数量级。标注体系极为精细，每条引文均标注了说话者、受话者、引文类型、指代表达式以及引文内提及的角色，并构建了包含角色正式名称与别名的完整角色列表。数据集中隐含引文占比最高（约37%），这真实反映了文学对话的复杂性，为模型处理困难案例提供了丰富素材。

使用方法

该数据集主要服务于文学文本中引文归属任务的模型开发与评估。研究者可利用PDNC训练或测试各类引文归属系统，例如基于确定性筛子的多阶段方法或基于BERT的深度学习模型。其精细的标注属性支持对模型错误进行归因分析，特别是评估指代消解模块在文学领域的表现。此外，数据集支持对话性研究，学者可分析角色说话风格的变化、情感表达以及角色互动网络的演化。PDNC附带的详细标注指南也为该领域的后续标注工作提供了标准化参考。

背景与挑战

背景概述

Project Dialogism Novel Corpus（PDNC）是由多伦多大学与Vector人工智能研究所的研究团队于2021年构建的文学文本数据集，专注于英语小说中的引语归因任务。该数据集涵盖了22部完整长篇小说的35,978条引语，通过标注说话者、受话者、引语类型、指代表达及引文内角色提及等属性，为计算文学分析提供了规模最大的标注资源。PDNC的创建旨在应对文学文本中角色对话的复杂性，其核心研究问题涉及自然语言处理在叙事结构、角色识别与指代消解等领域的应用，显著推动了引语归因模型的评估与发展，并为文学风格学与对话主义研究奠定了数据基础。

当前挑战

PDNC所针对的引语归因领域面临多重挑战：文学文本中角色常通过别名、代词或社会称谓间接提及，且引语类型涵盖显式、回指与隐式等多种形式，使得说话者识别需依赖深层上下文推理与指代消解。现有模型在隐式与回指引语上表现不佳，平均准确率仅约0.45，凸显了文学语言中核心指代消解的困难。数据构建过程中，团队需处理长文本的叙事异质性，制定涵盖特殊别名、群体说话者及复杂指代表达的标注准则，并通过多轮共识解决标注者间的分歧，确保了标注的一致性与可靠性。

常用场景

经典使用场景

在文学计算分析领域，Project Dialogism Novel Corpus (PDNC) 作为规模最大的英语文学引语标注数据集，其经典应用场景聚焦于引语归属任务的模型训练与评估。该数据集通过标注22部完整长篇小说的35,978条引语，涵盖说话者、受话者、引语类型、指代表达及引文内人物提及等多维度属性，为自然语言处理模型提供了丰富的训练样本。研究者可基于PDNC构建和优化引语归属系统，例如通过两阶段筛选方法或基于BERT的深度学习模型，以应对文学文本中复杂的叙事结构和风格变异。

解决学术问题

PDNC有效解决了文学计算分析中的核心挑战，即引语归属与共指消解问题。文学文本中人物常以别名、亲属称谓或社会头衔指代，且引语类型涵盖显式、回指与隐式等多种形式，传统模型难以准确识别说话者。该数据集通过大规模标注，为模型提供了系统性的训练基准，支持对人物风格变化、情感表达及对话网络的量化研究。其标注指南的公开进一步促进了领域内标注标准的统一，推动了文学叙事计算建模的学术进展。

衍生相关工作

PDNC的发布催生了多项经典研究工作，尤其在引语归属与文学计算模型优化方面。例如，Muzny等人提出的两阶段筛选方法在PDNC上得到系统评估，揭示了共指消解模块在文学文本中的性能瓶颈。同时，Hammond等人基于风格计量学的半监督分类方法利用PDNC的标注属性，探索了人物语言风格特征在说话者识别中的有效性。这些工作不仅深化了对文学文本计算挑战的理解，也为后续研究如LitBank数据集的扩展与多模态文学分析提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集