Project Dialogism Novel Corpus

github2022-07-28 更新2024-05-31 收录

下载链接：

https://github.com/Priya22/pdnc-lrec2022

下载链接

链接失效反馈

官方服务：

资源简介：

该项目对话小说语料库是一个用于文学文本中引用归属的数据集，包含了22部小说中所有引用的说话者、听众、指称表达和代词提及的标注。数据集详细记录了每条引用的文本、字符字节跨度、说话者名称、听众名称、引文内的提及文本、提及的字符字节跨度、提及的实体以及引用的类型和相关指称表达。

The dialogue novel corpus project is a dataset designed for the attribution of citations within literary texts. It encompasses annotations for all citations across 22 novels, detailing the speaker, listener, referential expressions, and pronoun mentions. The dataset meticulously records the text of each citation, character byte spans, speaker names, listener names, mentioned texts within citations, character byte spans of mentions, mentioned entities, and the types of citations along with related referential expressions.

创建时间：

2022-01-17

原始信息汇总

数据集概述

数据集名称

The Project Dialogism Novel Corpus (PDN Corpus)

数据集内容

小说数量：22部小说
标注内容：每部小说中的所有引述都标注了说话者、对话对象、指称表达和代词提及。
数据文件结构：
- text.txt：小说文本
- quotations.csv：CSV文件，每行包含引述的文本、相应的字符字节范围、说话者名称、对话对象名称、引述内的提及文本、提及的字符字节范围、提及的实体、引述类型（隐式、回指或显式）及相关的指称表达。
- charDict.pkl：字典文件，包含每个角色实体的唯一ID及其名称、反向映射和主要角色名称。

辅助文件

load_data.ipynb：IPython笔记本，展示如何加载和读取小说数据文件。

标注指南

完整标注指南可在此链接查看：标注指南

代码

code 文件夹包含用于运行论文中描述的半监督分类方法的脚本。
运行分类器的命令：

python semi_sup_clf.py --novel <novel-name> --save_path outputs/

作者联系信息

Krishnapriya Vishnubhotla：vkpriya@cs.toronto.edu
Adam Hammond：adam.hammond@utoronto.ca
Graeme Hirst：gh@cs.toronto.edu

搜集汇总

数据集介绍

构建方式

Project Dialogism Novel Corpus（PDNC）数据集的构建基于对22部小说中所有引语的详细标注。每部小说的文本被系统性地分析，标注内容包括说话者、受话者、指代表达以及代词提及等关键信息。标注过程遵循严格的指南，确保数据的一致性和准确性。数据集以CSV和pickle文件格式存储，分别记录引语的详细信息及角色与ID的映射关系。

使用方法

使用PDNC数据集时，研究者可以通过提供的IPython笔记本`load_data.ipynb`加载和读取数据文件。数据集中包含的CSV文件和pickle文件分别用于获取引语信息和角色映射。此外，数据集还提供了半监督分类脚本`semi_sup_clf.py`，用户可以通过命令行运行该脚本，对指定小说进行引语分类分析。具体使用时，需将`<novel-name>`替换为数据集中对应小说的文件夹名称，并指定输出路径。

背景与挑战

背景概述

Project Dialogism Novel Corpus（PDNC）数据集由多伦多大学的研究团队于2022年创建，旨在为文学文本中的引语归属问题提供高质量标注数据。该数据集由Krishnapriya Vishnubhotla、Adam Hammond和Graeme Hirst等学者主导开发，并在LREC 2022会议上首次发布。PDNC数据集涵盖了22部小说中的引语标注，包括说话者、受话者、指代表达以及代词提及等详细信息。其核心研究问题在于通过半监督分类方法解决文学文本中引语归属的复杂性，为自然语言处理领域中的文本理解任务提供了重要支持。该数据集的发布不仅推动了文学计算领域的发展，也为引语分析、角色关系建模等研究提供了宝贵资源。

当前挑战

PDNC数据集在构建与应用过程中面临多重挑战。首先，引语归属问题本身具有高度复杂性，尤其是在文学文本中，引语可能涉及隐式表达、代词指代以及多角色对话等复杂场景，这对标注的准确性和一致性提出了极高要求。其次，数据集的构建过程中，研究人员需处理大量文本数据，并设计详细的标注指南以确保标注质量，这对人力与时间成本构成了巨大挑战。此外，尽管采用了半监督分类方法，但如何在小样本或低资源环境下进一步提升模型的泛化能力，仍是当前研究中的一大难题。这些挑战不仅反映了引语归属问题的技术难度，也凸显了文学文本处理领域的独特复杂性。

常用场景

经典使用场景

Project Dialogism Novel Corpus（PDNC）数据集在文学文本的引用归属研究中具有重要应用。该数据集通过对22部小说中的引用进行详细标注，包括说话者、受话者、指代表达和代词提及等信息，为研究者提供了一个丰富的语料库。经典的使用场景包括引用归属的自动识别、角色对话分析以及文学文本的语义理解。通过该数据集，研究者能够深入探讨小说中人物对话的复杂结构，揭示文学作品中对话的多层次含义。

解决学术问题

PDNC数据集解决了文学文本分析中的多个关键学术问题。首先，它通过标注引用信息，帮助研究者解决引用归属的模糊性问题，尤其是在多角色对话中，明确说话者和受话者的身份。其次，该数据集为研究文学文本中的指代消解提供了基础，尤其是在复杂对话场景中，如何准确识别代词所指代的实体。此外，PDNC还为文学文本的语义分析和情感分析提供了数据支持，推动了自然语言处理技术在文学研究中的应用。

实际应用

在实际应用中，PDNC数据集为文学研究、教育技术以及自然语言处理领域提供了重要支持。例如，在文学研究中，研究者可以利用该数据集分析小说中人物对话的模式，揭示作者的写作风格和叙事技巧。在教育技术领域，PDNC可以用于开发智能教学工具，帮助学生更好地理解文学作品中的对话结构。此外，该数据集还为自然语言处理中的引用归属和指代消解任务提供了基准数据，推动了相关技术的发展。

数据集最近研究