BOOKWORM

Name: BOOKWORM
Creator: 语言、认知与计算研究所
Published: 2024-10-14 18:55:58
License: 暂无描述

arXiv2024-10-14 更新2024-10-16 收录

下载链接：

https://github.com/apapoudakis/BookWorm

下载链接

链接失效反馈

官方服务：

资源简介：

BOOKWORM数据集由爱丁堡大学语言、认知与计算研究所创建，专注于长篇书籍中角色的描述与分析。该数据集包含324本书籍，每本书平均长度约为95,000字，涵盖了小说、戏剧等多种文学体裁。数据集的创建过程包括从Gutenberg项目中收集书籍，并从多个教育网站上抓取角色描述和分析。BOOKWORM数据集主要用于自然语言处理领域，旨在提升模型对长篇文本中角色复杂性和动态性的理解能力。

The BOOKWORM dataset was developed by the Institute for Language, Cognition and Computation at the University of Edinburgh, focusing on the description and analysis of characters in full-length books. This dataset consists of 324 books, with an average length of approximately 95,000 words per book, covering a variety of literary genres including novels and dramas. The dataset was constructed by collecting books from the Gutenberg Project and scraping character descriptions and analyses from multiple educational websites. The BOOKWORM dataset is primarily utilized in the field of natural language processing, aiming to enhance models' ability to understand the complexity and dynamic characteristics of characters in long-form texts.

提供机构：

语言、认知与计算研究所

创建时间：

2024-10-14

原始信息汇总

BookWorm

数据集概述

名称: BookWorm
描述: 一个用于角色描述和分析的数据集

搜集汇总

数据集介绍

构建方式

BOOKWORM数据集通过将古腾堡计划中的书籍与人类编写的角色描述和分析配对构建而成。数据集的构建过程包括从五个不同的网站（如Sparknotes、Litcharts、Gradesaver、Cliffnotes和Shmoop）抓取书籍的完整研究，这些网站主要用于教育目的。为了确保数据的准确性和一致性，书籍与角色描述和分析的配对是通过匹配标题（去除标点符号并转换为小写）并手动验证作者来完成的。此外，数据集排除了属于“哲学”类别的书籍，因为这些书籍通常不包含传统意义上的角色。

特点

BOOKWORM数据集的一个显著特点是其专注于长篇故事中的角色理解，这在以往的研究中相对较少。数据集不仅包括角色的基本描述，还深入分析了角色的性格发展、动机和社会背景。此外，数据集的构建方式使其能够支持零样本学习和微调设置下的模型评估，特别是在处理长文本输入时，检索增强的方法显示出优于层次处理方法的性能。

使用方法

BOOKWORM数据集主要用于评估和改进自然语言处理模型在角色描述和分析任务中的表现。研究人员可以使用该数据集来训练和测试模型，以生成角色的简要事实简介或深入的性格解释。数据集支持多种使用场景，包括零样本学习、微调以及检索增强和层次处理方法的比较。通过使用BOOKWORM数据集，研究人员可以更好地理解和提升模型在长篇文本中对角色的理解和生成能力。

背景与挑战

背景概述

BOOKWORM数据集由爱丁堡大学的Argyrios Papoudakis、Mirella Lapata和Frank Keller等人创建，专注于长篇小说中角色的描述与分析。该数据集于2024年推出，旨在解决长篇故事中角色理解的复杂性问题。通过将古腾堡计划中的书籍与人工编写的角色描述和分析配对，BOOKWORM数据集支持角色描述和分析任务，推动了自然语言处理领域对叙事理解的深入研究。

当前挑战

BOOKWORM数据集面临的挑战包括长篇故事中角色关系的复杂性和动态性，以及现有模型处理长文本输入的局限性。此外，构建过程中需从多个网站抓取角色描述和分析，确保数据的准确性和一致性。数据集的推出旨在激发对角色叙事理解的研究，但也需克服模型在联合角色理解和长文本处理方面的性能瓶颈。

常用场景

经典使用场景

BOOKWORM数据集的经典使用场景主要集中在文学作品中角色描述和分析任务上。该数据集通过将古腾堡项目中的书籍与人工编写的角色描述和分析配对，支持角色描述和角色分析两项任务。角色描述任务旨在生成角色的简要事实档案，而角色分析任务则提供对角色性格和行为的深入解读，包括角色发展、个性特征及社会背景。这些任务对于理解长篇故事中的角色动态和复杂关系至关重要。

解决学术问题

BOOKWORM数据集解决了在长篇故事中角色理解的研究问题。传统研究多集中在短篇故事或采用相对简单的分析方法，而BOOKWORM专注于长篇故事中的角色分析，填补了这一领域的研究空白。该数据集通过提供详尽的角色描述和分析，帮助研究者深入探讨角色的动态变化、性格发展及其在故事情节中的作用，从而推动了角色为中心的叙事理解研究。

衍生相关工作

BOOKWORM数据集的引入催生了一系列相关研究工作。研究者们利用该数据集探索了长篇文本中角色的理解与生成，提出了基于检索和层次处理的方法，并比较了不同模型在角色描述和分析任务中的表现。此外，该数据集还激发了对角色间关系的联合理解研究，以及对长篇文本处理模型的改进。这些研究不仅提升了对文学作品中角色动态的理解，也为自然语言处理技术在文学领域的应用提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集