Novels Project Corpus

github2022-07-08 更新2024-05-31 收录

下载链接：

https://github.com/novels-project/novels-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了1770年至1915年间出版的小说的数字化版本。每个目录对应一个卷，目录中的metadata.json文件描述了卷与作品之间的关系。数据集通过REST服务器提供工作元数据、卷元数据和纯文本，用户可以通过特定的API端点访问这些数据。

This dataset comprises digitized versions of novels published between 1770 and 1915. Each catalog corresponds to a volume, and the metadata.json file within the catalog delineates the relationship between the volume and the work. The dataset provides work metadata, volume metadata, and plain text through a REST server, accessible to users via specific API endpoints.

创建时间：

2015-01-20

原始信息汇总

数据集概述

数据集名称

Novels Project Corpus

数据集结构

目录结构：数据集中的每个volumes/目录对应一个volume，目录名不重要，每个目录中的metadata.json文件描述了该卷与work的关系。
标识符：工作（非卷）的规范标识符（novels project identifiers）存储在另一个仓库中：novels-project/identifiers。

数据集内容

工作（Works）：主要记录来自Garside, Raven, and Schöwerling编辑的两卷，以及一些额外的记录和数据部分输入的占位符。每个记录由id、source和source_id唯一标识。
卷（Volumes）：每个目录包含两个文件：metadata.json和.txt文本文件。文本文件的SHA1存储在metadata.json中。
- 元数据（Metadata）：metadata.json包含的JSON字典遵循特定模式，包括work_id、internet_archive_id、volume、volume_count、date_created、date_updated、sha1和extra_info。work_id和volume唯一标识一个记录。
- 文本（Texts）：每个卷提供纯文本版本，通常是OCR处理后的文本，去除了扫描开始和结束时的非必要材料。未来版本将提供patches，说明如何从原始OCR生成仓库中的版本。
非免费卷（Non-free Volumes）：nonfree目录包含未在Internet Archive上提供的卷和相关纯文本。metadata.json遵循与上述相同的模式，但internet_archive_identifier被nonfree_identifier替换。

数据集访问

数据集通过简单的只读REST服务器暴露工作元数据、卷元数据和纯文本。服务器可以通过运行python main.py来启动，提供两个API端点：/work和/text/<sha1>。

搜集汇总

数据集介绍

构建方式

Novels Project Corpus数据集的构建基于对文学作品的多维度整理与归档。每个作品目录下包含`metadata.json`文件，用于描述作品与其对应卷册的关系，并通过SHA-1哈希值关联文本文件。文本内容主要来源于光学字符识别（OCR）技术处理后的原始版本，部分低质量扫描文本则通过手动录入或其他来源补充。数据集还包含非公开卷册，其元数据与公开卷册一致，但标识符替换为`nonfree_identifier`。

特点

该数据集的特点在于其高度结构化的元数据管理和丰富的文本资源。每个卷册的元数据文件详细记录了作品ID、互联网档案馆标识符、卷册编号、创建与更新日期等信息，确保数据的可追溯性与唯一性。文本内容经过精心处理，去除了OCR过程中产生的无关信息，并提供了未来版本中可能包含的修补方案。此外，数据集还支持通过REST API快速访问作品元数据和文本内容，极大提升了数据的使用便捷性。

使用方法

用户可通过运行Python脚本启动只读REST服务器，访问两个主要API端点：`/work`用于获取所有作品的元数据，`/work/<id>`用于获取特定作品的详细信息，`/text/<sha1>`用于获取特定卷册的纯文本内容。例如，通过`curl`命令可以轻松获取特定作品的元数据或文本内容。数据集的设计使得用户能够快速定位所需资源，并通过API接口实现高效的数据检索与分析。

背景与挑战

背景概述

Novels Project Corpus 是一个专注于文学作品数字化的数据集，旨在通过提供详细的元数据和文本内容，支持文学研究和文本分析。该数据集由 Novels Project 团队创建，主要研究人员包括 Garside、Raven 和 Schöwerling 等学者。数据集的核心研究问题在于如何有效地组织和呈现大量文学作品的元数据及其文本内容，以便于研究者进行深入分析。该数据集对文学研究领域产生了重要影响，特别是在文本挖掘和数字人文领域，为研究者提供了丰富的原始材料和结构化的数据支持。

当前挑战

Novels Project Corpus 在构建过程中面临多重挑战。首先，数据集的文本内容主要来源于光学字符识别（OCR）技术，但由于原始扫描质量参差不齐，OCR 结果可能存在误差，尤其是在处理低质量扫描时，文本的准确性和完整性难以保证。其次，数据集中的元数据需要与文学作品及其版本进行精确匹配，这一过程涉及复杂的文献考证和版本比对，增加了数据整理的难度。此外，部分文本由于版权限制无法公开获取，导致数据集的不完整性。这些挑战不仅影响了数据集的质量，也对后续的研究应用提出了更高的要求。

常用场景

经典使用场景

Novels Project Corpus数据集在文学研究和数字人文领域具有广泛的应用。研究者可以通过该数据集访问大量经典小说的元数据和纯文本版本，从而进行文本分析、风格比较和作者身份识别等研究。数据集的结构化设计和REST API接口使得数据的获取和处理变得极为便捷，特别适合用于大规模的文本挖掘和机器学习任务。

实际应用

在实际应用中，Novels Project Corpus被广泛用于教育、出版和文化遗产保护等领域。教育机构可以利用该数据集进行文学课程的开发和教学，出版商可以基于这些文本进行数字化出版和再版，而文化遗产保护机构则可以通过这些数据保存和传播经典文学作品。

衍生相关工作

基于Novels Project Corpus，许多经典的研究工作得以展开。例如，研究者利用该数据集进行了大规模的文本风格分析，揭示了不同时期文学作品的风格演变。此外，该数据集还被用于开发自然语言处理模型，如文本生成和情感分析，进一步推动了数字人文和计算语言学的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集