Early Novels Dataset

github2024-02-28 更新2024-05-31 收录

下载链接：

https://github.com/earlynovels/end-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Early Novels Dataset包含早期小说作品的丰富书目元数据，这些作品收藏于宾夕法尼亚大学的Collection of British and American Fiction, 1660-1830 (CBAF)及其他地区藏书机构。该数据集由高质量的人工生成元数据组成，捕捉了比传统图书馆目录记录更全面的版本和副本特定信息。

The Early Novels Dataset encompasses a rich collection of bibliographic metadata for early novelistic works, housed within the University of Pennsylvania's Collection of British and American Fiction, 1660-1830 (CBAF), as well as other regional library collections. This dataset is composed of high-quality, manually generated metadata that captures more comprehensive edition and copy-specific information than traditional library catalog records.

创建时间：

2016-12-20

原始信息汇总

数据集概述

数据集名称

Early Novels Dataset (END)

数据集内容

该数据集包含早期英语小说的书目元数据，这些小说主要收藏于宾夕法尼亚大学的Collection of British and American Fiction, 1660-1830 (CBAF)，并包括其他区域藏书。数据集中的MARC目录记录通过定制子字段进行了丰富，旨在提供关于早期英语小说的结构化数据。

数据集特点

元数据质量：数据集中的元数据由人工生成，捕捉了比传统图书馆目录记录更全面的版本和副本特定信息。
定制子字段：基于标准的MARC记录，增加了定制设计的子字段，使用受控和叙述性词汇来描述传统编目范围之外的多种书目特征。
数据量：截至2018年11月，完整的数据集总计2,002条记录，核心十八世纪子集包含1,440条记录。

数据集格式

MARCXML：最完整的数据格式，用于图书馆目录。
Tabular Subsets：提供简化的数据子集，便于深入探索特定特征。

数据集使用

探索方式：可通过Google Sheets或Microsoft Excel等工具打开和查看.tsv文件。
数据分析：提供教程和可视化演示，指导用户如何使用Excel Pivot Tables等工具探索数据。

数据集结构

MARCXML结构：基于标准MARC记录，增加了非标准的定制子字段，以收集新的信息类型。
子字段说明：详细描述了包括000至596字段在内的多个字段及其子字段，用于捕捉各种书目和副本特定信息。

数据集附加资源

全文本数据：正在初步阶段的全文本倡议，提供通过OCR创建的全文本文件，用于与END元数据结合进行主题建模。

数据集访问

数据集可通过提供的链接访问，包括完整数据和简化的表格子集，支持多种探索和分析需求。

搜集汇总

数据集介绍

构建方式

Early Novels Dataset的构建基于18世纪英国和美国小说的丰富书目元数据，这些数据源自宾夕法尼亚大学Kislak中心的特别收藏以及其他地区图书馆的馆藏。数据集采用MARC（机器可读编目）记录格式，并通过自定义子字段扩展，以捕捉传统图书馆编目无法涵盖的详细信息。这些自定义字段包括作者声明、完整和半标题、准确的出版地点以及版本声明等。此外，数据集还记录了书籍的边注、题词、书签等副本特定信息，以及叙事形式和重要的副文本特征，如作者注释、题词、脚注和索引。

特点

Early Novels Dataset的特点在于其高质量的人工生成元数据，这些数据不仅涵盖了早期小说的广泛信息，还通过自定义MARC子字段提供了传统编目无法捕捉的细节。数据集包含2002条记录，其中核心的18世纪子集包含1440条记录，代表了宾夕法尼亚图书馆收藏的1700年至1797年间出版的英国和美国小说。此外，数据集还补充了费城地区和其他地区图书馆的精选馆藏，使得研究者能够进行跨库的细致搜索和分析。

使用方法

Early Novels Dataset的使用方法多样，最完整的数据以MARCXML格式提供，便于在图书馆系统中使用。此外，数据集还提供了表格形式的子集，方便用户深入探索特定特征。用户可以通过Google Sheets或Microsoft Excel打开和查看.tsv文件，选择“tab”作为分隔符。对于更高级的数据处理，用户可以使用OpenRefine导入和导出MARCXML文件，或使用Pymarc脚本从MARCXML字段和子字段中提取特定信息。数据集还支持与全文结合进行主题建模，为研究者提供了丰富的分析工具。

背景与挑战

背景概述

Early Novels Dataset（早期小说数据集）由宾夕法尼亚大学的Kislak特藏、珍本与手稿中心于2018年创建，旨在为1660年至1830年间的英美小说提供丰富的书目元数据。该数据集的核心研究问题在于如何通过定制化的MARC子字段，捕捉早期小说中的复杂文本特征，如标题页、情节摘要、目录、注释等，从而为18世纪英语小说的研究提供新的视角。数据集的主要研究人员包括Rachel Buurma等学者，其影响力不仅限于文学研究领域，还为数字人文和图书馆学提供了重要的数据支持。

当前挑战

Early Novels Dataset在构建过程中面临多重挑战。首先，早期小说的文本特征复杂多样，传统的图书馆编目系统难以全面记录这些信息，因此需要设计定制化的MARC子字段以捕捉细节。其次，数据集的构建依赖于人工生成的高质量元数据，这一过程耗时且需要专业知识，尤其是在处理手稿、注释和版次信息时。此外，数据集的目标是支持跨文本的检索与分析，但早期小说的文本结构多样，如何系统化地记录并标准化这些信息仍是一个技术难题。最后，尽管数据集已包含2002条记录，但其覆盖范围仍有限，如何扩展数据集的规模并保持数据质量是未来需要解决的问题。

常用场景

经典使用场景

Early Novels Dataset（早期小说数据集）在文学研究领域中被广泛应用于分析18世纪英语小说的文本特征和结构。该数据集通过丰富的书目元数据，捕捉了早期小说中的标题页、情节摘要、复杂目录、长篇标题和尾注等细节，为研究者提供了深入探讨小说形式、内容和历史背景的工具。特别是在研究小说的叙事结构、作者意图和读者反应时，该数据集提供了前所未有的数据支持。

实际应用

在实际应用中，Early Novels Dataset被用于构建数字人文项目，如小说文本的可视化分析和主题建模。通过与全文数据的结合，研究者能够探索小说文本中的主题分布和语言模式，揭示不同时期小说的创作趋势和读者偏好。此外，该数据集还为图书馆和档案馆提供了更精细的编目工具，帮助其更好地管理和展示早期小说收藏。

衍生相关工作

基于Early Novels Dataset，衍生出了多项经典研究项目。例如，研究者利用该数据集进行了18世纪小说叙事形式的定量分析，揭示了书信体小说和第一人称叙事的流行趋势。此外，结合主题建模工具，研究者还开发了针对早期小说的文本挖掘方法，探索了小说中的主题演变和作者风格。这些工作不仅推动了数字人文领域的发展，也为文学研究提供了新的方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集