Early Novels Dataset

github2020-07-21 更新2024-05-31 收录

下载链接：

https://github.com/lvantine/end-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Early Novels Dataset包含了早期小说作品的丰富书目元数据，这些作品主要收藏在宾夕法尼亚大学的Collection of British and American Fiction, 1660-1830中。该数据集通过定制的MARC记录子字段，提供了关于早期英语小说的版次和副本特定信息，这些信息比传统图书馆目录记录更为详尽。数据集旨在支持对18世纪长期英语小说的研究，记录了包括权威声明、全标题和半标题、准确的出版地和版次声明等重要书目细节，以及边注、题词、藏书票等副本特定信息，还有作者笔记、题词、脚注和索引等重要旁注特征。

The Early Novels Dataset encompasses a rich collection of bibliographic metadata from early novelistic works, primarily housed within the University of Pennsylvania's Collection of British and American Fiction, 1660-1830. This dataset offers detailed information on editions and specific copies of early English novels through customized MARC record subfields, surpassing the depth of traditional library catalog records. Designed to facilitate research into the long 18th-century English novel, it meticulously documents crucial bibliographic details such as authoritative statements, full and half titles, precise publication locations, and edition declarations. Additionally, it captures copy-specific information like marginalia, dedications, and bookplates, alongside significant paratextual features including authorial notes, inscriptions, footnotes, and indices.

创建时间：

2017-10-25

原始信息汇总

关于数据集

数据集概述

名称：Early Novels Dataset (END)

内容：该数据集包含早期英语小说的书目元数据，特别是1660年至1830年间出版的作品。这些数据主要来源于宾夕法尼亚大学的英国和美国小说收藏（CBAF），并补充了其他地区图书馆的藏品。

特点：

数据集基于MARC目录记录，并增加了定制子字段，以提供关于早期英语小说的结构化数据。
包含高质量的人工生成元数据，捕捉了版本和副本特定的详细信息，这些信息通常超出传统图书馆目录记录的范围。
记录了重要的书目细节，如权威声明、全标题和半标题、准确的出版地点和版本声明，以及副本特定的信息如旁注、题词和藏书票。
记录了重要的辅助文本特征，如作者笔记、铭文、脚注和索引。

数据集规模

总记录数：2,041条
核心十八世纪子集：1,325条记录，代表1700-1794年间出版的所有CBAF藏品及1795-1799年间的一部分藏品。
核心十八世纪子集（1700-1789）：1,094条记录，代表1700至1789年间出版的所有CBAF藏品。

数据集格式

MARCXML：数据集的主要格式，用于存储完整的书目元数据。
表格子集：提供简化的数据版本，便于用户探索特定特征。这些子集包括：
- full.tsv：包含精选的数据类别，提供数据集的概览。
- 按时期划分的子集：如18c-full.tsv（1700-1799年出版的记录）和19c-full.tsv（1800-1853年出版的记录）。
- 特定辅助文本的子集：提供关于前言、献词、广告等辅助文本的详细信息。

数据集使用

探索工具：数据集可通过Google Sheets或Microsoft Excel打开和查看。
数据分析：提供了使用Excel数据透视表的教程，以及使用OpenRefine处理MARCXML数据的指南。
全文本与元数据结合：数据集正在初步阶段与CBAF小说的全文本结合，用于主题建模等研究。

定制MARC架构

架构特点：基于标准的MARC记录，增加了非标准的定制子字段，以收集全新的信息类型。
字段细节：包括000至596字段，详细记录了书目数据、作者/标题信息、标题数据、物理信息、集合、添加的字段、解释性和分析性元数据以及副本特定的元数据。

该数据集为研究十八世纪英语小说提供了丰富的书目和文本信息，支持多种研究方法和数据分析技术。

搜集汇总

数据集介绍

构建方式

Early Novels Dataset（早期小说数据集）的构建基于宾夕法尼亚大学Kislak中心特殊收藏、珍本和手稿馆藏的英国和美国小说收藏（CBAF），并扩展至其他地区馆藏。该数据集通过MARC（机器可读编目）记录进行编目，并在此基础上添加了自定义子字段，以捕捉早期英语小说中的丰富元数据。这些元数据不仅包括传统的书目信息，还涵盖了诸如作者注释、题词、书签等副本特定信息，以及叙事形式和副文本特征等传统编目未涵盖的内容。数据集的核心部分包含1700年至1789年间出版的1325条记录，补充了来自费城地区和其他区域馆藏的精选作品。

使用方法

Early Novels Dataset提供了多种数据格式，包括MARCXML和表格形式的子集，便于研究者根据需求进行探索。MARCXML格式适用于需要深入分析书目记录的研究者，而表格子集则提供了精选的数据类别，便于快速浏览和分析。研究者可以使用Excel或Google Sheets等工具打开表格文件，并通过数据透视表等功能进行初步分析。此外，数据集还支持与全文文本结合进行主题建模等高级分析，进一步拓展了其应用范围。通过OpenRefine等工具，研究者还可以对MARCXML数据进行转换和自定义分析，以满足特定的研究需求。

背景与挑战

背景概述

Early Novels Dataset（早期小说数据集）由宾夕法尼亚大学的Kislak特藏、珍本和手稿中心于2017年创建，旨在为18世纪英语小说提供丰富的书目元数据。该数据集基于宾夕法尼亚大学图书馆的《1660-1830年英美小说收藏》（CBAF），并扩展至其他地区图书馆的馆藏。数据集的核心研究问题在于如何通过自定义的MARC子字段，捕捉早期小说中的复杂书目特征，如标题页、序言、脚注等副文本信息，从而为文学研究提供新的结构化数据支持。该数据集不仅为文学史研究提供了重要资源，还推动了数字人文领域对早期小说文本的深入分析。

当前挑战

Early Novels Dataset面临的挑战主要集中在两个方面。首先，在领域问题上，该数据集旨在解决早期小说研究中副文本信息的系统化记录与检索问题，但由于早期小说的复杂性和多样性，如何准确捕捉并分类这些信息仍具有挑战性。其次，在构建过程中，研究人员需克服传统图书馆目录记录的局限性，设计并应用自定义的MARC子字段，以涵盖更广泛的书目特征。此外，数据集的构建还依赖于大量的人工标注与校对，确保元数据的准确性与一致性，这对时间和资源提出了较高要求。

常用场景

经典使用场景

Early Novels Dataset 主要用于研究18世纪英语小说的文献学特征，特别是那些包含详细扉页、情节摘要、复杂目录和长篇前言的作品。该数据集通过丰富的书目元数据，为研究者提供了对这一时期小说文本的深入分析工具，尤其是在探讨小说结构、出版历史和文本传播方面。

解决学术问题

该数据集解决了传统图书馆目录记录无法全面捕捉早期小说复杂特征的学术问题。通过自定义的MARC子字段，研究者能够系统地分析小说中的副文本（如前言、献词、脚注等），从而揭示小说创作、出版和接受的历史背景。这一数据集为文学史、书籍史和文本研究提供了新的视角和方法。

实际应用

在实际应用中，Early Novels Dataset 被广泛用于数字人文项目，特别是文本挖掘和主题建模。研究者可以结合该数据集的元数据和全文文本，进行跨文本的主题分析，探索18世纪小说的叙事模式和文化背景。此外，该数据集还为图书馆和档案馆提供了更精细的编目标准，提升了早期小说文献的管理和检索效率。

数据集最近研究