five

Early Novels Dataset

收藏
github2024-02-28 更新2024-05-31 收录
下载链接:
https://github.com/earlynovels/end-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Early Novels Dataset包含早期小说作品的丰富书目元数据,这些作品收藏于宾夕法尼亚大学的Collection of British and American Fiction, 1660-1830 (CBAF)及其他地区藏书机构。该数据集由高质量的人工生成元数据组成,捕捉了比传统图书馆目录记录更全面的版本和副本特定信息。

The Early Novels Dataset encompasses a rich collection of bibliographic metadata for early novelistic works, housed within the University of Pennsylvania's Collection of British and American Fiction, 1660-1830 (CBAF), as well as other regional library collections. This dataset is composed of high-quality, manually generated metadata that captures more comprehensive edition and copy-specific information than traditional library catalog records.
创建时间:
2016-12-20
原始信息汇总

数据集概述

数据集名称

Early Novels Dataset (END)

数据集内容

该数据集包含早期英语小说的书目元数据,这些小说主要收藏于宾夕法尼亚大学的Collection of British and American Fiction, 1660-1830 (CBAF),并包括其他区域藏书。数据集中的MARC目录记录通过定制子字段进行了丰富,旨在提供关于早期英语小说的结构化数据。

数据集特点

  • 元数据质量:数据集中的元数据由人工生成,捕捉了比传统图书馆目录记录更全面的版本和副本特定信息。
  • 定制子字段:基于标准的MARC记录,增加了定制设计的子字段,使用受控和叙述性词汇来描述传统编目范围之外的多种书目特征。
  • 数据量:截至2018年11月,完整的数据集总计2,002条记录,核心十八世纪子集包含1,440条记录。

数据集格式

  • MARCXML:最完整的数据格式,用于图书馆目录。
  • Tabular Subsets:提供简化的数据子集,便于深入探索特定特征。

数据集使用

  • 探索方式:可通过Google Sheets或Microsoft Excel等工具打开和查看.tsv文件。
  • 数据分析:提供教程和可视化演示,指导用户如何使用Excel Pivot Tables等工具探索数据。

数据集结构

  • MARCXML结构:基于标准MARC记录,增加了非标准的定制子字段,以收集新的信息类型。
  • 子字段说明:详细描述了包括000至596字段在内的多个字段及其子字段,用于捕捉各种书目和副本特定信息。

数据集附加资源

  • 全文本数据:正在初步阶段的全文本倡议,提供通过OCR创建的全文本文件,用于与END元数据结合进行主题建模。

数据集访问

数据集可通过提供的链接访问,包括完整数据和简化的表格子集,支持多种探索和分析需求。

搜集汇总
数据集介绍
main_image_url
构建方式
Early Novels Dataset的构建基于18世纪英国和美国小说的丰富书目元数据,这些数据源自宾夕法尼亚大学Kislak中心的特别收藏以及其他地区图书馆的馆藏。数据集采用MARC(机器可读编目)记录格式,并通过自定义子字段扩展,以捕捉传统图书馆编目无法涵盖的详细信息。这些自定义字段包括作者声明、完整和半标题、准确的出版地点以及版本声明等。此外,数据集还记录了书籍的边注、题词、书签等副本特定信息,以及叙事形式和重要的副文本特征,如作者注释、题词、脚注和索引。
特点
Early Novels Dataset的特点在于其高质量的人工生成元数据,这些数据不仅涵盖了早期小说的广泛信息,还通过自定义MARC子字段提供了传统编目无法捕捉的细节。数据集包含2002条记录,其中核心的18世纪子集包含1440条记录,代表了宾夕法尼亚图书馆收藏的1700年至1797年间出版的英国和美国小说。此外,数据集还补充了费城地区和其他地区图书馆的精选馆藏,使得研究者能够进行跨库的细致搜索和分析。
使用方法
Early Novels Dataset的使用方法多样,最完整的数据以MARCXML格式提供,便于在图书馆系统中使用。此外,数据集还提供了表格形式的子集,方便用户深入探索特定特征。用户可以通过Google Sheets或Microsoft Excel打开和查看.tsv文件,选择“tab”作为分隔符。对于更高级的数据处理,用户可以使用OpenRefine导入和导出MARCXML文件,或使用Pymarc脚本从MARCXML字段和子字段中提取特定信息。数据集还支持与全文结合进行主题建模,为研究者提供了丰富的分析工具。
背景与挑战
背景概述
Early Novels Dataset(早期小说数据集)由宾夕法尼亚大学的Kislak特藏、珍本与手稿中心于2018年创建,旨在为1660年至1830年间的英美小说提供丰富的书目元数据。该数据集的核心研究问题在于如何通过定制化的MARC子字段,捕捉早期小说中的复杂文本特征,如标题页、情节摘要、目录、注释等,从而为18世纪英语小说的研究提供新的视角。数据集的主要研究人员包括Rachel Buurma等学者,其影响力不仅限于文学研究领域,还为数字人文和图书馆学提供了重要的数据支持。
当前挑战
Early Novels Dataset在构建过程中面临多重挑战。首先,早期小说的文本特征复杂多样,传统的图书馆编目系统难以全面记录这些信息,因此需要设计定制化的MARC子字段以捕捉细节。其次,数据集的构建依赖于人工生成的高质量元数据,这一过程耗时且需要专业知识,尤其是在处理手稿、注释和版次信息时。此外,数据集的目标是支持跨文本的检索与分析,但早期小说的文本结构多样,如何系统化地记录并标准化这些信息仍是一个技术难题。最后,尽管数据集已包含2002条记录,但其覆盖范围仍有限,如何扩展数据集的规模并保持数据质量是未来需要解决的问题。
常用场景
经典使用场景
Early Novels Dataset(早期小说数据集)在文学研究领域中被广泛应用于分析18世纪英语小说的文本特征和结构。该数据集通过丰富的书目元数据,捕捉了早期小说中的标题页、情节摘要、复杂目录、长篇标题和尾注等细节,为研究者提供了深入探讨小说形式、内容和历史背景的工具。特别是在研究小说的叙事结构、作者意图和读者反应时,该数据集提供了前所未有的数据支持。
实际应用
在实际应用中,Early Novels Dataset被用于构建数字人文项目,如小说文本的可视化分析和主题建模。通过与全文数据的结合,研究者能够探索小说文本中的主题分布和语言模式,揭示不同时期小说的创作趋势和读者偏好。此外,该数据集还为图书馆和档案馆提供了更精细的编目工具,帮助其更好地管理和展示早期小说收藏。
衍生相关工作
基于Early Novels Dataset,衍生出了多项经典研究项目。例如,研究者利用该数据集进行了18世纪小说叙事形式的定量分析,揭示了书信体小说和第一人称叙事的流行趋势。此外,结合主题建模工具,研究者还开发了针对早期小说的文本挖掘方法,探索了小说中的主题演变和作者风格。这些工作不仅推动了数字人文领域的发展,也为文学研究提供了新的方法论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作