storytracer/US-PD-Books

Name: storytracer/US-PD-Books
Creator: storytracer
Published: 2024-03-13 19:26:24
License: 暂无描述

Hugging Face2024-03-13 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/storytracer/US-PD-Books

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过65万本英文书籍（约610亿字），这些书籍被认为在美国属于公共领域，并由Internet Archive数字化，作为Open Library项目的一部分进行编目。数据集由Sebastian Majstorovic编译，包含来自Internet Archive（IA）各种收藏的653,983个OCR文本（约2亿页）。为了尽可能限制数据集为书籍，仅包含具有Open Library（OL）记录的文本。数据集通过结合手动识别、API查询和OpenLibrary记录限制等方法进行筛选。数据集的大小约为400GB，压缩后的Parquet文件约为220GB。每本书都附有基本的元数据字段，如标题、作者和出版年份。所有书籍的OCR由Internet Archive生成，质量因书而异。数据集中的书籍主要被分类为英文，尽管可能包含少量其他语言。

提供机构：

storytracer

原始信息汇总

US Public Domain Books (English) 数据集概述

基本信息

许可证: CC0-1.0
任务类别: 文本生成
大小类别: 10B<n<100B
语言: 英语
标签: 书籍、公共领域、OCR、开放文化
配置:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: "metadata.parquet"
美观名称: US Public Domain Books (English)

数据集描述

包含内容: 超过650,000本英语书籍（约610亿字），这些书籍被认为在美国属于公共领域，由Internet Archive数字化并作为Open Library项目的一部分进行编目。
数据集大小: 未压缩数据集大小约为400GB，压缩的Parquet文件总计约220GB。每个Parquet文件最多包含2000本书。
数据集组成: 包含653,983个OCR文本（约2亿页），来自Internet Archive的多个收藏。

数据集制作方法

筛选方法:
- 手动识别明确声明仅包含公共领域材料的IA收藏，如Cornell University Library收藏或LoC Selected Digitized Books收藏，并批量下载。
- 使用possible-copyright-status查询参数搜索所有IA收藏中状态为NOT_IN_COPYRIGHT的项目。
- 使用openlibrary_edition:*查询参数确保所有返回的项目拥有OpenLibrary记录。

元数据

伴随文本: 基本元数据字段，如标题、作者和出版年份，以及IA和OL标识符。
扩展信息: 可通过OL API、OL数据转储和IA元数据API获取更多关于主题、作者、文件详情等信息。

语言

语言分类: 每本书在OCR过程中被IA分类为英语为主要语言，少数书籍可能混有其他语言。

OCR

OCR来源: 由Internet Archive提供，OCR质量因书而异。

数据字段

字段	数据类型	描述
ocaid	字符串	IA项目标识符
title	字符串	IA元数据字段标题
author	字符串	IA元数据字段创建者
year	整数	IA元数据字段年份
page_count	整数	IA元数据字段图像计数
openlibrary_edition	字符串	OL版本
openlibrary_work	字符串	OL作品
full_text	字符串	IA项目的纯文本OCR文件内容

版权与许可

版权状态: 数据集中的作品全文被认为在美国属于公共领域，无已知版权。
数据集许可: 数据集（全文除外）根据CC0许可证授权。

搜集汇总

数据集介绍

构建方式

在数字人文领域，构建大规模文本数据集需兼顾来源可靠性与内容纯净度。本数据集通过三重筛选机制确保收录书籍均属美国公共领域：首先，人工甄别互联网档案馆中明确标注为公共领域的专题馆藏，如康奈尔大学图书馆藏品；其次，利用档案馆搜索接口，以“非版权保护”状态为条件进行全库检索；最后，限定检索结果必须关联开放图书馆记录，从而精准过滤非书籍类文本。这一复合策略在保障数据合法性的同时，有效提升了语料库的学术价值。

使用方法

对于自然语言处理研究者而言，本数据集可作为历史语言变迁分析的基础语料。使用者可通过解析Parquet格式的元数据文件，获取书籍书目信息及其在互联网档案馆与开放图书馆的对应标识。基于这些标识符，研究者可进一步调用相关平台API扩展元数据维度，或定向获取特定领域的文本子集。在文本生成任务中，建议结合后续发布的全文数据集（如国会图书馆公共领域书籍集）进行联合训练，以构建时序连贯的语料流。需特别注意不同司法辖区的版权差异，确保使用符合当地法规。

背景与挑战

背景概述

在数字人文与计算语言学领域，大规模文本语料库的构建对于推动自然语言处理技术的进步至关重要。故事追踪者（storytracer）机构的研究人员Sebastian Majstorovic于近年创建了US-PD-Books数据集，旨在汇集美国公共领域的英文书籍资源。该数据集依托互联网档案馆（Internet Archive）与开放图书馆（Open Library）项目，通过光学字符识别技术数字化了超过65万本图书，涵盖约610亿词汇量，核心研究问题聚焦于如何高效、合法地获取并整理海量公共领域文本，以支持文本生成、语言模型训练等任务，对文化遗产数字化与开放科学运动产生了深远影响。

当前挑战

US-PD-Books数据集面临的挑战主要体现在两个方面：在领域问题层面，公共领域文本的识别与版权状态判定极为复杂，涉及法律差异与历史文献的不确定性，这直接影响了数据集的可靠性与适用范围；在构建过程中，互联网档案馆的元数据可靠性不足，导致部分书籍的公共领域状态存疑，加之光学字符识别质量参差不齐，文本错误率较高，且数据规模庞大（约400GB未压缩），对存储、处理与质量控制提出了严峻的技术要求。

常用场景

经典使用场景

在数字人文与计算语言学领域，US-PD-Books数据集以其庞大的英文公共领域图书语料，为大规模语言模型的预训练提供了关键资源。该数据集涵盖了超过65万本图书，约610亿单词的OCR文本，这些文本源自互联网档案馆的数字化收藏，并经过精心筛选以确保其属于公共领域。研究者常利用这一语料库进行语言建模、文本生成和语义分析等任务，其丰富的历时性文本为探索语言演变和文化变迁提供了独特视角。

解决学术问题

该数据集有效解决了学术研究中公共领域文本资源稀缺的难题，为历史语言学、文学分析和信息检索等领域提供了标准化、可访问的大规模语料。通过整合互联网档案馆与开放图书馆的元数据，它确保了图书属性的准确标注，支持了版权状态清晰的学术探索。其意义在于推动了开放科学的发展，使研究者能够基于合规文本开展实验，避免了版权纠纷，同时促进了跨学科研究如数字人文与计算社会科学的融合。

实际应用

在实际应用中，US-PD-Books数据集被广泛用于教育技术、数字图书馆建设和内容生成工具的开发。教育机构可利用其构建历史文献检索系统，增强人文课程的教学资源；技术公司则依赖其训练OCR后处理算法，提升古籍数字化的文本质量。此外，该数据集支持创意产业生成基于公共领域内容的衍生作品，如自动摘要或翻译工具，推动了文化遗产的数字化保存与创新利用。

数据集最近研究