storytracer/LoC-PD-Books
收藏Hugging Face2024-03-13 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/storytracer/LoC-PD-Books
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过140,000本英文书籍(约80亿字),这些书籍由美国国会图书馆数字化,并在美国属于公共领域。数据集通过LoC JSON API筛选并整理,包含OCR文本和基本元数据字段,如标题、作者和出版年份。数据集的总大小为47GB(未压缩)和26GB(压缩后的Parquet文件)。每本书的主要语言被分类为英语,OCR由国会图书馆生成。数据集的使用和重用遵循公共领域的版权规定,数据集本身(不包括全文)采用CC0许可证。
---
许可协议: CC0 1.0
任务类别:
- 文本生成
语言:
- 英语
标签:
- 光学字符识别(OCR)
- 图书
- 公有领域
数据集简称: 国会图书馆公有领域图书
规模区间:
- 10亿词 < 总词量 < 100亿词
---
# 国会图书馆公有领域英文图书数据集
本数据集包含美国国会图书馆(Library of Congress,简称LoC)数字化处理的14万余本英文图书,总词量约80亿,均属于美国公有领域范畴。本数据集由Sebastian Majstorovic整理编制,其个人主页为https://www.storytracer.org。
## 数据遴选方法
本数据集基于LoC JSON API(https://www.loc.gov/apis/json-and-yaml/),通过从「精选数字化图书馆藏」中筛选英文图书完成遴选。
## 数据集概览
本数据集包含美国国会图书馆「精选数字化图书馆藏」(https://www.loc.gov/collections/selected-digitized-books/about-this-collection/)中的14万份光学字符识别(Optical Character Recognition,OCR)文本,对应约2900万页内容。
## 数据规模
完整未压缩数据集的总大小约为47GB,压缩后的Parquet文件总容量为26GB,每个Parquet文件最多包含1000本图书。
## 元数据
图书文本配套包含基础元数据字段,包括书名、作者与出版年份等(详见「数据字段」部分)。
## 语言标注
本数据集内所有图书均经LoC标注,以英语作为其主要语言。
## 光学字符识别(OCR)
本数据集图书的OCR文本由美国国会图书馆生成。
## 数据字段
| 字段名 | 数据类型 | 字段说明 |
| --- | --- | --- |
| lccn | 字符串 | 美国国会图书馆控制号(Library of Congress Control Number,LCCN),同时也是馆藏条目URL(https://www.loc.gov/item/{lccn})中的唯一标识 |
| title | 字符串 | LoC元数据字段,对应图书书名 |
| author | 字符串 | LoC元数据字段,对应图书作者 |
| year | 整数 | LoC元数据字段,对应图书出版年份 |
| page_count | 整数 | LoC元数据字段,对应图书总页数 |
| filename | 字符串 | LoC原生全量OCR文本文件的文件名 |
| text | 字符串 | LoC原生全量OCR文本文件的内容 |
## 版权与许可协议
本数据集所收录的「精选数字化图书馆藏」完整文本在美国境内属于公有领域范畴。LoC针对该馆藏的权利声明(https://www.loc.gov/collections/selected-digitized-books/about-this-collection/rights-and-access/)明确指出:「本馆藏内的图书均属于公有领域,可自由使用与复用」。数据集使用者需自行遵守所在司法辖区的版权法律法规。本数据集本体(不含完整图书文本)采用CC0 1.0许可协议(https://creativecommons.org/public-domain/cc0/)进行授权。
提供机构:
storytracer
原始信息汇总
数据集概述
数据集内容
- 包含超过140,000本英文书籍。
- 总字数约80亿字。
数据来源
- 由美国国会图书馆(Library of Congress, LoC)数字化。
版权状态
- 书籍在美国属于公共领域。
编纂者
- Sebastian Majstorovic。



