storytracer/LoC-PD-Books

Name: storytracer/LoC-PD-Books
Creator: storytracer
Published: 2024-03-13 19:26:42
License: 暂无描述

Hugging Face2024-03-13 更新2024-04-21 收录

下载链接：

https://hf-mirror.com/datasets/storytracer/LoC-PD-Books

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过140,000本英文书籍（约80亿字），这些书籍由美国国会图书馆数字化，并在美国属于公共领域。数据集通过LoC JSON API筛选并整理，包含OCR文本和基本元数据字段，如标题、作者和出版年份。数据集的总大小为47GB（未压缩）和26GB（压缩后的Parquet文件）。每本书的主要语言被分类为英语，OCR由国会图书馆生成。数据集的使用和重用遵循公共领域的版权规定，数据集本身（不包括全文）采用CC0许可证。

--- 许可协议: CC0 1.0 任务类别: - 文本生成语言: - 英语标签: - 光学字符识别（OCR） - 图书 - 公有领域数据集简称: 国会图书馆公有领域图书规模区间: - 10亿词 < 总词量 < 100亿词 --- # 国会图书馆公有领域英文图书数据集本数据集包含美国国会图书馆（Library of Congress，简称LoC）数字化处理的14万余本英文图书，总词量约80亿，均属于美国公有领域范畴。本数据集由Sebastian Majstorovic整理编制，其个人主页为https://www.storytracer.org。 ## 数据遴选方法本数据集基于LoC JSON API（https://www.loc.gov/apis/json-and-yaml/），通过从「精选数字化图书馆藏」中筛选英文图书完成遴选。 ## 数据集概览本数据集包含美国国会图书馆「精选数字化图书馆藏」（https://www.loc.gov/collections/selected-digitized-books/about-this-collection/）中的14万份光学字符识别（Optical Character Recognition，OCR）文本，对应约2900万页内容。 ## 数据规模完整未压缩数据集的总大小约为47GB，压缩后的Parquet文件总容量为26GB，每个Parquet文件最多包含1000本图书。 ## 元数据图书文本配套包含基础元数据字段，包括书名、作者与出版年份等（详见「数据字段」部分）。 ## 语言标注本数据集内所有图书均经LoC标注，以英语作为其主要语言。 ## 光学字符识别（OCR）本数据集图书的OCR文本由美国国会图书馆生成。 ## 数据字段 | 字段名 | 数据类型 | 字段说明 | | --- | --- | --- | | lccn | 字符串 | 美国国会图书馆控制号（Library of Congress Control Number，LCCN），同时也是馆藏条目URL（https://www.loc.gov/item/{lccn}）中的唯一标识 | | title | 字符串 | LoC元数据字段，对应图书书名 | | author | 字符串 | LoC元数据字段，对应图书作者 | | year | 整数 | LoC元数据字段，对应图书出版年份 | | page_count | 整数 | LoC元数据字段，对应图书总页数 | | filename | 字符串 | LoC原生全量OCR文本文件的文件名 | | text | 字符串 | LoC原生全量OCR文本文件的内容 | ## 版权与许可协议本数据集所收录的「精选数字化图书馆藏」完整文本在美国境内属于公有领域范畴。LoC针对该馆藏的权利声明（https://www.loc.gov/collections/selected-digitized-books/about-this-collection/rights-and-access/）明确指出：「本馆藏内的图书均属于公有领域，可自由使用与复用」。数据集使用者需自行遵守所在司法辖区的版权法律法规。本数据集本体（不含完整图书文本）采用CC0 1.0许可协议（https://creativecommons.org/public-domain/cc0/）进行授权。

提供机构：

storytracer

原始信息汇总

数据集概述

数据集内容

包含超过140,000本英文书籍。
总字数约80亿字。

数据来源

由美国国会图书馆（Library of Congress, LoC）数字化。

版权状态

书籍在美国属于公共领域。

编纂者

Sebastian Majstorovic。

5,000+

优质数据集

54 个

任务类型

进入经典数据集