five

storytracer/LoC-PD-Books

收藏
Hugging Face2024-03-13 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/storytracer/LoC-PD-Books
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过140,000本英文书籍(约80亿字),这些书籍由美国国会图书馆数字化,并在美国属于公共领域。数据集通过LoC JSON API筛选并整理,包含OCR文本和基本元数据字段,如标题、作者和出版年份。数据集的总大小为47GB(未压缩)和26GB(压缩后的Parquet文件)。每本书的主要语言被分类为英语,OCR由国会图书馆生成。数据集的使用和重用遵循公共领域的版权规定,数据集本身(不包括全文)采用CC0许可证。

--- 许可协议: CC0 1.0 任务类别: - 文本生成 语言: - 英语 标签: - 光学字符识别(OCR) - 图书 - 公有领域 数据集简称: 国会图书馆公有领域图书 规模区间: - 10亿词 < 总词量 < 100亿词 --- # 国会图书馆公有领域英文图书数据集 本数据集包含美国国会图书馆(Library of Congress,简称LoC)数字化处理的14万余本英文图书,总词量约80亿,均属于美国公有领域范畴。本数据集由Sebastian Majstorovic整理编制,其个人主页为https://www.storytracer.org。 ## 数据遴选方法 本数据集基于LoC JSON API(https://www.loc.gov/apis/json-and-yaml/),通过从「精选数字化图书馆藏」中筛选英文图书完成遴选。 ## 数据集概览 本数据集包含美国国会图书馆「精选数字化图书馆藏」(https://www.loc.gov/collections/selected-digitized-books/about-this-collection/)中的14万份光学字符识别(Optical Character Recognition,OCR)文本,对应约2900万页内容。 ## 数据规模 完整未压缩数据集的总大小约为47GB,压缩后的Parquet文件总容量为26GB,每个Parquet文件最多包含1000本图书。 ## 元数据 图书文本配套包含基础元数据字段,包括书名、作者与出版年份等(详见「数据字段」部分)。 ## 语言标注 本数据集内所有图书均经LoC标注,以英语作为其主要语言。 ## 光学字符识别(OCR) 本数据集图书的OCR文本由美国国会图书馆生成。 ## 数据字段 | 字段名 | 数据类型 | 字段说明 | | --- | --- | --- | | lccn | 字符串 | 美国国会图书馆控制号(Library of Congress Control Number,LCCN),同时也是馆藏条目URL(https://www.loc.gov/item/{lccn})中的唯一标识 | | title | 字符串 | LoC元数据字段,对应图书书名 | | author | 字符串 | LoC元数据字段,对应图书作者 | | year | 整数 | LoC元数据字段,对应图书出版年份 | | page_count | 整数 | LoC元数据字段,对应图书总页数 | | filename | 字符串 | LoC原生全量OCR文本文件的文件名 | | text | 字符串 | LoC原生全量OCR文本文件的内容 | ## 版权与许可协议 本数据集所收录的「精选数字化图书馆藏」完整文本在美国境内属于公有领域范畴。LoC针对该馆藏的权利声明(https://www.loc.gov/collections/selected-digitized-books/about-this-collection/rights-and-access/)明确指出:「本馆藏内的图书均属于公有领域,可自由使用与复用」。数据集使用者需自行遵守所在司法辖区的版权法律法规。本数据集本体(不含完整图书文本)采用CC0 1.0许可协议(https://creativecommons.org/public-domain/cc0/)进行授权。
提供机构:
storytracer
原始信息汇总

数据集概述

数据集内容

  • 包含超过140,000本英文书籍。
  • 总字数约80亿字。

数据来源

  • 由美国国会图书馆(Library of Congress, LoC)数字化。

版权状态

  • 书籍在美国属于公共领域。

编纂者

  • Sebastian Majstorovic。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作