TheBritishLibrary/blbooks
收藏Hugging Face2024-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheBritishLibrary/blbooks
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由大英图书馆与微软合作数字化的书籍,涵盖了18世纪和19世纪的大量文本,以及少量早期书籍。数据集支持多种任务,如语言模型训练和监督任务,并提供了丰富的元数据,如出版日期、出版地点、语言等。数据集是多语言的,主要包括英语、法语、德语等。数据集通过光学字符识别(OCR)技术生成文本,因此可能存在一些识别错误。
提供机构:
TheBritishLibrary
原始信息汇总
数据集概述
基本信息
- 名称: British Library Books
- 语言: 多语言(德语、英语、西班牙语、法语、意大利语、荷兰语)
- 许可证: CC0-1.0
- 多语言性: 多语言
- 大小: 100K<n<1M
- 来源: 原始数据
任务类别
- 文本生成
- 填充掩码
- 其他
任务ID
- 语言建模
- 掩码语言建模
数据集结构
- 特征:
- record_id (字符串)
- date (整数)
- raw_date (字符串)
- title (字符串)
- place (字符串)
- empty_pg (布尔值)
- text (字符串)
- pg (整数)
- mean_wc_ocr (浮点数)
- std_wc_ocr (浮点数)
- name (字符串)
- all_names (字符串)
- Publisher (字符串)
- Country of publication 1 (字符串)
- all Countries of publication (字符串)
- Physical description (字符串)
- Language_1 (字符串)
- Language_2 (字符串)
- Language_3 (字符串)
- Language_4 (字符串)
- multi_language (布尔值)
数据分割
- 训练集:
- 字节数: 30394267732
- 示例数: 14011953
- 下载大小: 10486035662
- 数据集大小: 30394267732
语言分布
- 英语: 10039463页
- 法语: 1442929页
- 德语: 1172793页
- 西班牙语: 286778页
- 意大利语: 214255页
- 荷兰语: 204759页
OCR质量
- OCR错误包括字符级、单词级和文本段落级的错误。
- OCR质量受原始印刷质量、页面损坏、扫描质量和语言差异的影响。
- OCR平均单词置信度随时间和语言变化。
使用场景
- 语言模型训练
- 监督任务,如预测出版日期、地点、语言等元数据。
数据集详细信息
数据集配置
- all:
- 特征同上
- 训练集详情同上
- 1800s:
- 特征同上
- 训练集详情:
- 字节数: 30020434670
- 示例数: 13781747
- 下载大小: 10348577602
- 数据集大小: 30020434670
- 1700s:
- 特征同上
- 训练集详情:
- 字节数: 266382657
- 示例数: 178224
- 下载大小: 95137895
- 数据集大小: 266382657
- 1510_1699:
- 特征同上,date类型为timestamp[s]
- 训练集详情:
- 字节数: 107667469
- 示例数: 51982
- 下载大小: 42320165
- 数据集大小: 107667469
- 1500_1899:
- 特征同上,date类型为timestamp[s]
- 训练集详情:
- 字节数: 30452067039
- 示例数: 14011953
- 下载大小: 10486035662
- 数据集大小: 30452067039
- 1800_1899:
- 特征同上,date类型为timestamp[s]
- 训练集详情:
- 字节数: 30077284377
- 示例数: 13781747
- 下载大小: 10348577602
- 数据集大小: 30077284377
- 1700_1799:
- 特征同上,date类型为timestamp[s]
- 训练集详情:
- 字节数: 267117831
- 示例数: 178224
- 下载大小: 95137895
- 数据集大小: 267117831



