biglam/blbooks-parquet
收藏Hugging Face2024-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/blbooks-parquet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由大英图书馆与微软合作数字化的书籍集合,主要包含18世纪和19世纪的书籍,但也包括少量更早期的书籍。数据集涵盖了广泛的主题领域,如地理、哲学、历史、诗歌和文学,并以多种语言出版。数据集包含约2500万页的文本,总计约76.7亿字。数据集的结构包括多个配置,每个配置包含不同的时间段,如1500-1899、1510-1699、1700-1799等。每个配置的数据字段包括记录ID、日期、标题、出版地、文本内容、页码、OCR质量等。数据集支持的任务包括语言模型训练和掩码语言建模等。
该数据集是由大英图书馆与微软合作数字化的书籍集合,主要包含18世纪和19世纪的书籍,但也包括少量更早期的书籍。数据集涵盖了广泛的主题领域,如地理、哲学、历史、诗歌和文学,并以多种语言出版。数据集包含约2500万页的文本,总计约76.7亿字。数据集的结构包括多个配置,每个配置包含不同的时间段,如1500-1899、1510-1699、1700-1799等。每个配置的数据字段包括记录ID、日期、标题、出版地、文本内容、页码、OCR质量等。数据集支持的任务包括语言模型训练和掩码语言建模等。
提供机构:
biglam
原始信息汇总
数据集概述
基本信息
- 名称: British Library Books
- 语言: 多语言(de, en, es, fr, it, nl)
- 许可证: cc0-1.0
- 多语言性: 多语言
- 大小: 100K<n<1M
- 来源数据集: blbooks
- 任务类别: text-generation, fill-mask, other
- 任务ID: language-modeling, masked-language-modeling
- 美观名称: British Library Books
- 标签: digital-humanities-research
数据结构
-
特征:
- record_id: string
- date: timestamp[s]
- raw_date: string
- title: string
- place: string
- empty_pg: bool
- text: string
- pg: int32
- mean_wc_ocr: float32
- std_wc_ocr: float64
- name: string
- all_names: string
- Publisher: string
- Country of publication 1: string
- all Countries of publication: string
- Physical description: string
- Language_1: string
- Language_2: string
- Language_3: string
- Language_4: string
- multi_language: bool
-
分割:
- train
- 配置 1500_1899:
- num_bytes: 30452067039
- num_examples: 14011953
- download_size: 10486035662
- dataset_size: 30452067039
- 配置 1510_1699:
- num_bytes: 107667469
- num_examples: 51982
- download_size: 42320165
- dataset_size: 107667469
- 配置 1700_1799:
- num_bytes: 267117831
- num_examples: 178224
- download_size: 95137895
- dataset_size: 267117831
- 配置 1700s:
- num_bytes: 266382657
- num_examples: 178224
- download_size: 95137895
- dataset_size: 266382657
- 配置 1800_1899:
- num_bytes: 30077284377
- num_examples: 13781747
- download_size: 10348577602
- dataset_size: 30077284377
- 配置 1800s:
- num_bytes: 30020434670
- num_examples: 13781747
- download_size: 10348577602
- dataset_size: 30020434670
- 配置 all:
- num_bytes: 30394267732
- num_examples: 14011953
- download_size: 10486035662
- dataset_size: 30394267732
- 配置 default:
- num_bytes: 30451982919
- num_examples: 14011953
- download_size: 16402835443
- dataset_size: 30451982919
- 配置 1500_1899:
- train



