five

biglam/blbooks-parquet

收藏
Hugging Face2024-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/blbooks-parquet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由大英图书馆与微软合作数字化的书籍集合,主要包含18世纪和19世纪的书籍,但也包括少量更早期的书籍。数据集涵盖了广泛的主题领域,如地理、哲学、历史、诗歌和文学,并以多种语言出版。数据集包含约2500万页的文本,总计约76.7亿字。数据集的结构包括多个配置,每个配置包含不同的时间段,如1500-1899、1510-1699、1700-1799等。每个配置的数据字段包括记录ID、日期、标题、出版地、文本内容、页码、OCR质量等。数据集支持的任务包括语言模型训练和掩码语言建模等。

该数据集是由大英图书馆与微软合作数字化的书籍集合,主要包含18世纪和19世纪的书籍,但也包括少量更早期的书籍。数据集涵盖了广泛的主题领域,如地理、哲学、历史、诗歌和文学,并以多种语言出版。数据集包含约2500万页的文本,总计约76.7亿字。数据集的结构包括多个配置,每个配置包含不同的时间段,如1500-1899、1510-1699、1700-1799等。每个配置的数据字段包括记录ID、日期、标题、出版地、文本内容、页码、OCR质量等。数据集支持的任务包括语言模型训练和掩码语言建模等。
提供机构:
biglam
原始信息汇总

数据集概述

基本信息

  • 名称: British Library Books
  • 语言: 多语言(de, en, es, fr, it, nl)
  • 许可证: cc0-1.0
  • 多语言性: 多语言
  • 大小: 100K<n<1M
  • 来源数据集: blbooks
  • 任务类别: text-generation, fill-mask, other
  • 任务ID: language-modeling, masked-language-modeling
  • 美观名称: British Library Books
  • 标签: digital-humanities-research

数据结构

  • 特征:

    • record_id: string
    • date: timestamp[s]
    • raw_date: string
    • title: string
    • place: string
    • empty_pg: bool
    • text: string
    • pg: int32
    • mean_wc_ocr: float32
    • std_wc_ocr: float64
    • name: string
    • all_names: string
    • Publisher: string
    • Country of publication 1: string
    • all Countries of publication: string
    • Physical description: string
    • Language_1: string
    • Language_2: string
    • Language_3: string
    • Language_4: string
    • multi_language: bool
  • 分割:

    • train
      • 配置 1500_1899:
        • num_bytes: 30452067039
        • num_examples: 14011953
        • download_size: 10486035662
        • dataset_size: 30452067039
      • 配置 1510_1699:
        • num_bytes: 107667469
        • num_examples: 51982
        • download_size: 42320165
        • dataset_size: 107667469
      • 配置 1700_1799:
        • num_bytes: 267117831
        • num_examples: 178224
        • download_size: 95137895
        • dataset_size: 267117831
      • 配置 1700s:
        • num_bytes: 266382657
        • num_examples: 178224
        • download_size: 95137895
        • dataset_size: 266382657
      • 配置 1800_1899:
        • num_bytes: 30077284377
        • num_examples: 13781747
        • download_size: 10348577602
        • dataset_size: 30077284377
      • 配置 1800s:
        • num_bytes: 30020434670
        • num_examples: 13781747
        • download_size: 10348577602
        • dataset_size: 30020434670
      • 配置 all:
        • num_bytes: 30394267732
        • num_examples: 14011953
        • download_size: 10486035662
        • dataset_size: 30394267732
      • 配置 default:
        • num_bytes: 30451982919
        • num_examples: 14011953
        • download_size: 16402835443
        • dataset_size: 30451982919
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作