five

TheBritishLibrary/blbooks

收藏
Hugging Face2024-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheBritishLibrary/blbooks
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由大英图书馆与微软合作数字化的书籍,涵盖了18世纪和19世纪的大量文本,以及少量早期书籍。数据集支持多种任务,如语言模型训练和监督任务,并提供了丰富的元数据,如出版日期、出版地点、语言等。数据集是多语言的,主要包括英语、法语、德语等。数据集通过光学字符识别(OCR)技术生成文本,因此可能存在一些识别错误。
提供机构:
TheBritishLibrary
原始信息汇总

数据集概述

基本信息

  • 名称: British Library Books
  • 语言: 多语言(德语、英语、西班牙语、法语、意大利语、荷兰语)
  • 许可证: CC0-1.0
  • 多语言性: 多语言
  • 大小: 100K<n<1M
  • 来源: 原始数据

任务类别

  • 文本生成
  • 填充掩码
  • 其他

任务ID

  • 语言建模
  • 掩码语言建模

数据集结构

  • 特征:
    • record_id (字符串)
    • date (整数)
    • raw_date (字符串)
    • title (字符串)
    • place (字符串)
    • empty_pg (布尔值)
    • text (字符串)
    • pg (整数)
    • mean_wc_ocr (浮点数)
    • std_wc_ocr (浮点数)
    • name (字符串)
    • all_names (字符串)
    • Publisher (字符串)
    • Country of publication 1 (字符串)
    • all Countries of publication (字符串)
    • Physical description (字符串)
    • Language_1 (字符串)
    • Language_2 (字符串)
    • Language_3 (字符串)
    • Language_4 (字符串)
    • multi_language (布尔值)

数据分割

  • 训练集:
    • 字节数: 30394267732
    • 示例数: 14011953
    • 下载大小: 10486035662
    • 数据集大小: 30394267732

语言分布

  • 英语: 10039463页
  • 法语: 1442929页
  • 德语: 1172793页
  • 西班牙语: 286778页
  • 意大利语: 214255页
  • 荷兰语: 204759页

OCR质量

  • OCR错误包括字符级、单词级和文本段落级的错误。
  • OCR质量受原始印刷质量、页面损坏、扫描质量和语言差异的影响。
  • OCR平均单词置信度随时间和语言变化。

使用场景

  • 语言模型训练
  • 监督任务,如预测出版日期、地点、语言等元数据。

数据集详细信息

数据集配置

  • all:
    • 特征同上
    • 训练集详情同上
  • 1800s:
    • 特征同上
    • 训练集详情:
      • 字节数: 30020434670
      • 示例数: 13781747
      • 下载大小: 10348577602
      • 数据集大小: 30020434670
  • 1700s:
    • 特征同上
    • 训练集详情:
      • 字节数: 266382657
      • 示例数: 178224
      • 下载大小: 95137895
      • 数据集大小: 266382657
  • 1510_1699:
    • 特征同上,date类型为timestamp[s]
    • 训练集详情:
      • 字节数: 107667469
      • 示例数: 51982
      • 下载大小: 42320165
      • 数据集大小: 107667469
  • 1500_1899:
    • 特征同上,date类型为timestamp[s]
    • 训练集详情:
      • 字节数: 30452067039
      • 示例数: 14011953
      • 下载大小: 10486035662
      • 数据集大小: 30452067039
  • 1800_1899:
    • 特征同上,date类型为timestamp[s]
    • 训练集详情:
      • 字节数: 30077284377
      • 示例数: 13781747
      • 下载大小: 10348577602
      • 数据集大小: 30077284377
  • 1700_1799:
    • 特征同上,date类型为timestamp[s]
    • 训练集详情:
      • 字节数: 267117831
      • 示例数: 178224
      • 下载大小: 95137895
      • 数据集大小: 267117831
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作