five

Team-PIXEL/rendered-bookcorpus

收藏
Hugging Face2022-08-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Team-PIXEL/rendered-bookcorpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是BookCorpus的一个版本,其中的文本被渲染为16x8464像素的图像。数据集主要用于训练PIXEL模型,该模型在论文《Language Modelling with Pixels》中被介绍。数据集包含540万个示例,总计约11亿个单词,存储为162个parquet文件。每个示例包含一个16x8464的灰度图像和一个表示包含实际文本的图像块数量的整数值。
提供机构:
Team-PIXEL
原始信息汇总

数据集概述

数据集基本信息

  • 名称: Team-PIXEL/rendered-bookcorpus
  • 语言: 英语 (en)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 1M<n<10M

数据集描述

数据集概要

  • 来源: 该数据集是BookCorpus的一个版本,原始数据包含17868本书,由Zhu et al. (2015) 在论文中首次介绍。
  • 处理: 数据集被渲染成图像,分辨率为16x8464像素,共包含5.4M个示例,约1.1B字。
  • 存储: 存储为162个parquet文件。
  • 渲染工具: 使用PyGame后端和Google Noto Sans字体合并的文本渲染器。
  • 数据字段:
    • pixel_values: 一个Image特征,存储16x8464像素的灰度图像。
    • num_patches: 一个Value(dtype="int64")特征,表示图像中包含实际文本的补丁数量。

数据集结构

数据实例

  • 下载大小: 63.58 GB
  • 生成数据集大小: 63.59 GB
  • 总磁盘使用: 127.17 GB

数据字段

  • pixel_values: 图像特征
  • num_patches: 整数特征

数据分割

  • 训练集: 5400000个实例

数据集使用

  • 加载方式: 可通过datasets库加载,支持下载到本地或直接从数据集中心流式加载。

python from datasets import load_dataset

下载到本地

load_dataset("Team-PIXEL/rendered-bookcorpus", split="train")

流式加载

load_dataset("Team-PIXEL/rendered-bookcorpus", split="train", streaming=True)

数据集创建

源数据

  • 原始数据: BookCorpus,包含多种类型的书籍。
  • 渲染过程: 使用公开的脚本进行渲染,注意不支持复杂文本布局和表情符号的准确渲染。

许可证信息

  • 书籍来源: 从smashwords.com爬取,需遵守其服务条款。

引用信息

  • Zhu et al. (2015): 首次介绍BookCorpus。
  • Rust et al. (2022): 介绍使用该渲染数据集训练的PIXEL模型。

联系人

  • Phillip Rust: 数据集添加者,可通过GitHub和Twitter联系。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作