Team-PIXEL/rendered-bookcorpus

Name: Team-PIXEL/rendered-bookcorpus
Creator: Team-PIXEL
Published: 2022-08-03 12:03:32
License: 暂无描述

Hugging Face2022-08-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Team-PIXEL/rendered-bookcorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是BookCorpus的一个版本，其中的文本被渲染为16x8464像素的图像。数据集主要用于训练PIXEL模型，该模型在论文《Language Modelling with Pixels》中被介绍。数据集包含540万个示例，总计约11亿个单词，存储为162个parquet文件。每个示例包含一个16x8464的灰度图像和一个表示包含实际文本的图像块数量的整数值。

提供机构：

Team-PIXEL

原始信息汇总

数据集概述

数据集基本信息

名称: Team-PIXEL/rendered-bookcorpus
语言: 英语 (en)
许可证: 未知
多语言性: 单语
大小: 1M<n<10M

数据集描述

数据集概要

来源: 该数据集是BookCorpus的一个版本，原始数据包含17868本书，由Zhu et al. (2015) 在论文中首次介绍。
处理: 数据集被渲染成图像，分辨率为16x8464像素，共包含5.4M个示例，约1.1B字。
存储: 存储为162个parquet文件。
渲染工具: 使用PyGame后端和Google Noto Sans字体合并的文本渲染器。
数据字段:
- pixel_values: 一个Image特征，存储16x8464像素的灰度图像。
- num_patches: 一个Value(dtype="int64")特征，表示图像中包含实际文本的补丁数量。

数据集结构

数据实例

下载大小: 63.58 GB
生成数据集大小: 63.59 GB
总磁盘使用: 127.17 GB

数据字段

pixel_values: 图像特征
num_patches: 整数特征

数据分割

训练集: 5400000个实例

数据集使用

加载方式: 可通过datasets库加载，支持下载到本地或直接从数据集中心流式加载。

python from datasets import load_dataset

下载到本地

load_dataset("Team-PIXEL/rendered-bookcorpus", split="train")

流式加载

load_dataset("Team-PIXEL/rendered-bookcorpus", split="train", streaming=True)

数据集创建

源数据

原始数据: BookCorpus，包含多种类型的书籍。
渲染过程: 使用公开的脚本进行渲染，注意不支持复杂文本布局和表情符号的准确渲染。

许可证信息

书籍来源: 从smashwords.com爬取，需遵守其服务条款。

引用信息

Zhu et al. (2015): 首次介绍BookCorpus。
Rust et al. (2022): 介绍使用该渲染数据集训练的PIXEL模型。

联系人

Phillip Rust: 数据集添加者，可通过GitHub和Twitter联系。

5,000+

优质数据集

54 个

任务类型

进入经典数据集