Team-PIXEL/rendered-bookcorpus
收藏Hugging Face2022-08-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Team-PIXEL/rendered-bookcorpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是BookCorpus的一个版本,其中的文本被渲染为16x8464像素的图像。数据集主要用于训练PIXEL模型,该模型在论文《Language Modelling with Pixels》中被介绍。数据集包含540万个示例,总计约11亿个单词,存储为162个parquet文件。每个示例包含一个16x8464的灰度图像和一个表示包含实际文本的图像块数量的整数值。
提供机构:
Team-PIXEL
原始信息汇总
数据集概述
数据集基本信息
- 名称: Team-PIXEL/rendered-bookcorpus
- 语言: 英语 (en)
- 许可证: 未知
- 多语言性: 单语
- 大小: 1M<n<10M
数据集描述
数据集概要
- 来源: 该数据集是BookCorpus的一个版本,原始数据包含17868本书,由Zhu et al. (2015) 在论文中首次介绍。
- 处理: 数据集被渲染成图像,分辨率为16x8464像素,共包含5.4M个示例,约1.1B字。
- 存储: 存储为162个parquet文件。
- 渲染工具: 使用PyGame后端和Google Noto Sans字体合并的文本渲染器。
- 数据字段:
pixel_values: 一个Image特征,存储16x8464像素的灰度图像。num_patches: 一个Value(dtype="int64")特征,表示图像中包含实际文本的补丁数量。
数据集结构
数据实例
- 下载大小: 63.58 GB
- 生成数据集大小: 63.59 GB
- 总磁盘使用: 127.17 GB
数据字段
pixel_values: 图像特征num_patches: 整数特征
数据分割
- 训练集: 5400000个实例
数据集使用
- 加载方式: 可通过
datasets库加载,支持下载到本地或直接从数据集中心流式加载。
python from datasets import load_dataset
下载到本地
load_dataset("Team-PIXEL/rendered-bookcorpus", split="train")
流式加载
load_dataset("Team-PIXEL/rendered-bookcorpus", split="train", streaming=True)
数据集创建
源数据
- 原始数据: BookCorpus,包含多种类型的书籍。
- 渲染过程: 使用公开的脚本进行渲染,注意不支持复杂文本布局和表情符号的准确渲染。
许可证信息
- 书籍来源: 从smashwords.com爬取,需遵守其服务条款。
引用信息
- Zhu et al. (2015): 首次介绍BookCorpus。
- Rust et al. (2022): 介绍使用该渲染数据集训练的PIXEL模型。
联系人
- Phillip Rust: 数据集添加者,可通过GitHub和Twitter联系。



