sradc/chunked-wikipedia20220301en-bookcorpusopen
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sradc/chunked-wikipedia20220301en-bookcorpusopen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集结合了wikipedia20220301.en和bookcorpusopen,并将数据分割成较小的块,每个块大约820个字符。数据集已经过标准化处理,包括转换为小写、去除重音和非英文字符,并且移除了少于200字符或多于1000字符的项。数据集未经过洗牌,但提供了洗牌版本的下载链接。
该数据集结合了wikipedia20220301.en和bookcorpusopen,并将数据分割成较小的块,每个块大约820个字符。数据集已经过标准化处理,包括转换为小写、去除重音和非英文字符,并且移除了少于200字符或多于1000字符的项。数据集未经过洗牌,但提供了洗牌版本的下载链接。
提供机构:
sradc
原始信息汇总
数据集概述
基本信息
- 数据集名称: chunked-wikipedia20220301en-bookcorpusopen
- 数据集大小: 26.1 GB
- 下载大小: 15.3 GB
- 训练样本数: 33.5 million
数据特征
- 特征名称: text
- 数据类型: string
数据处理
- 数据已转换为小写,移除了重音和非英语字符。
- 移除了字符数少于200或多于1000的项。
- 数据未进行随机洗牌,但提供了随机洗牌版本供下载。
数据分割
- 训练集:
- 字节数: 26076989556
- 样本数: 33536113
数据集结构
- 数据被分割成小块,每块约820字符,确保每项至少约128个令牌。
- 分割逻辑仅在空格处进行,因此块可能会略大于820字符。
使用注意事项
- 由于截断,数据集在处理过程中可能会丢失部分令牌。



