sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen
收藏Hugging Face2023-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集结合了wikipedia20220301.en和bookcorpusopen两个数据集,并将其分割成较小的块,每块大约820个字符(这样每个项目对于平均分词器来说至少有128个标记)。数据集中的项目顺序已被打乱,因此无需使用`dataset.shuffle`,这样可以加快迭代速度。分割逻辑仅在空格处进行,因此块的大小可能会略大于820个字符。数据集已归一化为小写,并去除了重音和非英文字符。移除了少于200个字符或多于1000个字符的项目。该数据集经过处理以便于使用,但会因截断而丢失一部分标记(假设训练小批量被截断为128个标记)。
该数据集结合了wikipedia20220301.en和bookcorpusopen两个数据集,并将其分割成较小的块,每块大约820个字符(这样每个项目对于平均分词器来说至少有128个标记)。数据集中的项目顺序已被打乱,因此无需使用`dataset.shuffle`,这样可以加快迭代速度。分割逻辑仅在空格处进行,因此块的大小可能会略大于820个字符。数据集已归一化为小写,并去除了重音和非英文字符。移除了少于200个字符或多于1000个字符的项目。该数据集经过处理以便于使用,但会因截断而丢失一部分标记(假设训练小批量被截断为128个标记)。
提供机构:
sradc
原始信息汇总
数据集概述
基本信息
- 数据集名称: wikipedia20220301en-bookcorpusopen-chunked-shuffled
- 语言: 英语
数据结构
- 特征:
- text: 字符串类型
数据分割
- 训练集:
- 示例数量: 33,536,113 (约33.5百万)
- 数据大小: 26,076,989,556字节 (约26.1 GB)
数据下载
- 下载大小: 17,380,043,798字节 (约15.3 GB)
数据处理
- 数据来源: 结合了wikipedia20220301.en和bookcorpusopen数据集
- 数据分割: 分割成小块,每块约820字符,确保至少约128个令牌
- 数据顺序: 已随机打乱
- 数据清洗: 转换为小写,移除了重音和非英语字符,移除了字符数少于200或多于1000的项
数据使用
- 适用场景: 由于数据已预处理和分割,适合直接用于模型训练,无需额外打乱数据集



