sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen

Name: sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen
Creator: sradc
Published: 2023-07-17 20:33:04
License: 暂无描述

Hugging Face2023-07-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集结合了wikipedia20220301.en和bookcorpusopen两个数据集，并将其分割成较小的块，每块大约820个字符（这样每个项目对于平均分词器来说至少有128个标记）。数据集中的项目顺序已被打乱，因此无需使用`dataset.shuffle`，这样可以加快迭代速度。分割逻辑仅在空格处进行，因此块的大小可能会略大于820个字符。数据集已归一化为小写，并去除了重音和非英文字符。移除了少于200个字符或多于1000个字符的项目。该数据集经过处理以便于使用，但会因截断而丢失一部分标记（假设训练小批量被截断为128个标记）。

提供机构：

sradc

原始信息汇总

数据集概述

基本信息

数据集名称: wikipedia20220301en-bookcorpusopen-chunked-shuffled
语言: 英语

数据结构

特征:
- text: 字符串类型

数据分割

训练集:
- 示例数量: 33,536,113 (约33.5百万)
- 数据大小: 26,076,989,556字节 (约26.1 GB)

数据下载

下载大小: 17,380,043,798字节 (约15.3 GB)

数据处理

数据来源: 结合了wikipedia20220301.en和bookcorpusopen数据集
数据分割: 分割成小块，每块约820字符，确保至少约128个令牌
数据顺序: 已随机打乱
数据清洗: 转换为小写，移除了重音和非英语字符，移除了字符数少于200或多于1000的项

数据使用

适用场景: 由于数据已预处理和分割，适合直接用于模型训练，无需额外打乱数据集

5,000+

优质数据集

54 个

任务类型

进入经典数据集