five

sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen

收藏
Hugging Face2023-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sradc/chunked-shuffled-wikipedia20220301en-bookcorpusopen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集结合了wikipedia20220301.en和bookcorpusopen两个数据集,并将其分割成较小的块,每块大约820个字符(这样每个项目对于平均分词器来说至少有128个标记)。数据集中的项目顺序已被打乱,因此无需使用`dataset.shuffle`,这样可以加快迭代速度。分割逻辑仅在空格处进行,因此块的大小可能会略大于820个字符。数据集已归一化为小写,并去除了重音和非英文字符。移除了少于200个字符或多于1000个字符的项目。该数据集经过处理以便于使用,但会因截断而丢失一部分标记(假设训练小批量被截断为128个标记)。

该数据集结合了wikipedia20220301.en和bookcorpusopen两个数据集,并将其分割成较小的块,每块大约820个字符(这样每个项目对于平均分词器来说至少有128个标记)。数据集中的项目顺序已被打乱,因此无需使用`dataset.shuffle`,这样可以加快迭代速度。分割逻辑仅在空格处进行,因此块的大小可能会略大于820个字符。数据集已归一化为小写,并去除了重音和非英文字符。移除了少于200个字符或多于1000个字符的项目。该数据集经过处理以便于使用,但会因截断而丢失一部分标记(假设训练小批量被截断为128个标记)。
提供机构:
sradc
原始信息汇总

数据集概述

基本信息

  • 数据集名称: wikipedia20220301en-bookcorpusopen-chunked-shuffled
  • 语言: 英语

数据结构

  • 特征:
    • text: 字符串类型

数据分割

  • 训练集:
    • 示例数量: 33,536,113 (约33.5百万)
    • 数据大小: 26,076,989,556字节 (约26.1 GB)

数据下载

  • 下载大小: 17,380,043,798字节 (约15.3 GB)

数据处理

  • 数据来源: 结合了wikipedia20220301.en和bookcorpusopen数据集
  • 数据分割: 分割成小块,每块约820字符,确保至少约128个令牌
  • 数据顺序: 已随机打乱
  • 数据清洗: 转换为小写,移除了重音和非英语字符,移除了字符数少于200或多于1000的项

数据使用

  • 适用场景: 由于数据已预处理和分割,适合直接用于模型训练,无需额外打乱数据集
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作