five

sradc/chunked-wikipedia20220301en-bookcorpusopen

收藏
Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sradc/chunked-wikipedia20220301en-bookcorpusopen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集结合了wikipedia20220301.en和bookcorpusopen,并将数据分割成较小的块,每个块大约820个字符。数据集已经过标准化处理,包括转换为小写、去除重音和非英文字符,并且移除了少于200字符或多于1000字符的项。数据集未经过洗牌,但提供了洗牌版本的下载链接。

该数据集结合了wikipedia20220301.en和bookcorpusopen,并将数据分割成较小的块,每个块大约820个字符。数据集已经过标准化处理,包括转换为小写、去除重音和非英文字符,并且移除了少于200字符或多于1000字符的项。数据集未经过洗牌,但提供了洗牌版本的下载链接。
提供机构:
sradc
原始信息汇总

数据集概述

基本信息

  • 数据集名称: chunked-wikipedia20220301en-bookcorpusopen
  • 数据集大小: 26.1 GB
  • 下载大小: 15.3 GB
  • 训练样本数: 33.5 million

数据特征

  • 特征名称: text
  • 数据类型: string

数据处理

  • 数据已转换为小写,移除了重音和非英语字符。
  • 移除了字符数少于200或多于1000的项。
  • 数据未进行随机洗牌,但提供了随机洗牌版本供下载。

数据分割

  • 训练集:
    • 字节数: 26076989556
    • 样本数: 33536113

数据集结构

  • 数据被分割成小块,每块约820字符,确保每项至少约128个令牌。
  • 分割逻辑仅在空格处进行,因此块可能会略大于820字符。

使用注意事项

  • 由于截断,数据集在处理过程中可能会丢失部分令牌。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作