five

rahular/simple-wikipedia

收藏
Hugging Face2023-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rahular/simple-wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Simple Wikipedia(英语)的纯文本处理版本,包含23,886,673个单词。数据集的特征包括一个名为text的字段,数据类型为字符串。数据集包含一个train分割,该分割有144,689,943字节和769,764个示例。数据集的下载大小为86,969,379字节,数据集大小为144,689,943字节。

This dataset is a plain-text processed rendition of the English Simple Wikipedia, containing a total of 23,886,673 words. The dataset includes a field named `text` with a string data type. It comprises a `train` split, which has a size of 144,689,943 bytes and encompasses 769,764 examples. The download size of this dataset is 86,969,379 bytes, while the dataset's own size is 144,689,943 bytes.
提供机构:
rahular
原始信息汇总

数据集概述

数据集名称

  • simple-wikipedia

数据集描述

  • 处理后的纯文本数据,来源于Simple Wikipedia(英文版),包含23,886,673个单词。

数据配置

  • 默认配置:default

数据文件

  • 训练集(train):路径为data/train-*

数据特征

  • 特征名称:text
  • 数据类型:string

数据分割

  • 训练集(train)
    • 字节数:144689943
    • 样本数:769764

数据大小

  • 下载大小:86969379
  • 数据集大小:144689943
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作