rahular/simple-wikipedia
收藏Hugging Face2023-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rahular/simple-wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Simple Wikipedia(英语)的纯文本处理版本,包含23,886,673个单词。数据集的特征包括一个名为text的字段,数据类型为字符串。数据集包含一个train分割,该分割有144,689,943字节和769,764个示例。数据集的下载大小为86,969,379字节,数据集大小为144,689,943字节。
This dataset is a plain-text processed rendition of the English Simple Wikipedia, containing a total of 23,886,673 words. The dataset includes a field named `text` with a string data type. It comprises a `train` split, which has a size of 144,689,943 bytes and encompasses 769,764 examples. The download size of this dataset is 86,969,379 bytes, while the dataset's own size is 144,689,943 bytes.
提供机构:
rahular
原始信息汇总
数据集概述
数据集名称
- simple-wikipedia
数据集描述
- 处理后的纯文本数据,来源于Simple Wikipedia(英文版),包含23,886,673个单词。
数据配置
- 默认配置:default
数据文件
- 训练集(train):路径为data/train-*
数据特征
- 特征名称:text
- 数据类型:string
数据分割
- 训练集(train)
- 字节数:144689943
- 样本数:769764
数据大小
- 下载大小:86969379
- 数据集大小:144689943



