haritzpuerto/the_pile_arxiv_1k_sample
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/haritzpuerto/the_pile_arxiv_1k_sample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是The Pile中arxiv分区的一个样本。训练集是从The Pile的第一个文件中随机抽取的1000个文档,而验证集和测试集则是完整的集合。数据集包含文本和元数据两个特征,其中元数据包含一个名为pile_set_name的字段。训练集的统计信息包括平均、标准差、最大和最小的token数量。
This dataset consists of three main parts: a training set, a validation set, and a test set. The training set is a random sample of 1000 documents from the first file 00.jsonl.zst in The Pile, while the validation and test sets are the full datasets. The dataset features include text and metadata, with metadata containing the pile_set_name field. Statistics show the mean, standard deviation, maximum, and minimum number of tokens in the training set.
提供机构:
haritzpuerto
原始信息汇总
数据集概述
数据集信息
-
特征:
text: 数据类型为string。meta: 包含一个子结构,其中pile_set_name的数据类型为string。
-
分割:
train: 包含 1000 个样本,大小为 49692872 字节。validation: 包含 2434 个样本,大小为 115675626 字节。test: 包含 2407 个样本,大小为 113239914 字节。
-
下载大小: 130132115 字节。
-
数据集大小: 278608412 字节。
配置
- 默认配置:
train: 数据文件路径为data/train-*。validation: 数据文件路径为data/validation-*。test: 数据文件路径为data/test-*。
统计信息
训练集
- 平均token数: 14588.022
- 标准差token数: 26015.51379449416
- 最大token数: 746616
- 最小token数: 33



