five

haritzpuerto/the_pile_arxiv_1k_sample

收藏
Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/haritzpuerto/the_pile_arxiv_1k_sample
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是The Pile中arxiv分区的一个样本。训练集是从The Pile的第一个文件中随机抽取的1000个文档,而验证集和测试集则是完整的集合。数据集包含文本和元数据两个特征,其中元数据包含一个名为pile_set_name的字段。训练集的统计信息包括平均、标准差、最大和最小的token数量。

This dataset consists of three main parts: a training set, a validation set, and a test set. The training set is a random sample of 1000 documents from the first file 00.jsonl.zst in The Pile, while the validation and test sets are the full datasets. The dataset features include text and metadata, with metadata containing the pile_set_name field. Statistics show the mean, standard deviation, maximum, and minimum number of tokens in the training set.
提供机构:
haritzpuerto
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • text: 数据类型为 string
    • meta: 包含一个子结构,其中 pile_set_name 的数据类型为 string
  • 分割:

    • train: 包含 1000 个样本,大小为 49692872 字节。
    • validation: 包含 2434 个样本,大小为 115675626 字节。
    • test: 包含 2407 个样本,大小为 113239914 字节。
  • 下载大小: 130132115 字节。

  • 数据集大小: 278608412 字节。

配置

  • 默认配置:
    • train: 数据文件路径为 data/train-*
    • validation: 数据文件路径为 data/validation-*
    • test: 数据文件路径为 data/test-*

统计信息

训练集

  • 平均token数: 14588.022
  • 标准差token数: 26015.51379449416
  • 最大token数: 746616
  • 最小token数: 33
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作