five

pietrolesci/minipile

收藏
Hugging Face2025-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/minipile
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置有不同的特征和数据分割。主要特征包括input_ids(序列数据)和uid(唯一标识符)。数据集分为训练集、验证集和测试集,每个分割的大小和样本数量在配置中详细列出。数据集的总大小和下载大小也在配置中提供。

This dataset contains multiple configurations, each with different features and data splits. The main features include input_ids (sequence data) and uid (unique identifier). The dataset is divided into training, validation, and test sets, with the size and number of samples for each split detailed in the configurations. The total size and download size of the dataset are also provided in the configurations.
提供机构:
pietrolesci
原始信息汇总

数据集概述

配置信息

默认配置

  • 数据文件路径:
    • 测试集: data/test-*
    • 训练集: data/train-*
    • 验证集: data/validation-*
  • 特征:
    • text: 数据类型为 string
    • uid: 数据类型为 int64
  • 分割信息:
    • 测试集: 58638191 字节, 10000 个样本
    • 训练集: 5914108510 字节, 1000000 个样本
    • 验证集: 2783386 字节, 500 个样本
  • 下载大小: 3181931245 字节
  • 数据集大小: 5975530087 字节

pietrolesci__gpt2-minipile 配置

  • 数据文件路径:
    • 测试集: pietrolesci__gpt2-minipile/test-*
    • 训练集: pietrolesci__gpt2-minipile/train-*
    • 验证集: pietrolesci__gpt2-minipile/validation-*
  • 特征:
    • input_ids: 序列类型为 int32
    • uid: 数据类型为 int64
  • 分割信息:
    • 测试集: 60100040 字节, 14630 个样本
    • 训练集: 6105868288 字节, 1486336 个样本
    • 验证集: 2834520 字节, 690 个样本
  • 下载大小: 2991905647 字节
  • 数据集大小: 6168802848 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作