pietrolesci/minipile
收藏Hugging Face2025-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/minipile
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置有不同的特征和数据分割。主要特征包括input_ids(序列数据)和uid(唯一标识符)。数据集分为训练集、验证集和测试集,每个分割的大小和样本数量在配置中详细列出。数据集的总大小和下载大小也在配置中提供。
This dataset contains multiple configurations, each with different features and data splits. The main features include input_ids (sequence data) and uid (unique identifier). The dataset is divided into training, validation, and test sets, with the size and number of samples for each split detailed in the configurations. The total size and download size of the dataset are also provided in the configurations.
提供机构:
pietrolesci
原始信息汇总
数据集概述
配置信息
默认配置
- 数据文件路径:
- 测试集:
data/test-* - 训练集:
data/train-* - 验证集:
data/validation-*
- 测试集:
- 特征:
text: 数据类型为stringuid: 数据类型为int64
- 分割信息:
- 测试集: 58638191 字节, 10000 个样本
- 训练集: 5914108510 字节, 1000000 个样本
- 验证集: 2783386 字节, 500 个样本
- 下载大小: 3181931245 字节
- 数据集大小: 5975530087 字节
pietrolesci__gpt2-minipile 配置
- 数据文件路径:
- 测试集:
pietrolesci__gpt2-minipile/test-* - 训练集:
pietrolesci__gpt2-minipile/train-* - 验证集:
pietrolesci__gpt2-minipile/validation-*
- 测试集:
- 特征:
input_ids: 序列类型为int32uid: 数据类型为int64
- 分割信息:
- 测试集: 60100040 字节, 14630 个样本
- 训练集: 6105868288 字节, 1486336 个样本
- 验证集: 2834520 字节, 690 个样本
- 下载大小: 2991905647 字节
- 数据集大小: 6168802848 字节



