AyNio/TinyStories-CodeGen-Tokenized-combined
收藏Hugging Face2024-07-06 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/AyNio/TinyStories-CodeGen-Tokenized-combined
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个名为train的分割,共有2,141,709个示例,总大小为1,915,017,512字节。数据集的特征包括一个名为input_ids的序列,其数据类型为int32。数据集的下载大小为808,895,458字节。
The dataset includes a split named train with 2,141,709 examples and a total size of 1,915,017,512 bytes. The features of the dataset include a sequence named input_ids with a data type of int32. The download size of the dataset is 808,895,458 bytes.
提供机构:
AyNio
原始信息汇总
数据集概述
数据特征
- 特征名称: input_ids
- 数据类型: int32
数据划分
- 划分名称: train
- 字节数: 1915017512
- 样本数: 2141709
数据集大小
- 下载大小: 808895458
- 数据集大小: 1915017512
配置信息
- 配置名称: default
- 数据文件路径: data/train-*



