KanishkT123/c4-10k-tokenized-phi3
收藏Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/KanishkT123/c4-10k-tokenized-phi3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个名为train的分割,共有41620个样本,每个样本的特征为int32类型的input_ids序列。数据集的总大小为21475920字节,下载大小为11966562字节。数据文件路径为data/train-*。
The dataset includes a split named train with 41,620 samples, each featuring a sequence of input_ids of type int32. The total size of the dataset is 21,475,920 bytes, with a download size of 11,966,562 bytes. The data files are located at data/train-*.
提供机构:
KanishkT123
原始信息汇总
数据集概述
特征
- 名称: input_ids
- 类型: int32
数据集分割
- 名称: train
- 字节数: 21475920.0
- 样本数: 41620
数据集大小
- 下载大小: 11966562
- 数据集大小: 21475920.0
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



