pietrolesci/pile-deduped-subset
收藏Hugging Face2024-07-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/pile-deduped-subset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Pile中抽取的样本,用于实验,并且已经进行了分词处理。每个序列都有一个唯一的标识符(seq_idx),表示其在Pile中的顺序。数据集包含训练集和验证集,分别有14300和2000个样本。
该数据集是从Pile中抽取的样本,用于实验,并且已经进行了分词处理。每个序列都有一个唯一的标识符(seq_idx),表示其在Pile中的顺序。数据集包含训练集和验证集,分别有14300和2000个样本。
提供机构:
pietrolesci
原始信息汇总
数据集详情
特征
- input_ids: 序列类型,数据类型为int64
- seq_idx: 数据类型为int64
数据分割
- 训练集 (train):
- 字节数: 234577200
- 样本数: 14300
- 验证集 (validation):
- 字节数: 32808000.0
- 样本数: 2000
数据大小
- 下载大小: 58650299
- 数据集大小: 267385200.0
配置
- 默认配置 (default):
- 训练集文件路径: data/train-*
- 验证集文件路径: data/validation-*



