linqus/tokenized-codeparrot-ds-small
收藏Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linqus/tokenized-codeparrot-ds-small
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input_ids
sequence: int32
splits:
- name: train
num_bytes: 708311652
num_examples: 1372697
- name: valid
num_bytes: 7259088
num_examples: 14068
download_size: 313854357
dataset_size: 715570740
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: valid
path: data/valid-*
---
dataset_info:
特征:
- 名称:输入序列ID(input_ids),序列数据类型为int32
数据集划分:
- 划分集名称:训练集(train),占用字节数:708311652,样本数量:1372697
- 划分集名称:验证集(valid),占用字节数:7259088,样本数量:14068
下载大小:313854357 字节
数据集总大小:715570740 字节
configs:
- 配置名称:默认配置(default)
数据文件:
- 划分集:训练集(train),数据路径:data/train-*
- 划分集:验证集(valid),数据路径:data/valid-*
提供机构:
linqus
原始信息汇总
数据集概述
特征
- input_ids: 序列类型为 int32。
数据分割
- train:
- 字节数: 708311652
- 样本数: 1372697
- valid:
- 字节数: 7259088
- 样本数: 14068
数据大小
- 下载大小: 313854357 字节
- 数据集大小: 715570740 字节
配置
- default:
- train: 数据文件路径为
data/train-* - valid: 数据文件路径为
data/valid-*
- train: 数据文件路径为



