UUUUUUZ/python-code-tokenized
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/UUUUUUZ/python-code-tokenized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个名为train的分割,共有89131个样本,每个样本包含一个名为input_ids的序列特征,数据类型为int64。数据集的总大小为136036036字节,下载大小为28555553字节。数据文件路径为data/train-*。
This dataset includes a split named train with 89,131 examples, each containing a sequence feature named input_ids of type int64. The total size of the dataset is 136,036,036 bytes, with a download size of 28,555,553 bytes. The data files are located at data/train-*.
提供机构:
UUUUUUZ
原始信息汇总
数据集概述
数据集特征
- 特征名称: input_ids
- 数据类型: int64
数据集分割
- 分割名称: train
- 字节数: 136036036
- 样本数: 89131
数据集大小
- 下载大小: 28555553
- 数据集大小: 136036036
配置信息
- 配置名称: default
- 数据文件路径: data/train-*



