HoangHa/selfies-ids-cleaned
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/HoangHa/selfies-ids-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如SELFIES(字符串类型)、input_ids(int32序列)、token_type_ids(int8序列)、special_tokens_mask(int8序列)、attention_mask(int8序列)和length(int64类型)。数据集分为训练集和测试集,训练集包含170,768,422个样本,测试集包含30,135,604个样本。数据集的下载大小为24,105,151,007字节,总大小为83,364,312,689.86322字节。
The dataset contains multiple features such as SELFIES (string type), input_ids (int32 sequence), token_type_ids (int8 sequence), special_tokens_mask (int8 sequence), attention_mask (int8 sequence), and length (int64 type). The dataset is divided into a training set and a test set, with the training set containing 170,768,422 samples and the test set containing 30,135,604 samples. The download size of the dataset is 24,105,151,007 bytes, and the total size is 83,364,312,689.86322 bytes.
提供机构:
HoangHa
原始信息汇总
数据集概述
特征信息
- SELFIES: 数据类型为字符串。
- input_ids: 序列类型为int32。
- token_type_ids: 序列类型为int8。
- special_tokens_mask: 序列类型为int8。
- attention_mask: 序列类型为int8。
- length: 数据类型为int64。
数据分割
- 训练集 (train):
- 字节数: 70860000120.62552
- 样本数: 170768422
- 测试集 (test):
- 字节数: 12504312569.237696
- 样本数: 30135604
数据集大小
- 下载大小: 24105151007 字节
- 数据集总大小: 83364312689.86322 字节
配置信息
- 配置名称: default
- 训练集路径: data/train-*
- 测试集路径: data/test-*



