lhallee/cds_both_balanced_512
收藏Hugging Face2024-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lhallee/cds_both_balanced_512
下载链接
链接失效反馈官方服务:
资源简介:
该数据集均匀分割了原核生物和真核生物的CDS(编码序列)和氨基酸序列。数据集包含ID、物种、CDS、氨基酸序列和标签等特征,标签为浮点数类型。数据集被分割为训练集,包含3,153,210个样本,占用约1.85GB的存储空间,下载大小约为1.66GB。
该数据集均匀分割了原核生物和真核生物的CDS(编码序列)和氨基酸序列。数据集包含ID、物种、CDS、氨基酸序列和标签等特征,标签为浮点数类型。数据集被分割为训练集,包含3,153,210个样本,占用约1.85GB的存储空间,下载大小约为1.66GB。
提供机构:
lhallee
原始信息汇总
数据集概述
数据集信息
-
特征列表:
- ID:字符串类型
- species:字符串类型
- CDS:字符串类型
- AA:字符串类型
- Label:浮点数类型
-
数据分割:
- 训练集:
- 字节数:1851761903.890023
- 样本数:3153210
- 训练集:
-
数据大小:
- 下载大小:1659868245
- 数据集大小:1851761903.890023
配置信息
- 默认配置:
- 数据文件:
- 训练集路径:data/train-*
- 数据文件:
数据集描述
- 均匀分割原核生物和真核生物的CDS和氨基酸序列



