five

GleghornLab/taxonomy_genus

收藏
Hugging Face2025-07-25 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/GleghornLab/taxonomy_genus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含生物序列数据的数据集,具体包含了条目(Entry)、属(genus)和序列(Sequence)信息。数据集中的序列长度在20到2048之间。数据集经过严格的筛选和清理过程,包括去除不完整的数据、使用CD-HIT进行序列聚类、基于物种创建标签以及移除样本数量不足的属。数据集最终被划分为训练集、验证集和测试集,分别包含233,204、5,000和5,000个样本。

This dataset contains biological sequence data, including entry, genus, and sequence information. Sequences in the dataset are between 20 and 2048 in length. The dataset has undergone rigorous filtering and cleaning processes, including removing incomplete data, clustering sequences using CD-HIT, creating labels based on species, and removing genera/examples with fewer than 100 samples. The dataset is finally split into training, validation, and test sets, containing 233,204, 5,000, and 5,000 samples respectively.
提供机构:
GleghornLab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作