five

multi_species_genomes

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/multi_species_genomes?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-species genome 仓库的核心定位是为 Nucleotide Transformer 模型提供预训练语料。它包含从 NCBI 收集并经过筛选的 850 种物种的基因组数据,总计 1740 亿个核苷酸,约 290 亿个 tokens。数据集中包括细菌、真菌、无脊椎动物、原生动物以及哺乳动物和其他脊椎动物。每个数据实例包含序列字符串、序列描述、起始和结束核苷酸索引以及基因组的 fasta URL。该仓库支持标准化数据操作,并提供统一模型接口,便于用户使用。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作