multi_species_genomes
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/multi_species_genomes?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
Multi-species genome 仓库的核心定位是为 Nucleotide Transformer 模型提供预训练语料。它包含从 NCBI 收集并经过筛选的 850 种物种的基因组数据,总计 1740 亿个核苷酸,约 290 亿个 tokens。数据集中包括细菌、真菌、无脊椎动物、原生动物以及哺乳动物和其他脊椎动物。每个数据实例包含序列字符串、序列描述、起始和结束核苷酸索引以及基因组的 fasta URL。该仓库支持标准化数据操作,并提供统一模型接口,便于用户使用。
提供机构:
AIWizards
创建时间:
2024-07-19



