five

Datasets for 'Mandrake: visualising microbial population structure by embedding millions of genomes into a low-dimensional representation'

收藏
Mendeley Data2024-03-27 更新2024-06-27 收录
下载链接:
https://zenodo.org/record/5572316
下载链接
链接失效反馈
官方服务:
资源简介:
Datasets for the paper 'Mandrake: visualising microbial population structure by embedding millions of genomes into a low-dimensional representation' Files: 616k* - Files for the analysis of 661k bacterial genomes from the SRA (note typo 616-661k). Includes mandrake output and input files (.npz) gps_acc - Files for the analysis of 20k S. pneumoniae accessory genomes from the GPS project. Original accessory matrix is gps_gene_presence_absence.Rtab sc2million_v1* - Files for the analysis of ~1M SARS-CoV-2 genomes. sc2million_v3.npz are the input distances. sce<commit hash>.qdrep - Nvidia systems profile of code at that commit hash sce<commit hash>.ncu-rep - Nvidia kernel profile of code at that commit hash

本数据集为论文《Mandrake:通过将数百万个基因组嵌入低维表征以可视化微生物种群结构》的配套数据,包含以下文件组: 616k*:用于分析SRA数据库中66.1万个细菌基因组的分析文件(注:原文存在笔误,实际应为616k-661k),包含mandrake的输出与输入文件(格式为.npz) gps_acc:用于分析GPS项目中2万个肺炎链球菌(S. pneumoniae)附属基因组的分析文件,其原始附属矩阵为gps_gene_presence_absence.Rtab sc2million_v1*:用于分析约100万个SARS-CoV-2(严重急性呼吸综合征冠状病毒2)基因组的分析文件,其中sc2million_v3.npz为输入距离文件 sce<提交哈希值>.qdrep:该提交哈希值对应代码的Nvidia系统性能剖析文件 sce<提交哈希值>.ncu-rep:该提交哈希值对应代码的Nvidia内核性能剖析文件
创建时间:
2023-06-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作