OpenGenome dataset

github2024-06-27 更新2024-07-01 收录

下载链接：

https://github.com/cx0/opengenome

下载链接

链接失效反馈

官方服务：

资源简介：

OpenGenome是一个大规模的细菌基因组、质粒和病毒数据集，基于以下三个主要来源：GTDB（细菌和古菌基因组）、IMG/VR（经过筛选的细菌病毒）和IMG/PR（质粒序列）。

OpenGenome is a large-scale dataset encompassing bacterial genomes, plasmids and viruses, derived from three primary sources: GTDB (genomes of bacteria and archaea), IMG/VR (filtered bacterial viruses) and IMG/PR (plasmid sequences).

创建时间：

2024-06-27

原始信息汇总

OpenGenome 数据集

OpenGenome 数据集是一个大规模的细菌、古菌、质粒和病毒基因组数据集，主要基于以下三个数据库：

数据库	描述	序列数量	标记数量	下载链接
GTDB	细菌和古菌基因组	85,205	~273B	GTDB v214.1
IMG/VR	经过筛选的细菌病毒	~5.6M	~82B	IMG/VR v4
IMG/PR	质粒序列	~700k	~1.7B	IMG/PR

重要提示：虽然 IMG/VR 和 IMG/PR 的序列是公开的，但您需要注册一个 DoE/JGI 账户才能从他们的网站下载任何数据。

数据过滤步骤

GTDB 子集

提取每个 GTDB 代表性基因组的 FASTA 文件（GCA 和 GCF 标识符分别指 GenBank 和 RefSeq 的访问号）。注意，Evo 论文中报告的总碱基数（表 S3）也包括质粒序列。

IMG/PR 子集

每个质粒分类单元（PTU）只保留一个代表性序列。作者简单地选择了每个 PTU 组中的第一个序列（参见 notebook 以重现论文中的原始图 S1-D）。

IMG/VR 子集

非冗余子集

只保留标记为“高置信度”的序列（IMG_VR_2022-09-20_6.1）
每个病毒操作分类单元（vOTU）只保留一个代表性序列

安全过滤

通过只保留在细菌宿主中至少出现两次的序列来移除潜在的真核病毒
排除所有分配给论文中列出的 19 个科或 12 个目的病毒

分类质量

移除分类特异性差的病毒序列

注意：过滤步骤基于原始的 Evo 论文。作者尚未发布用于 Evo 模型训练的确切过滤标准。过滤后的 IMG/VR 子集与 Evo 论文中使用的子集非常相似（表 S3）（参见 notebook）。主要差异在于如何处理 Riboviria 序列。

引用

如果您在工作中使用了 OpenGenome 数据集，请引用以下原始论文：

@article{parks2022gtdb, title={GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy}, author={Parks, Donovan H and Chuvochina, Maria and Rinke, Christian and Mussig, Aaron J and Chaumeil, Pierre-Alain and Hugenholtz, Philip}, journal={Nucleic acids research}, volume={50}, number={D1}, pages={D785--D794}, year={2022}, publisher={Oxford University Press} }

@article{chen2022img, title={IMG/VR v4: an update of the largest publicly available viral sequence database}, author={Chen, I-Min A and Chu, Ken and Palaniappan, Krishna and Ratner, Anna and Huang, Jinghua and Huntemann, Marcel and Varghese, Neha and White, James R and Seshadri, Rekha and Elgin, Sarah and others}, journal={Nucleic acids research}, volume={50}, number={D1}, pages={D570--D578}, year={2022}, publisher={Oxford University Press} }

@article {nguyen2024sequence, author = {Eric Nguyen and Michael Poli and Matthew G Durrant and Armin W Thomas and Brian Kang and Jeremy Sullivan and Madelena Y Ng and Ashley Lewis and Aman Patel and Aaron Lou and Stefano Ermon and Stephen A Baccus and Tina Hernandez-Boussard and Christopher Ré and Patrick D Hsu and Brian L Hie}, title = {Sequence modeling and design from molecular to genome scale with Evo}, year = {2024}, doi = {10.1101/2024.02.27.582234}, publisher = {Cold Spring Harbor Laboratory}, URL = {https://www.biorxiv.org/content/early/2024/02/27/2024.02.27.582234}, journal = {bioRxiv} }

搜集汇总

数据集介绍

构建方式

OpenGenome数据集的构建基于三大主要数据库：GTDB（细菌和古菌基因组）、IMG/VR（经过筛选的原核病毒）和IMG/PR（质粒序列）。首先，从GTDB中提取FASTA文件，涵盖代表性基因组。接着，IMG/PR子集通过保留每个质粒分类单元（PTU）的单一代表序列进行筛选。IMG/VR子集则通过保留高置信度序列并确保每个病毒操作分类单元（vOTU）的单一代表性，以及应用安全过滤和分类质量控制步骤来构建。这些步骤确保了数据集的高质量和功能等效性，尽管具体用于训练Evo模型的数据集尚未公开。

使用方法

使用OpenGenome数据集时，用户需遵循README文件中的指导，从GTDB、IMG/VR和IMG/PR数据库下载相关数据，并按照提供的过滤步骤进行数据处理。具体步骤包括提取代表性基因组、筛选高置信度病毒序列和质粒序列，以及应用安全过滤和分类质量控制。通过这些步骤，用户可以生成一个功能等效的数据集，用于训练原核基因组基础模型。

背景与挑战

背景概述

OpenGenome数据集是由Evo基因组基础模型训练团队精心策划的大型原核生物基因组、质粒和病毒数据集。该数据集的构建基于三个主要数据库：GTDB（细菌和古菌基因组）、IMG/VR（经过筛选的原核生物病毒）和IMG/PR（质粒序列）。这些数据源共同构成了一个庞大的基因组信息库，旨在支持原核生物基因组基础模型的训练。OpenGenome数据集的创建不仅为基因组学研究提供了丰富的数据资源，还为理解原核生物的多样性和进化提供了重要工具。

当前挑战

尽管OpenGenome数据集在基因组学领域具有重要价值，但其构建过程中仍面临诸多挑战。首先，数据集的构建依赖于多个不同来源的数据库，这些数据库在数据格式、质量标准和更新频率上存在差异，导致数据整合和一致性处理成为一大难题。其次，数据过滤步骤复杂，包括去除冗余序列、筛选高置信度序列以及排除潜在的非原核生物病毒，这些步骤需要精确的算法和严格的质控标准。此外，数据集的公开使用受到数据下载权限的限制，用户需注册账户才能访问部分数据，这增加了数据获取的难度。

常用场景

经典使用场景

OpenGenome数据集在微生物基因组学领域中，主要用于训练和验证基于深度学习的基因组基础模型。通过整合来自GTDB、IMG/VR和IMG/PR的丰富基因组数据，该数据集为研究人员提供了一个全面且多样化的资源，用于开发能够理解和预测原核生物基因组功能的模型。这些模型在基因组注释、进化分析和基因组设计等方面展现出巨大的潜力。

解决学术问题

OpenGenome数据集通过提供大规模、高质量的原核生物基因组数据，解决了基因组学研究中数据多样性和质量的瓶颈问题。它不仅促进了基因组基础模型的训练，还为基因组进化、功能注释和病毒宿主关系等领域的研究提供了坚实的基础。该数据集的引入显著提升了基因组学研究的深度和广度，推动了相关领域的学术进展。

实际应用

在实际应用中，OpenGenome数据集被广泛用于基因组工程、生物信息学工具开发和疾病诊断等领域。例如，研究人员可以利用该数据集训练的模型进行基因组设计，优化微生物的工业应用性能；在公共卫生领域，该数据集支持病毒基因组的快速鉴定和溯源，有助于疫情的早期预警和防控。

数据集最近研究