OpenGenome dataset
收藏OpenGenome 数据集
OpenGenome 数据集是一个大规模的细菌、古菌、质粒和病毒基因组数据集,主要基于以下三个数据库:
| 数据库 | 描述 | 序列数量 | 标记数量 | 下载链接 |
|---|---|---|---|---|
| GTDB | 细菌和古菌基因组 | 85,205 | ~273B | GTDB v214.1 |
| IMG/VR | 经过筛选的细菌病毒 | ~5.6M | ~82B | IMG/VR v4 |
| IMG/PR | 质粒序列 | ~700k | ~1.7B | IMG/PR |
重要提示:虽然 IMG/VR 和 IMG/PR 的序列是公开的,但您需要注册一个 DoE/JGI 账户才能从他们的网站下载任何数据。
数据过滤步骤
GTDB 子集
- 提取每个 GTDB 代表性基因组的 FASTA 文件(GCA 和 GCF 标识符分别指 GenBank 和 RefSeq 的访问号)。注意,Evo 论文中报告的总碱基数(表 S3)也包括质粒序列。
IMG/PR 子集
- 每个质粒分类单元(PTU)只保留一个代表性序列。作者简单地选择了每个 PTU 组中的第一个序列(参见 notebook 以重现论文中的原始图 S1-D)。
IMG/VR 子集
非冗余子集
- 只保留标记为“高置信度”的序列(IMG_VR_2022-09-20_6.1)
- 每个病毒操作分类单元(vOTU)只保留一个代表性序列
安全过滤
- 通过只保留在细菌宿主中至少出现两次的序列来移除潜在的真核病毒
- 排除所有分配给论文中列出的 19 个科或 12 个目的病毒
分类质量
- 移除分类特异性差的病毒序列
注意:过滤步骤基于原始的 Evo 论文。作者尚未发布用于 Evo 模型训练的确切过滤标准。过滤后的 IMG/VR 子集与 Evo 论文中使用的子集非常相似(表 S3)(参见 notebook)。主要差异在于如何处理 Riboviria 序列。
引用
如果您在工作中使用了 OpenGenome 数据集,请引用以下原始论文:
@article{parks2022gtdb, title={GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy}, author={Parks, Donovan H and Chuvochina, Maria and Rinke, Christian and Mussig, Aaron J and Chaumeil, Pierre-Alain and Hugenholtz, Philip}, journal={Nucleic acids research}, volume={50}, number={D1}, pages={D785--D794}, year={2022}, publisher={Oxford University Press} }
@article{chen2022img, title={IMG/VR v4: an update of the largest publicly available viral sequence database}, author={Chen, I-Min A and Chu, Ken and Palaniappan, Krishna and Ratner, Anna and Huang, Jinghua and Huntemann, Marcel and Varghese, Neha and White, James R and Seshadri, Rekha and Elgin, Sarah and others}, journal={Nucleic acids research}, volume={50}, number={D1}, pages={D570--D578}, year={2022}, publisher={Oxford University Press} }
@article {nguyen2024sequence, author = {Eric Nguyen and Michael Poli and Matthew G Durrant and Armin W Thomas and Brian Kang and Jeremy Sullivan and Madelena Y Ng and Ashley Lewis and Aman Patel and Aaron Lou and Stefano Ermon and Stephen A Baccus and Tina Hernandez-Boussard and Christopher Ré and Patrick D Hsu and Brian L Hie}, title = {Sequence modeling and design from molecular to genome scale with Evo}, year = {2024}, doi = {10.1101/2024.02.27.582234}, publisher = {Cold Spring Harbor Laboratory}, URL = {https://www.biorxiv.org/content/early/2024/02/27/2024.02.27.582234}, journal = {bioRxiv} }




