tattabio/OMG

Name: tattabio/OMG
Creator: tattabio
Published: 2024-08-19 20:57:20
License: 暂无描述

Hugging Face2024-08-19 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/tattabio/OMG

下载链接

链接失效反馈

官方服务：

资源简介：

OMG是一个包含3.1T碱基对的宏基因组预训练数据集，结合了EMBL的MGnify和JGI的IMG数据库。数据集经过预处理，包含蛋白质编码序列的翻译氨基酸和核酸的基因间序列。每个行代表一个基因组支架，包含氨基酸编码序列（CDS）和核苷酸基因间序列（IGS）的有序列表。此外，还提供了两个额外的数据集：OG和OMG_prot50。

The OMG is an open metagenomic pretraining dataset, combining EMBLs MGnify and JGIs IMG databases, totaling 3.1T base pairs. The dataset is pre-processed into a mixed-modality format, including translated amino acids for protein coding sequences and nucleic acids for intergenic sequences. Additionally, two supplementary datasets are provided: OG (a subset of high-quality genomes) and OMG_prot50 (a protein-only dataset). The dataset format includes sequences, position IDs, identifiers, and orientation information for coding sequences (CDS) and intergenic sequences (IGS).

提供机构：

tattabio

搜集汇总

数据集介绍

构建方式

在宏基因组学领域，数据整合与标准化是推动研究进展的关键。OMG数据集的构建源于对大规模、高质量宏基因组数据的需求，其核心方法在于整合了欧洲分子生物学实验室的MGnify数据库和美国能源部联合基因组研究所的IMG数据库。通过精心设计的预处理流程，原始数据被转化为混合模态格式，其中蛋白质编码序列被翻译为氨基酸序列，而基因间序列则保留其核苷酸形式。这一构建过程确保了数据的生物学意义与计算友好性，为后续分析奠定了坚实基础。

特点

作为一项开放的宏基因组资源，OMG数据集展现出多维度特点。其最显著的特征在于规模宏大，涵盖约3.1万亿碱基对的序列数据，提供了超过2.7亿个样本条目。数据集采用混合模态设计，同时包含氨基酸序列与核苷酸序列，这种双模态结构能够更全面地反映基因组的功能与结构信息。每个数据条目代表一个基因组支架，通过有序列表的形式呈现编码序列与基因间序列，并附带详细的位置标识、方向信息及唯一标识符，为深入分析提供了丰富的元数据支持。

使用方法

在计算生物学研究中，高效访问与处理大规模数据集至关重要。OMG数据集的使用方法设计简洁而灵活，用户可通过HuggingFace的datasets库直接加载。标准加载方式将完整数据集载入内存，适用于本地计算环境；而流式加载模式则允许用户在无需完全下载的情况下预览数据，特别适合云端或资源受限的场景。数据以行结构组织，每行对应一个基因组支架，用户可通过迭代方式访问序列列表及其关联特征，便于直接应用于语言模型训练或宏基因组分析任务。

背景与挑战

背景概述

宏基因组学作为探索环境微生物群落遗传潜力的前沿领域，其数据规模与复杂性对计算生物学提出了严峻考验。在此背景下，由TattaBio团队于2024年发布的OMG数据集应运而生，该数据集整合了欧洲分子生物学实验室的MGnify和美国能源部联合基因组研究所的IMG两大权威数据库，构建了一个包含3.1万亿碱基对的开放宏基因组预训练语料库。其核心研究问题在于如何通过混合模态表征——即同时涵盖编码蛋白质的氨基酸序列与非编码的核苷酸间隔序列——来更全面地捕捉基因组的结构与功能信息，从而为基因组语言模型提供高质量的预训练数据，推动宏基因组功能注释、基因发现及进化研究等领域的算法创新。

当前挑战

OMG数据集旨在应对宏基因组序列分析与建模中的核心挑战：如何有效整合海量、异质且碎片化的环境基因组数据，以实现对微生物群落功能潜力的统一表征与理解。在构建过程中，研究团队面临多重技术难题：首先，原始数据来源于不同平台与标准，需进行复杂的清洗、去重与格式统一；其次，将基因组支架拆解为编码序列与非编码间隔序列并保持其有序结构，涉及精密的生物信息学流程设计；此外，处理高达数千亿条序列的庞大规模，对数据存储、计算效率与质量控制提出了极高要求。这些挑战共同指向了构建大规模、高质量、多模态基因组数据资源的复杂性与必要性。

常用场景

经典使用场景

在宏基因组学领域，OMG数据集作为大规模混合模态预训练资源，其经典应用场景在于支撑基因组语言模型的开发与优化。该数据集整合了编码蛋白质的氨基酸序列与非编码的核苷酸序列，为模型提供了丰富的上下文信息，使得研究者能够训练出能够同时理解蛋白质编码区与非编码区功能的深度学习架构。这种混合模态的设计，使得模型能够捕捉基因组序列中复杂的结构与功能关联，为后续的生物学发现奠定了数据基础。

衍生相关工作

围绕OMG数据集，已衍生出一系列重要的研究工作。其中，基于其构建的蛋白质聚类子集OMG_prot50，为蛋白质家族分类与功能注释提供了精简而高效的数据资源。此外，该数据集直接支撑了如基因组语言模型预训练、宏基因组序列编码与生成等前沿探索。相关成果不仅推动了如Evo等蛋白质语言模型的演进，也为开发能够同时处理核酸与氨基酸序列的多模态生物基础模型开辟了新的技术路径。

数据集最近研究