OG

Hugging Face2024-08-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/tattabio/OG

下载链接

链接失效反馈

官方服务：

资源简介：

OG数据集是Open MetaGenomic dataset (OMG)的一个子集，包含高质量的原核生物和病毒基因组以及分类信息。该数据集经过预处理，包含蛋白质编码序列的翻译氨基酸和非编码序列的核酸。每个数据行代表一个基因组支架，包含氨基酸编码序列（CDS）和核苷酸非编码序列（IGS）的有序列表，以及CDS和IGS的位置ID、序列ID和方向信息。

The OG dataset is a subset of the Open MetaGenomic dataset (OMG), which comprises high-quality prokaryotic and viral genomes as well as taxonomic information. This preprocessed dataset contains translated amino acids from protein-coding sequences and nucleic acids for non-coding sequences. Each data row represents a genomic scaffold, containing an ordered list of amino acid-coding sequences (CDS) and nucleotide non-coding sequences (IGS), along with the position IDs, sequence IDs and orientation information for both CDS and IGS.

创建时间：

2024-08-08

原始信息汇总

OG 数据集概述

数据集信息

特征

CDS_position_ids: 整数序列，表示每个CDS元素在支架中的位置。
IGS_position_ids: 整数序列，表示每个IGS元素在支架中的位置。
CDS_ids: 字符串序列，表示每个CDS元素的标识符。
IGS_ids: 字符串序列，表示每个IGS元素的标识符。
CDS_seqs: 大字符串序列，表示氨基酸CDS序列。
IGS_seqs: 大字符串序列，表示核苷酸IGS序列。
CDS_orientations: 布尔序列，表示每个CDS的方向，True表示正向链，False表示反向链。

分割

train: 包含6206322个样本，占用219511418153字节。

大小

下载大小: 158645205736字节
数据集大小: 219511418153字节

配置

default: 包含训练数据文件，路径为data/train-*。

许可证

cc-by-sa-4.0

数据集描述

OG数据集是Open MetaGenomic数据集（OMG）的一个子集，包含高质量的原核生物和病毒基因组，并带有分类信息。该数据集经过预处理，包含蛋白质编码序列的翻译氨基酸和间基因序列的核苷酸。

使用方法

python import datasets ds = datasets.load_dataset(tattabio/OG)

数据格式

每行数据表示一个基因组支架，包含氨基酸编码序列（CDS）和核苷酸间基因序列（IGS）的有序列表。

特征	描述	示例
`CDS_seqs`	氨基酸CDS序列的字符串列表	`[MALTKVEKRNR..., MLGIDNIERVK..., MATIKVKQVR..., MNLSNIKPAS...]`
`IGS_seqs`	核苷酸IGS序列的字符串列表	`[AATTTAAGGAA, TTTTAAAAGTATCGAAAT, TTTTTAAAGAAAA]`
`CDS_position_ids`	CDS元素位置的整数列表	`[1, 3, 5, 6]`
`IGS_position_ids`	IGS元素位置的整数列表	`[0, 2, 4]`
`CDS_ids`	CDS元素的字符串标识符列表	`[7000000126
`IGS_ids`	IGS元素的字符串标识符列表	`[7000000126
`CDS_orientations`	CDS方向的布尔列表	`[True, True, True, False]`

引用

@article{Cornman2024, title = {The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling}, url = {https://www.biorxiv.org/content/early/2024/08/17/2024.08.14.607850}, DOI = {10.1101/2024.08.14.607850}, publisher = {Cold Spring Harbor Laboratory}, author = {Cornman, Andre and West-Roberts, Jacob and Camargo, Antonio Pedro and Roux, Simon and Beracochea, Martin and Mirdita, Milot and Ovchinnikov, Sergey and Hwang, Yunha}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

OG数据集作为Open MetaGenomic数据集（OMG）的子集，专注于高质量的原核生物和病毒基因组数据，并包含详细的分类信息。该数据集经过预处理，形成了混合模态的数据结构，其中蛋白质编码序列被翻译为氨基酸序列，而基因间序列则保留了核苷酸序列。通过这种方式，OG数据集在保持数据多样性的同时，显著缩小了数据规模，约为OMG的十分之一。

使用方法

使用OG数据集时，可以通过Hugging Face的`datasets`库轻松加载。用户可以通过`datasets.load_dataset('tattabio/OG')`加载完整数据集，或通过流式模式（streaming mode）预览数据而无需下载。数据集的每一行代表一个基因组支架，包含有序的氨基酸编码序列和核苷酸基因间序列。用户可以根据需要提取特定字段，如序列、位置信息或链方向，以支持基因组分析或机器学习任务。

背景与挑战

背景概述

OG数据集是Open MetaGenomic数据集（OMG）的一个子集，专注于高质量的原核生物和病毒基因组，并包含分类学信息。该数据集由TattaBio团队于2024年发布，旨在为混合模态基因组语言建模提供支持。OG数据集通过将蛋白质编码序列翻译为氨基酸序列，并将基因间序列保留为核酸序列，构建了一个多模态的基因组数据集。其核心研究问题在于如何利用混合模态数据提升基因组序列的分析与建模能力，为基因组学领域的语言模型研究提供了重要的数据基础。该数据集的发布推动了基因组学与自然语言处理技术的交叉研究，具有广泛的应用前景。

当前挑战

OG数据集在构建与应用过程中面临多重挑战。首先，基因组数据的复杂性与多样性使得数据预处理和标准化成为一大难题，尤其是在混合模态数据的整合与标注方面。其次，基因组序列的长度和结构差异显著，导致模型在处理长序列和短序列时的性能差异较大。此外，数据集中包含的大量非编码序列（IGS）和编码序列（CDS）的精确标注与对齐也对数据质量提出了高要求。在应用层面，如何有效利用混合模态数据提升基因组语言模型的性能，仍是一个亟待解决的核心问题。这些挑战不仅影响了数据集的构建效率，也对后续研究的深度和广度提出了更高的要求。

常用场景

经典使用场景

OG数据集作为开放基因组数据集的一个子集，广泛应用于基因组学和生物信息学领域。其经典使用场景包括基因组序列的比对、注释以及功能预测。研究人员利用该数据集中的编码序列（CDS）和基因间序列（IGS）进行基因组结构的深入分析，探索基因功能及其在生物体中的表达模式。

解决学术问题

OG数据集解决了基因组学研究中常见的序列注释和功能预测问题。通过提供高质量的编码序列和基因间序列数据，研究人员能够更准确地识别基因的位置、方向和功能，从而推动基因组注释工具的开发和优化。此外，该数据集还为混合模态基因组语言建模提供了基础，促进了基因组序列与蛋白质序列之间的关联研究。

实际应用

在实际应用中，OG数据集被广泛用于微生物组研究和病毒基因组分析。通过该数据集，研究人员能够快速识别和分类环境样本中的微生物和病毒基因组，进而评估其生态功能和潜在的健康影响。此外，该数据集还为药物靶点发现和疫苗设计提供了重要的基因组信息支持。

数据集最近研究