five

OG

收藏
Hugging Face2024-08-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/tattabio/OG
下载链接
链接失效反馈
官方服务:
资源简介:
OG数据集是Open MetaGenomic dataset (OMG)的一个子集,包含高质量的原核生物和病毒基因组以及分类信息。该数据集经过预处理,包含蛋白质编码序列的翻译氨基酸和非编码序列的核酸。每个数据行代表一个基因组支架,包含氨基酸编码序列(CDS)和核苷酸非编码序列(IGS)的有序列表,以及CDS和IGS的位置ID、序列ID和方向信息。

The OG dataset is a subset of the Open MetaGenomic dataset (OMG), which comprises high-quality prokaryotic and viral genomes as well as taxonomic information. This preprocessed dataset contains translated amino acids from protein-coding sequences and nucleic acids for non-coding sequences. Each data row represents a genomic scaffold, containing an ordered list of amino acid-coding sequences (CDS) and nucleotide non-coding sequences (IGS), along with the position IDs, sequence IDs and orientation information for both CDS and IGS.
创建时间:
2024-08-08
原始信息汇总

OG 数据集概述

数据集信息

特征

  • CDS_position_ids: 整数序列,表示每个CDS元素在支架中的位置。
  • IGS_position_ids: 整数序列,表示每个IGS元素在支架中的位置。
  • CDS_ids: 字符串序列,表示每个CDS元素的标识符。
  • IGS_ids: 字符串序列,表示每个IGS元素的标识符。
  • CDS_seqs: 大字符串序列,表示氨基酸CDS序列。
  • IGS_seqs: 大字符串序列,表示核苷酸IGS序列。
  • CDS_orientations: 布尔序列,表示每个CDS的方向,True表示正向链,False表示反向链。

分割

  • train: 包含6206322个样本,占用219511418153字节。

大小

  • 下载大小: 158645205736字节
  • 数据集大小: 219511418153字节

配置

  • default: 包含训练数据文件,路径为data/train-*

许可证

  • cc-by-sa-4.0

数据集描述

OG数据集是Open MetaGenomic数据集(OMG)的一个子集,包含高质量的原核生物和病毒基因组,并带有分类信息。该数据集经过预处理,包含蛋白质编码序列的翻译氨基酸和间基因序列的核苷酸。

使用方法

python import datasets ds = datasets.load_dataset(tattabio/OG)

数据格式

每行数据表示一个基因组支架,包含氨基酸编码序列(CDS)和核苷酸间基因序列(IGS)的有序列表。

特征 描述 示例
CDS_seqs 氨基酸CDS序列的字符串列表 [MALTKVEKRNR..., MLGIDNIERVK..., MATIKVKQVR..., MNLSNIKPAS...]
IGS_seqs 核苷酸IGS序列的字符串列表 [AATTTAAGGAA, TTTTAAAAGTATCGAAAT, TTTTTAAAGAAAA]
CDS_position_ids CDS元素位置的整数列表 [1, 3, 5, 6]
IGS_position_ids IGS元素位置的整数列表 [0, 2, 4]
CDS_ids CDS元素的字符串标识符列表 `[7000000126
IGS_ids IGS元素的字符串标识符列表 `[7000000126
CDS_orientations CDS方向的布尔列表 [True, True, True, False]

CDS和IGS的ID字段格式为:sample_accession|contig_id|feature_type|gene_id|strand|start:end

引用

@article{Cornman2024, title = {The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling}, url = {https://www.biorxiv.org/content/early/2024/08/17/2024.08.14.607850}, DOI = {10.1101/2024.08.14.607850}, publisher = {Cold Spring Harbor Laboratory}, author = {Cornman, Andre and West-Roberts, Jacob and Camargo, Antonio Pedro and Roux, Simon and Beracochea, Martin and Mirdita, Milot and Ovchinnikov, Sergey and Hwang, Yunha}, year = {2024}, }

搜集汇总
数据集介绍
main_image_url
构建方式
OG数据集作为Open MetaGenomic数据集(OMG)的子集,专注于高质量的原核生物和病毒基因组数据,并包含详细的分类信息。该数据集经过预处理,形成了混合模态的数据结构,其中蛋白质编码序列被翻译为氨基酸序列,而基因间序列则保留了核苷酸序列。通过这种方式,OG数据集在保持数据多样性的同时,显著缩小了数据规模,约为OMG的十分之一。
使用方法
使用OG数据集时,可以通过Hugging Face的`datasets`库轻松加载。用户可以通过`datasets.load_dataset('tattabio/OG')`加载完整数据集,或通过流式模式(streaming mode)预览数据而无需下载。数据集的每一行代表一个基因组支架,包含有序的氨基酸编码序列和核苷酸基因间序列。用户可以根据需要提取特定字段,如序列、位置信息或链方向,以支持基因组分析或机器学习任务。
背景与挑战
背景概述
OG数据集是Open MetaGenomic数据集(OMG)的一个子集,专注于高质量的原核生物和病毒基因组,并包含分类学信息。该数据集由TattaBio团队于2024年发布,旨在为混合模态基因组语言建模提供支持。OG数据集通过将蛋白质编码序列翻译为氨基酸序列,并将基因间序列保留为核酸序列,构建了一个多模态的基因组数据集。其核心研究问题在于如何利用混合模态数据提升基因组序列的分析与建模能力,为基因组学领域的语言模型研究提供了重要的数据基础。该数据集的发布推动了基因组学与自然语言处理技术的交叉研究,具有广泛的应用前景。
当前挑战
OG数据集在构建与应用过程中面临多重挑战。首先,基因组数据的复杂性与多样性使得数据预处理和标准化成为一大难题,尤其是在混合模态数据的整合与标注方面。其次,基因组序列的长度和结构差异显著,导致模型在处理长序列和短序列时的性能差异较大。此外,数据集中包含的大量非编码序列(IGS)和编码序列(CDS)的精确标注与对齐也对数据质量提出了高要求。在应用层面,如何有效利用混合模态数据提升基因组语言模型的性能,仍是一个亟待解决的核心问题。这些挑战不仅影响了数据集的构建效率,也对后续研究的深度和广度提出了更高的要求。
常用场景
经典使用场景
OG数据集作为开放基因组数据集的一个子集,广泛应用于基因组学和生物信息学领域。其经典使用场景包括基因组序列的比对、注释以及功能预测。研究人员利用该数据集中的编码序列(CDS)和基因间序列(IGS)进行基因组结构的深入分析,探索基因功能及其在生物体中的表达模式。
解决学术问题
OG数据集解决了基因组学研究中常见的序列注释和功能预测问题。通过提供高质量的编码序列和基因间序列数据,研究人员能够更准确地识别基因的位置、方向和功能,从而推动基因组注释工具的开发和优化。此外,该数据集还为混合模态基因组语言建模提供了基础,促进了基因组序列与蛋白质序列之间的关联研究。
实际应用
在实际应用中,OG数据集被广泛用于微生物组研究和病毒基因组分析。通过该数据集,研究人员能够快速识别和分类环境样本中的微生物和病毒基因组,进而评估其生态功能和潜在的健康影响。此外,该数据集还为药物靶点发现和疫苗设计提供了重要的基因组信息支持。
数据集最近研究
最新研究方向
近年来,OG数据集在基因组学和生物信息学领域引起了广泛关注,尤其是在混合模态基因组语言建模方面。该数据集通过整合高质量的细菌和病毒基因组数据,为研究人员提供了一个独特的平台,用于探索编码序列(CDS)和基因间序列(IGS)之间的复杂关系。随着深度学习技术在基因组分析中的应用日益广泛,OG数据集的前沿研究方向主要集中在如何利用其多模态特性,开发更高效的基因组序列预测模型。此外,该数据集还被用于研究基因组注释的自动化方法,以及基因组功能元件的识别与分类。这些研究不仅推动了基因组学领域的技术进步,还为病毒学和微生物生态学的研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作