neuralbioinfo/ESKAPE-genomic-features

Name: neuralbioinfo/ESKAPE-genomic-features
Creator: neuralbioinfo
Published: 2025-01-09 13:40:38
License: 暂无描述

Hugging Face2025-01-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/neuralbioinfo/ESKAPE-genomic-features

下载链接

链接失效反馈

官方服务：

资源简介：

ESKAPE基因组特征数据集包括来自ESKAPE病原体的基因组片段，这些片段具有各种基因组特征，如编码序列(CDS)、基因间区、ncRNA和假基因。该数据集用于分析ProkBERT-mini、ProkBERT-mini-c和ProkBERT-mini-long等模型捕获的表示，以了解它们在预测基因组特征方面的零样本能力。

The ESKAPE Genomic Features Dataset includes genomic segments from ESKAPE pathogens, characterized by various genomic features such as coding sequences (CDS), intergenic regions, ncRNA, and pseudogenes. The dataset was used to analyze the representations captured by models like ProkBERT-mini, ProkBERT-mini-c, and ProkBERT-mini-long, and to understand their zero-shot capabilities in predicting genomic features.

提供机构：

neuralbioinfo

原始信息汇总

ESKAPE基因组特征数据集

数据集描述

该数据集包含来自ESKAPE病原体的基因组片段，具有各种基因组特征，如编码序列（CDS）、基因间区域、非编码RNA和假基因。该数据集用于分析ProkBERT-mini、ProkBERT-mini-c和ProkBERT-mini-long等模型捕获的表示。

数据字段

contig_id：contig的标识符。
segment_id：每个基因组片段的唯一标识符。
strand：片段的DNA链（+或-）。
seq_start：片段在contig中的起始位置。
seq_end：片段在contig中的结束位置。
segment_start：片段在序列中的起始位置。
segment_end：片段在序列中的结束位置。
label：基因组特征类别（例如，CDS、基因间区域）。
segment_length：基因组片段的长度。
Nsegment：基因组片段的长度。
segment：片段的基因组序列。

UMAP嵌入和轮廓分数

该数据集用于评估ProkBERT模型在预测基因组特征方面的零样本能力。使用UMAP技术降低维度并导出嵌入，然后使用轮廓分数进行评估。嵌入和分数揭示了模型在区分基因组特征和捕获ESKAPE病原体的基因组结构方面的熟练程度。

数据集创建

该数据集从RefSeq数据库和其他来源编译而来，重点关注ESKAPE病原体。基因组特征是随机采样的，然后进行连续分段。片段长度为256，较短的片段被丢弃。

ESKAPE病原体概述

ESKAPE病原体是一组细菌，由于其高水平的抗生素耐药性而对公共卫生构成重大威胁。ESKAPE代表六个细菌属：

屎肠球菌
金黄色葡萄球菌
肺炎克雷伯菌
鲍曼不动杆菌
铜绿假单胞菌
肠杆菌属

这些病原体以其“逃避”抗生素效果而闻名，并负责很大一部分医院获得性感染。它们在医疗环境中尤其令人担忧，因为它们可能导致越来越难以治疗的严重感染，因为它们对多种抗生素具有耐药性。

使用数据的注意事项

该数据集与基因组研究和生物信息学相关，特别是用于理解ESKAPE病原体的基因组结构及其在嵌入空间中的表示。

搜集汇总

数据集介绍

构建方式

在基因组学研究领域，针对ESKAPE病原体的基因组特征分析具有重要科学价值。本数据集构建过程严谨，其数据源自RefSeq数据库及其他权威来源，聚焦于ESKAPE病原体基因组。通过随机采样基因组特征，随后进行连续分割处理，确保每个片段的长度统一为256个碱基对，较短的片段则被剔除，从而形成结构规整、质量可控的基因组片段集合。

特点

该数据集的核心特点体现在其内容与结构设计上。数据集涵盖了ESKAPE病原体的多种基因组特征，包括编码序列、基因间区、非编码RNA及假基因等类别，为深入探究病原体基因组构成提供了多维视角。其数据字段设计详尽，不仅包含序列标识、位置信息及链方向，还记录了片段长度与序列本身，并附有经过UMAP降维处理的嵌入向量及轮廓系数评估结果，这些特征共同助力于模型在零样本场景下对基因组功能区域的辨识能力研究。

使用方法

在生物信息学应用场景中，本数据集为探索基因组表示学习提供了关键资源。研究者可借助该数据集评估如ProkBERT系列模型在捕获基因组语义信息方面的效能，通过分析其提供的嵌入向量与轮廓系数，直观揭示模型对不同基因组特征的区分度。数据集适用于训练或验证基因组语言模型，尤其服务于抗生素耐药性病原体的基因组结构解析与功能预测等相关前沿课题。

背景与挑战

背景概述

在微生物基因组学领域，ESKAPE病原体因其多重耐药性而成为全球公共卫生的重大威胁。由Pázmány Péter Catholic University的神经生物信息学研究组于2024年创建的neuralbioinfo/ESKAPE-genomic-features数据集，聚焦于这六类高耐药性细菌的基因组特征分析。该数据集从RefSeq等数据库系统采集基因组片段，旨在解析编码序列、非编码RNA等基因组元件的结构与功能，为ProkBERT等基因组语言模型的零样本预测能力评估提供基准数据，推动了抗生素耐药性机理的深入探索与生物信息学方法的发展。

当前挑战

该数据集致力于解决ESKAPE病原体基因组特征分类与表征的挑战，其核心在于如何准确区分高度相似的基因组区域（如编码区与非编码区），并捕捉耐药性相关的细微序列模式。在构建过程中，研究人员面临数据整合的复杂性，需从多源基因组数据库中提取并标准化片段；同时，为保持序列一致性，必须处理长度不一的基因组片段，通过设定256碱基的固定长度进行分割与筛选，这可能导致部分短片段信息的丢失，增加了数据处理的难度。

常用场景

经典使用场景

在基因组学与生物信息学领域，ESKAPE基因组特征数据集为探索病原体基因组结构提供了关键资源。该数据集最经典的使用场景在于评估预训练语言模型如ProkBERT系列在基因组序列分析中的零样本能力。研究者通过UMAP降维技术将高维嵌入可视化，并利用轮廓分数量化模型对不同基因组特征类别的区分效能，从而深入理解模型如何捕捉编码序列、基因间区等复杂基因组元素的潜在表示。

解决学术问题

该数据集有效应对了抗生素耐药性病原体基因组解析中的核心挑战。通过系统整合ESKAPE病原体的多种基因组特征，它为解决基因组注释自动化、耐药基因识别以及病原体进化机制研究提供了标准化数据基础。其意义在于促进了计算生物学方法在微生物基因组学中的应用，为开发新型生物信息学工具以应对全球公共卫生威胁奠定了数据基石。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在基因组语言模型的拓展与优化。以ProkBERT家族为代表的系列研究，通过在该数据集上验证模型性能，推动了微生物基因组表示学习的发展。后续研究进一步探索了多物种基因组特征对比、跨病原体知识迁移等方向，催生了新一代生物信息学分析流程与开源工具生态的构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集