phenotypic-trait-catalase-protein-sequences

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/macwiatrak/phenotypic-trait-catalase-protein-sequences

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于预测细菌过氧化氢酶表型的数据集，包含超过1k个不同物种的细菌基因组。每个基因组中的蛋白质序列按照其在染色体和质粒上的位置排序，并且数据集提供了二进制的过氧化氢酶标签，表示细菌是否产生分解过氧化氢的过氧化氢酶。数据集分为训练集、验证集和测试集，适用于二分类问题。

创建时间：

2025-05-27

原始信息汇总

数据集概述

基本信息

数据集名称: Dataset for predicting Catalase phenotype from whole bacterial genomes (protein sequences)
许可证: Apache-2.0
标签: biology, bacteria, bacformer, prokaryotes, genomic, genome, protein
数据规模: 1K<n<10K

数据集内容

目的: 用于从细菌全基因组（蛋白质序列）预测过氧化氢酶表型的二元分类问题。
标签说明: 过氧化氢酶（Catalase）标签表示细菌是否产生过氧化氢酶，该酶能分解过氧化氢（H₂O₂）为水和氧气，从而保护细胞免受氧化应激。

数据特征

特征列:
- genome_name: 基因组名称（字符串）
- contig_name: 重叠群名称（字符串序列）
- protein_id: 蛋白质ID（字符串序列）
- protein_sequence: 蛋白质序列（字符串序列）
- taxid: 分类ID（字符串）
- locus_tag: 基因座标签（字符串序列）
- start: 起始位置（整数序列）
- end: 终止位置（整数序列）
- product: 产物（字符串序列）
- label: 标签（浮点数）

数据划分

训练集:
- 样本数: 618
- 大小: 778,412,387 字节
验证集:
- 样本数: 206
- 大小: 261,143,933 字节
测试集:
- 样本数: 206
- 大小: 242,498,068 字节

数据来源

基因组蛋白质序列: 提取自GenBank。
表型特征: 提取自文献[1]。

参考文献

[1] Weimann, Aaron, et al. "From genomes to phenotypes: Traitar, the microbial trait analyzer." MSystems 1.6 (2016): 10-1128.

搜集汇总

数据集介绍

构建方式

该数据集聚焦于细菌基因组中过氧化氢酶表型的预测研究，通过系统整合来自GenBank的细菌基因组蛋白序列数据构建而成。研究人员从全基因组尺度提取了包含染色体和质粒定位信息的蛋白序列，并依据文献[1]标注了对应的过氧化氢酶活性表型标签，形成包含1,000余个细菌基因组的标准化数据集。数据构建过程严格遵循生物信息学规范，确保了序列提取的完整性和表型标注的准确性。

特点

作为微生物表型预测领域的重要资源，该数据集具有多维度的生物学特征。其核心价值在于将蛋白序列的空间排列信息与酶活性表型建立关联，每个样本包含按基因组位置排序的蛋白序列集合。数据采用标准化的分割方案，包含618个训练样本、206个验证样本和206个测试样本，为机器学习模型开发提供了可靠基准。独特的二进制分类标签设计，使其特别适用于研究过氧化氢酶产生的分子机制。

使用方法

该数据集主要应用于细菌表型预测的机器学习模型开发，建议配合专用教程进行使用。研究人员可通过加载标准化的训练-验证-测试分割，直接用于监督学习任务。典型应用场景包括：利用蛋白序列特征预测过氧化氢酶活性、开发基因组尺度的表型分类模型等。使用时应遵循原始文献[1]的生物学假设，并参考提供的Bacformer微调教程实现最佳实践。

背景与挑战

背景概述

phenotypic-trait-catalase-protein-sequences数据集由微生物基因组学研究领域的科研人员构建，旨在通过细菌全基因组蛋白质序列预测其过氧化氢酶表型。该数据集源于2016年Aaron Weimann等人开发的Traitar微生物性状分析工具，收录了超过1000种细菌的基因组数据，核心研究问题聚焦于建立蛋白质序列与过氧化氢酶活性之间的关联模型。过氧化氢酶作为细菌抵御氧化应激的关键酶类，其存在与否直接影响微生物的环境适应能力，该数据集的建立为研究微生物抗氧化机制提供了重要资源，推动了计算生物学在表型预测领域的发展。

当前挑战

该数据集面临的核心科学挑战在于解决微生物表型与基因型关联预测的复杂性问题，特别是短蛋白序列特征与酶活性之间的非线性映射关系。构建过程中的技术挑战包括：跨物种基因组数据的标准化处理，需协调不同测序平台和注释标准的差异；蛋白质序列长度变异导致的特征提取困难，需设计适应可变长度输入的算法；以及表型标注稀疏性问题，仅618个训练样本需表征高度多样化的微生物遗传特征。此外，质粒编码基因的移动性为染色体定位序列与表型的稳定关联带来额外复杂度。

常用场景

经典使用场景

在微生物基因组学研究中，phenotypic-trait-catalase-protein-sequences数据集为探索细菌抗氧化机制提供了关键资源。该数据集通过整合超过1000种细菌的基因组蛋白序列及其过氧化氢酶表型标签，成为研究微生物氧化应激响应的经典工具。研究人员可基于蛋白序列特征，构建机器学习模型预测细菌是否具备分解过氧化氢的能力。

衍生相关工作

基于该数据集开发的Bacformer架构开创了微生物表型预测的新范式。相关研究扩展至其他氧化还原酶系统的预测，衍生出包括Traitar在内的微生物特征分析工具链。后续工作进一步整合了多组学数据，建立了微生物代谢功能预测的通用框架。

数据集最近研究