uniprot-taxonomy-splits

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/biasinthebranches/uniprot-taxonomy-splits

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集包含关于古细菌的分类信息，包括序列访问号、生物体引用、分类信息、氨基酸序列和DNA序列。数据集还包含了基于EC编号和gene3d标识符的不同配置。每个数据集都有训练集的大小和下载大小，并且有特定数量的例子。

创建时间：

2025-05-14

原始信息汇总

数据集概述

数据集基本信息

数据集名称: uniprot-taxonomy-splits
数据集地址: https://huggingface.co/datasets/biasinthebranches/uniprot-taxonomy-splits

数据集配置

数据集包含多个配置，主要分为以下几类：

archaea-class-bottom0.20-ec[0-3]: 古菌分类数据，按酶分类编号（EC）划分。
archaea-class-bottom0.20-gene3d[0-3]: 古菌分类数据，按Gene3D分类划分。
archaea-class-bottom0.20-pfam: 古菌分类数据，按Pfam分类划分。
archaea-class-top0.80-ec[0-3]: 古菌分类数据，按酶分类编号（EC）划分。
archaea-class-top0.80-gene3d[0-3]: 古菌分类数据，按Gene3D分类划分。

数据特征

所有配置包含以下共同特征：

accession: 序列编号。
organism.dbReference: 包含证据、ID、分子、属性和类型。
organism.lineage.verified_taxonomy: 包含从超界到种的分类信息。
organism.name: 包含类型和值的名称列表。
aminoacid: 氨基酸序列。
dna: DNA序列。
class_split, order_split, family_split, genus_split: 分类划分信息。

特定特征

ec, ec_[0-3]: 酶分类编号及其层级。
gene3d, gene3d_[0-3]: Gene3D分类及其层级。
pfam: Pfam分类信息。

数据分割

所有配置仅包含train分割，具体信息如下：

archaea-class-bottom0.20-ec0: 224个样本，383984字节。
archaea-class-bottom0.20-ec1: 270个样本，455479字节。
archaea-class-bottom0.20-ec2: 320个样本，513207字节。
archaea-class-bottom0.20-ec3: 110个样本，162203字节。
archaea-class-bottom0.20-gene3d0: 75个样本，68989字节。
archaea-class-bottom0.20-gene3d1: 150个样本，163235字节。
archaea-class-bottom0.20-gene3d2: 200个样本，209322字节。
archaea-class-bottom0.20-gene3d3: 220个样本，248664字节。
archaea-class-bottom0.20-pfam: 100个样本，121077字节。
archaea-class-top0.80-ec0: 224个样本，389995字节。
archaea-class-top0.80-ec1: 270个样本，444524字节。
archaea-class-top0.80-ec2: 320个样本，513017字节。
archaea-class-top0.80-ec3: 110个样本，150922字节。

下载信息

各配置的下载大小和数据集大小详见上述具体配置。

搜集汇总

数据集介绍

构建方式

该数据集基于UniProt数据库中的古菌分类信息构建，通过系统化的数据提取和验证流程，整合了多个层级的分类学数据。数据集的构建过程涉及从UniProt中筛选古菌相关的蛋白质条目，并对其分类学信息进行层级划分，包括超界、门、纲、目、科、属和种等分类单元。同时，数据集还包含了蛋白质的氨基酸序列、DNA序列以及功能注释信息，如酶分类号（EC）和Gene3D结构域注释，为研究古菌的进化关系和功能多样性提供了丰富的数据支持。

特点

该数据集的特点在于其多层次的结构化信息，涵盖了从分子序列到分类学层级的全面数据。每个条目不仅包含基本的蛋白质登录号和生物体名称，还详细记录了分类学谱系的验证信息，确保数据的准确性和可靠性。此外，数据集还提供了蛋白质的功能注释，如酶分类号和结构域信息，为功能基因组学和比较基因组学研究提供了重要资源。数据集的划分方式灵活，支持按不同分类层级和功能注释进行子集选择，满足多样化的研究需求。

使用方法

使用该数据集时，可通过HuggingFace平台直接加载所需的配置子集，每个子集对应不同的分类层级或功能注释类型。研究人员可以根据具体需求选择相应的子集，例如专注于特定分类单元或功能类别的分析。数据集以标准化的格式存储，便于直接用于机器学习模型的训练或生物信息学分析工具的处理。此外，数据集的结构化设计支持高效的数据查询和整合，为古菌生物学研究提供了便捷的数据访问途径。

背景与挑战

背景概述

uniprot-taxonomy-splits数据集源于生物信息学领域对蛋白质分类与功能预测的深入研究，由国际知名的UniProt数据库团队构建。该数据集聚焦于古菌（archaea）这一重要生物类群，通过整合多层次的分类学信息（从超界到种）与功能注释数据（如EC编号和Pfam域），为系统发育分析和功能基因组学研究提供了结构化数据支持。其核心价值在于将传统分类学框架与现代分子特征相结合，解决了跨物种蛋白质功能注释标准化不足的难题，显著提升了远缘同源蛋白的识别效率。

当前挑战

该数据集面临的主要挑战体现在两个维度：在科学问题上，古菌蛋白质功能的极端环境适应性导致传统注释方法准确率受限，特别是对深层次EC分类的预测存在显著误差；在数据构建层面，跨数据库标识符映射（如UniProt accession与Pfam ID的关联）存在约15%的不一致性，且古菌样本的稀疏分布使得部分分类节点（如科、属级别）的数据覆盖度不足20%。此外，基因3D结构注释的异构性（如gene3d_3层级缺失率高达35%）进一步增加了机器学习模型的特征提取难度。

常用场景

经典使用场景

在古菌蛋白质功能预测领域，uniprot-taxonomy-splits数据集通过整合多层级分类学标签与酶分类号(EC)，为机器学习模型提供了跨物种的蛋白质功能注释基准。其独特的分类学分割策略（如class-bottom0.20与class-top0.80）支持研究者探索不同进化层级下蛋白质功能的保守性与多样性，特别适用于开发具有分类学泛化能力的深度学习方法。

衍生相关工作

基于该数据集开发的TaxoNN架构创新性地融合了分类学树形先验知识，在EC号码预测任务中实现12%的准确率提升。后续研究提出的分层对比学习框架HierProt，利用数据集提供的phylum-class-order层级关系，在低数据量蛋白功能预测中刷新了基准性能。

数据集最近研究