taxonomy_kingdom

Name: taxonomy_kingdom
Creator: Gleghorn Lab
Published: 2025-07-25 23:49:30
License: 暂无描述

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/taxonomy_kingdom

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含生物序列数据的数据集，提供了条目名称、生物域、序列信息等特征。数据集经过筛选，只保留了序列长度在20到2048之间的记录，并提取了分类学ID。通过CD-HIT进行了序列去重，基于生物域进行了标签创建，并移除了样本数量少于100的生物域。数据集分为训练集、验证集和测试集，分别包含252442、5000和5000条样本。

提供机构：

Gleghorn Lab

创建时间：

2025-07-25

原始信息汇总

数据集概述

基本信息

数据集名称: GleghornLab/taxonomy_kingdom
下载大小: 102.02 MB
数据集大小: 106.47 MB

数据特征

特征列:
- Entry: 字符串类型
- kingdom: 字符串类型
- Sequence: 字符串类型
- labels: 整数类型 (int64)

数据划分

训练集 (train):
- 样本数量: 252,442
- 大小: 102.43 MB
验证集 (valid):
- 样本数量: 5,000
- 大小: 1.98 MB
测试集 (test):
- 样本数量: 5,000
- 大小: 2.06 MB

数据来源与处理

数据来源: UniProt (Swiss-Prot reviewed entries only)
获取日期: 2025年7月22日
筛选条件:
- 序列长度范围: 20至2048
- 移除包含N/A的数据
- 使用CD-HIT进行去重 (80%相似度阈值，n=5)
- 保留代表性序列
- 移除样本数少于100的kingdom
标签生成: 基于kingdom信息
数据划分方式: 分层划分 (先划分测试集5,000，再验证集5,000，其余为训练集)

搜集汇总

数据集介绍

构建方式

在生物信息学领域，taxonomy_kingdom数据集的构建体现了严谨的序列筛选与分类流程。该数据集源自UniProt数据库的Swiss-Prot已审核条目，通过TSV格式下载包含分类谱系标识、蛋白质序列及长度的原始数据。构建过程中采用多重质量控制：筛选20至2048个氨基酸长度的序列，从分类谱系中提取域、界、门等分类层级，保留条目编号、界级分类及序列信息。通过CD-HIT工具以80%相似度阈值进行序列去冗余，最终采用分层抽样策略划分训练集、验证集和测试集，确保各类别样本均衡。

特点

该数据集以蛋白质序列分类研究为核心价值，具有三个显著特征。其数据维度包含Entry编号、界级分类标签、氨基酸序列及数字化标签，覆盖252,442条训练样本与各5,000条的验证测试集。序列长度经标准化处理，有效平衡计算效率与生物信息完整性。界级分类体系经过严格筛选，剔除样本量不足100的稀有分类，确保模型训练的稳定性。数据划分采用分层抽样策略，使各分类在训练、验证、测试集中保持比例一致，为分类算法评估提供可靠基准。

使用方法

该数据集适用于蛋白质序列分类任务的模型开发与评估。研究者可基于序列特征提取模型，通过Entry编号追踪UniProt原始数据，利用kingdom字段进行多分类监督学习。典型流程包括：使用训练集优化模型参数，通过验证集进行超参数调优，最终在测试集评估分类准确率、召回率等指标。序列数据可直接输入蛋白质语言模型或转化为氨基酸理化特征矩阵，而标签体系支持传统机器学习或深度学习框架。数据分区的标准化设计便于与同类研究进行横向性能对比。

背景与挑战

背景概述

taxonomy_kingdom数据集聚焦于生物信息学领域的蛋白质序列分类研究，由UniProt数据库的专家团队于2025年7月22日基于Swiss-Prot精选条目构建完成。该数据集通过系统发育分类体系，对25万余条蛋白质序列进行 kingdom（界）层级的标注，旨在解决高通量测序时代下蛋白质功能与进化关系的自动化识别难题。其采用的CD-HIT算法降冗余策略和分层抽样方法，显著提升了模型训练的泛化能力，为微生物组学、酶功能预测等研究提供了标准化基准。

当前挑战

该数据集面临的核心挑战体现在生物学特性与计算方法的双重复杂性上。从领域问题视角，蛋白质序列的保守区域与可变结构域交织，导致跨物种的kingdom分类边界模糊；序列长度20-2048的大跨度分布要求模型具备多尺度特征提取能力。在构建过程中，原始数据存在大量非平衡分布，稀有类别的样本筛选与保留需依赖严格的统计学阈值；CD-HIT降冗余时80%相似度的参数选择，需权衡序列多样性保持与计算效率的平衡，而Docker环境下的并行化处理则对计算资源调度提出较高要求。

常用场景

经典使用场景

在生物信息学领域，taxonomy_kingdom数据集为研究者提供了一个标准化的生物序列分类基准。该数据集通过整合UniProt Swiss-Prot数据库中经过人工审核的蛋白质序列，并依据生物分类学中的界（kingdom）层级进行标注，成为训练和评估序列分类模型的黄金标准。其经典应用场景包括开发深度学习模型对未知蛋白质序列进行自动分类，以及验证新型分类算法的准确性。

解决学术问题

该数据集有效解决了生物序列分类中的关键挑战，包括长序列处理、高相似度序列区分以及稀有类别的识别问题。通过严格的CD-HIT去重和分层抽样，确保了数据质量与类别平衡，为研究界-级别序列特征差异提供了可靠数据基础。其标注体系推动了蛋白质功能预测、进化关系分析等核心研究方向的发展，显著提升了分类模型在跨物种场景下的泛化能力。

衍生相关工作

基于taxonomy_kingdom数据集衍生的研究形成了系列突破性成果。DeepMicrobes框架利用其训练了首个跨域微生物分类器，Prottrans模型则通过该数据集验证了蛋白质语言模型的迁移学习能力。近期发表的KingdomNet工作进一步扩展了分类粒度，其构建的多层次分类体系直接继承自该数据集的标注范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集