taxonomy_order
收藏Hugging Face2025-07-25 更新2025-07-26 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/taxonomy_order
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于UniProt搜索结果构建的生物序列数据集,包含了经过Swiss-Prot审核的条目。数据集经过筛选,只保留了序列长度在20到2048之间的记录,并从中提取了分类学信息。数据集由条目、分类阶、序列和标签组成,其中标签是基于分类阶中的目生成的。数据集被划分为训练集、验证集和测试集,分别包含249393、5000和5000个样本。在构建数据集时还使用了CD-HIT算法进行序列聚类,并移除了样本数量少于100的目。
提供机构:
Gleghorn Lab
创建时间:
2025-07-25
原始信息汇总
数据集概述
基本信息
- 数据集名称: GleghornLab/taxonomy_order
- 下载大小: 102.36 MB
- 数据集大小: 105.85 MB
数据特征
- 特征列:
Entry: 字符串类型order: 字符串类型Sequence: 字符串类型labels: 整型 (int64)
数据划分
- 训练集 (train):
- 样本数量: 249,393
- 数据大小: 101.74 MB
- 验证集 (valid):
- 样本数量: 5,000
- 数据大小: 2.06 MB
- 测试集 (test):
- 样本数量: 5,000
- 数据大小: 2.04 MB
数据来源与处理
- 数据来源: UniProt (Swiss-Prot reviewed entries only)
- 数据获取日期: 2025年7月22日
- 数据格式: TSV (包含分类学谱系ID、序列和长度)
数据预处理步骤
- 过滤序列长度在20到2048之间的条目。
- 从
taxonomic_lineage_ids列中提取分类学ID(域、界、门、纲、目、科、属、种)。 - 保留
entry、order和sequence信息。 - 删除缺失值。
- 使用CD-HIT (Docker) 进行80%相似性阈值和n=5的聚类。
- 保留代表性序列。
- 根据
order创建标签。 - 删除样本数少于100的
order。 - 分层划分数据集:先划分测试集(5,000样本),再划分验证集(5,000样本),其余为训练集。
搜集汇总
数据集介绍

构建方式
在生物信息学领域,taxonomy_order数据集的构建体现了严谨的数据筛选流程。研究团队从UniProt数据库获取经Swiss-Prot审核的蛋白质条目,通过TSV格式下载包含分类谱系、序列及长度等关键信息。构建过程中采用多重过滤标准:限定序列长度为20至2048个氨基酸残基,从分类谱系中精确提取门、纲、目等分类阶元标识符。运用CD-HIT工具在80%相似度阈值下进行序列去冗余处理,保留代表性序列,并通过分层抽样策略划分训练集、验证集和测试集,确保数据分布的均衡性。
特点
该数据集最显著的特征在于其高质量的分类标注体系,涵盖249,393条蛋白质序列及其对应的目级分类标签。每条记录包含UniProt登录号、目级分类单元、氨基酸序列及数字化标签四类结构化数据。数据经过严格清洗,剔除缺失值及低频分类单元,保证每个目级分类至少包含100个样本。测试集与验证集各含5,000条经过分层抽样的独立数据,有效支持模型泛化能力的评估。
使用方法
作为蛋白质分类研究的基准数据集,taxonomy_order支持监督学习框架下的多类别分类任务。研究者可加载预划分的训练-验证-测试集,利用序列特征与目级标签构建分类模型。氨基酸序列可直接输入蛋白质语言模型获取嵌入表示,或转化为理化特征向量。验证集适用于超参数调优,而测试集应保留至最终评估阶段。该数据集特别适合探索深度学习在跨物种蛋白质功能预测中的应用潜力。
背景与挑战
背景概述
taxonomy_order数据集是基于UniProt数据库中的Swiss-Prot条目构建的生物信息学资源,专注于蛋白质序列的分类学研究。该数据集由专业研究团队于2025年7月22日创建,通过严格的筛选流程提取了具有代表性的蛋白质序列数据。其核心研究目标在于探索蛋白质序列与生物分类阶元(特别是目级分类)之间的关联规律,为系统发育分析和功能基因组学研究提供重要数据支持。数据集涵盖249,393条训练序列和10,000条验证测试序列,经过CD-HIT去冗余处理,在生物信息学领域具有重要的基准数据集价值。
当前挑战
taxonomy_order数据集面临的主要挑战体现在两个维度:科学问题层面,如何准确建立蛋白质序列特征与高阶分类单元之间的映射关系仍存在显著困难,特别是对于保守性较低的序列区域;数据构建层面,处理原始数据时需要克服序列长度差异大(20-2048残基)、分类标签不平衡以及序列相似性控制等复杂问题。CD-HIT去冗余过程中80%相似度阈值的设定可能损失部分进化信息,而严格的最小样本量要求(每目≥100样本)则限制了分类覆盖的全面性。这些技术挑战直接影响着后续分类模型的泛化能力评估。
常用场景
经典使用场景
在生物信息学领域,taxonomy_order数据集为研究者提供了丰富的蛋白质序列及其分类信息,成为探索蛋白质功能与进化关系的重要工具。该数据集通过整合UniProt数据库中的Swiss-Prot条目,并结合CD-HIT去冗余处理,确保了数据的高质量和代表性。研究者常利用其进行蛋白质分类模型的训练与评估,特别是在多分类任务中验证算法的性能。
解决学术问题
taxonomy_order数据集有效解决了蛋白质序列分类中的关键挑战,如高维数据处理和类别不平衡问题。通过提供经过严格筛选和标注的蛋白质序列,该数据集支持了机器学习模型在生物分类学中的应用,促进了蛋白质功能预测和进化关系研究的进展。其分层抽样策略进一步确保了模型评估的可靠性,为相关领域的研究提供了坚实的基础。
衍生相关工作
基于taxonomy_order数据集,研究者已开发出多种先进的蛋白质分类算法,如基于深度学习的多标签分类模型和序列嵌入方法。这些工作不仅提升了分类精度,还推动了生物信息学与人工智能的交叉研究。部分衍生研究进一步扩展了数据集的应用范围,例如结合结构预测模型探索蛋白质的三维结构与分类之间的关系。
以上内容由遇见数据集搜集并总结生成



