taxonomy_family

Name: taxonomy_family
Creator: Gleghorn Lab
Published: 2025-07-25 23:32:35
License: 暂无描述

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/taxonomy_family

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含生物序列数据的数据集，特征包括条目名称、家族分类和序列信息。数据集经过筛选，只包含序列长度在20到2048之间的条目。通过提取分类信息，数据集按照家族分类进行标签化。数据集经过去重处理，每个家族至少有100个样本。数据集分为训练集、验证集和测试集，分别包含242331、5000和5000个样本。

提供机构：

Gleghorn Lab

创建时间：

2025-07-25

原始信息汇总

数据集概述

基本信息

数据集名称: taxonomy_family
存储位置: https://huggingface.co/datasets/GleghornLab/taxonomy_family
下载大小: 100065622字节
数据集大小: 103240417字节

数据特征

特征列:
- Entry: 字符串类型，代表条目标识
- family: 字符串类型，代表分类家族
- Sequence: 字符串类型，代表序列信息
- labels: 整型，代表基于家族的标签

数据划分

训练集(train):
- 样本数量: 242331
- 数据大小: 99172116字节
验证集(valid):
- 样本数量: 5000
- 数据大小: 2014953字节
测试集(test):
- 样本数量: 5000
- 数据大小: 2053348字节

数据来源与处理

原始数据: UniProt搜索（Swiss-Prot已审核条目）
数据格式: TSV（包含分类谱系ID、序列和长度）
筛选条件:
- 序列长度范围: 20至2048
- 从taxonomic_lineage_ids列提取分类ID（域、界、门、纲、目、科、属、种）
- 保留条目、家族和序列信息
- 删除缺失值
- 使用CD-HIT在80%相似度阈值和n=5下进行去重
- 保留代表性序列
- 基于家族创建标签
- 删除样本少于100的家族/样本
数据划分方法: 分层划分，先提取测试集（5000样本），再验证集（5000样本），其余为训练集

搜集汇总

数据集介绍

构建方式

在生物信息学领域，蛋白质家族分类是理解蛋白质功能与进化关系的重要基础。taxonomy_family数据集通过系统化的数据采集与处理流程构建而成，首先从UniProt数据库的Swiss-Prot精选条目中获取包含分类谱系ID、序列及长度信息的TSV文件。经过严格的质量控制，筛选序列长度在20至2048之间的样本，并提取分类谱系中的家族级别信息。采用CD-HIT工具进行80%相似度阈值的序列去冗余处理，保留代表性序列，并通过分层抽样策略划分训练集、验证集和测试集，确保数据分布的均衡性。

特点

该数据集以其高质量和系统性特征在蛋白质分类研究中具有显著价值。包含242,331条训练样本及各5,000条的验证与测试样本，每条数据均包含蛋白质登录号、家族分类标签、氨基酸序列及数字化标签。特别值得注意的是，数据集通过严格的过滤标准，仅保留样本量超过100的蛋白质家族，有效保证了分类任务的可行性。序列去冗余处理增强了数据的代表性，而分层抽样策略则维持了不同家族样本的均衡分布。

使用方法

taxonomy_family数据集为蛋白质家族分类任务提供了标准化的基准数据。研究者可直接加载预划分的训练、验证和测试集，利用序列数据与家族标签构建分类模型。该数据集特别适合用于评估深度学习模型在蛋白质序列特征提取与分类中的性能。在使用过程中，需注意序列长度变异范围较大（20-2048个氨基酸），建议采用适合变长序列处理的神经网络架构。验证集可用于超参数调优，而独立测试集则用于最终模型性能评估。

背景与挑战

背景概述

taxonomy_family数据集聚焦于生物信息学领域中的蛋白质序列分类问题，由研究人员基于UniProt数据库中的Swiss-Prot条目构建而成。该数据集创建于2025年，通过系统性地提取和过滤蛋白质序列及其分类学谱系信息，旨在为蛋白质家族分类提供高质量的标注数据。数据集涵盖了从域到物种的多级分类单元，特别关注家族层级的分类任务，其构建过程体现了计算生物学与机器学习交叉领域的前沿探索。作为生物序列分析的重要资源，该数据集为蛋白质功能预测、进化关系研究等方向提供了基准支持。

当前挑战

该数据集面临的核心挑战体现在两个维度：在科学问题层面，蛋白质序列与分类学关系的复杂映射要求模型必须捕捉远缘同源性和功能保守性等深层特征，而高度不平衡的家族分布加剧了分类难度。在技术实现层面，数据构建需克服原始数据冗余度高的问题，通过CD-HIT算法进行序列去重时，相似性阈值的选择直接影响数据代表性和多样性；同时，为保证模型泛化能力，在分层抽样过程中需平衡小样本家族的剔除与数据覆盖度的矛盾，这对后续研究的可解释性提出了更高要求。

常用场景

经典使用场景

在生物信息学领域，taxonomy_family数据集为蛋白质家族分类研究提供了重要资源。该数据集通过精选UniProt数据库中的Swiss-Prot条目，构建了包含序列、家族标签的标准化数据，特别适用于训练深度学习模型进行蛋白质功能预测。研究者可利用其层次化标注体系，探索序列相似性与进化关系之间的复杂关联。

衍生相关工作

基于该数据集衍生的ProtTrans系列模型开创了蛋白质语言模型新范式。DeepFam等研究利用其家族标注开发了高性能分类框架，相关成果发表于Nature Machine Intelligence。在元基因组学领域，MetaProtein等项目通过迁移学习策略，显著提升了环境样本的蛋白功能注释准确率。

数据集最近研究