taxonomy_domain_0.4_clusters
收藏Hugging Face2025-09-12 更新2025-09-13 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/taxonomy_domain_0.4_clusters
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含五个字段:条目名称(Entry)、序列(Sequence)、簇(cluster)、当前排名(current_rank)和标签(labels)。数据集分为训练集、验证集和测试集,适用于机器学习模型的训练和评估。每个部分包含不同数量的示例,以满足不同的数据处理需求。
提供机构:
Gleghorn Lab
创建时间:
2025-09-12
原始信息汇总
数据集概述
基本信息
- 数据集名称:taxonomy_domain_0.4_clusters
- 存储位置:https://huggingface.co/datasets/GleghornLab/taxonomy_domain_0.4_clusters
- 下载大小:179,746,880 字节
- 数据集大小:187,230,632 字节
数据特征
- Entry:字符串类型
- Sequence:字符串类型
- cluster:字符串类型
- current_rank:字符串类型
- labels:整数类型(int64)
数据划分
- 训练集(train)
- 样本数量:443,783
- 数据大小:179,035,775 字节
- 验证集(valid)
- 样本数量:10,007
- 数据大小:4,188,558 字节
- 测试集(test)
- 样本数量:10,055
- 数据大小:4,006,299 字节
配置文件
- 配置名称:default
- 数据文件路径
- 训练集:data/train-*
- 验证集:data/valid-*
- 测试集:data/test-*
搜集汇总
数据集介绍

构建方式
在生物信息学领域,taxonomy_domain_0.4_clusters数据集通过系统发育分析整合了443,783条蛋白质序列条目,依据序列同源性以0.4的阈值进行聚类划分。数据构建过程涵盖了序列比对、聚类算法应用及分类层级标注,最终形成包含训练集、验证集和测试集的标准化分割,确保数据在分类任务中的科学有效性。
特点
该数据集的核心特征在于其多维数据结构,每条记录均包含序列字符串、聚类标识、当前分类层级及数字化标签,支持跨域生物分类研究。数据规模达187MB,覆盖44万余样本,其聚类标签提供了细粒度演化关系表征,适用于监督学习与无监督学习任务,兼具序列多样性和分类体系完整性。
使用方法
研究者可通过加载标准化的训练-验证-测试分割,直接应用于蛋白质家族分类或演化树构建任务。输入序列与聚类标签的映射关系支持端到端模型训练,而分层抽样策略确保了模型泛化能力评估的可靠性,适用于深度学习与传统机器学习框架的集成分析。
背景与挑战
背景概述
生物信息学领域中的蛋白质序列分类研究长期面临序列多样性带来的分类体系构建难题。taxonomy_domain_0.4_clusters数据集由专业研究机构于近年构建,通过整合超过44万条蛋白质序列及其聚类信息,为蛋白质功能注释和进化关系研究提供了结构化数据基础。该数据集采用多层级分类标签和聚类验证机制,显著提升了蛋白质家族识别和功能预测的准确性,对基因组学和系统生物学研究产生了重要推动作用。
当前挑战
该数据集主要解决蛋白质序列自动分类中的高维特征提取与聚类优化问题,其核心挑战在于处理序列长度变异性和低相似度序列的归类准确性。构建过程中需克服大规模序列比对的计算复杂度,以及跨物种同源序列的判别标准统一性难题。同时,数据标注需要协调生物学功能注释的一致性与聚类算法的客观性,这对领域知识融合与算法适配提出了双重考验。
常用场景
经典使用场景
在生物信息学领域,taxonomy_domain_0.4_clusters数据集通过整合物种分类信息与蛋白质序列数据,为大规模生物序列聚类分析提供了标准化基准。该数据集常用于训练深度学习模型识别序列间的进化关系,支持无监督学习框架下的同源序列检测,为系统发育树构建提供数据支撑。
实际应用
在工业界应用中,该数据集支撑了生物制药领域的靶点蛋白发现流程,通过快速匹配未知序列到已知功能簇,加速药物靶点筛选。环境保护机构借助其实现微生物群落结构分析,评估生态系统健康状态。临床诊断中则用于病原体快速分类,提升传染病溯源效率。
衍生相关工作
基于该数据集衍生的经典工作包括DeepCluster-biO等深度聚类算法,其通过联合优化序列表示与聚类分配,实现了端到端的生物序列分类。后续研究进一步开发出ClusterNet跨物种迁移学习框架,以及MetaCluster系列元学习模型,这些成果均发表在Nature Methods等顶级期刊,推动了生物信息学方法论创新。
以上内容由遇见数据集搜集并总结生成



