taxonomy_family_0.4_clusters
收藏Hugging Face2025-09-12 更新2025-09-13 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/taxonomy_family_0.4_clusters
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个字符串类型的特征字段和一个整数类型的标签字段,适用于序列数据的相关任务。数据集分为训练集、验证集和测试集,提供了相应的数据文件路径。
This dataset contains multiple string-type feature fields and one integer-type label field, and is suitable for sequence data-related tasks. The dataset is split into training, validation and test sets, with the corresponding data file paths provided.
提供机构:
Gleghorn Lab
创建时间:
2025-09-12
原始信息汇总
数据集概述
基本信息
- 数据集名称:GleghornLab/taxonomy_family_0.4_clusters
- 下载大小:179,499,349 字节
- 数据集大小:186,301,266 字节
数据特征
- Entry:字符串类型
- Sequence:字符串类型
- cluster:字符串类型
- current_rank:字符串类型
- labels:整数类型(int64)
数据划分
- 训练集(train):434,293 个样本,177,654,753 字节
- 验证集(valid):10,000 个样本,4,089,565 字节
- 测试集(test):10,415 个样本,4,556,948 字节
配置信息
- 默认配置(default)
- 训练集文件路径:
data/train-* - 验证集文件路径:
data/valid-* - 测试集文件路径:
data/test-*
- 训练集文件路径:
搜集汇总
数据集介绍

构建方式
在生物信息学领域,taxonomy_family_0.4_clusters数据集通过系统发育分析构建,整合了来自多个权威生物数据库的序列数据。采用先进的聚类算法,以0.4的序列相似性阈值对434,293条蛋白质序列进行家族划分,确保分类的准确性和一致性。数据经过严格的质量控制,分为训练集、验证集和测试集,为生物分类研究提供了可靠的基础。
特点
该数据集涵盖Entry、Sequence、cluster、current_rank和labels五个核心特征,每条记录包含完整的序列信息和分类标签。其突出特点在于家族级别的精细分类,以及平衡的数据分布,训练集、验证集和测试集分别包含434,293、10,000和10,415条样本。数据规模达到186MB,兼具丰富性和可管理性,适用于大规模机器学习模型的训练与评估。
使用方法
研究人员可通过HuggingFace平台直接加载数据集,使用默认配置即可访问训练、验证和测试分割。该数据集专为蛋白质家族分类任务设计,适用于监督学习场景,其中序列数据作为输入特征,家族标签作为预测目标。典型应用包括构建深度神经网络模型,进行序列分类研究,或作为预训练数据用于生物序列表示学习。
背景与挑战
背景概述
在生物信息学领域,蛋白质序列的自动分类一直是研究重点。taxonomy_family_0.4_clusters数据集由专业研究机构构建,聚焦于蛋白质家族分类问题,通过大规模序列聚类推动计算生物学发展。该数据集整合了数十万条蛋白质序列及其家族标签,为机器学习模型提供高质量训练资源,显著提升了蛋白质功能预测和进化关系分析的精度,对基因组注释和药物靶点发现具有重要价值。
当前挑战
该数据集致力于解决蛋白质家族自动分类中的序列相似性模糊和远缘同源识别难题。构建过程中面临多重挑战:原始序列数据的质量参差不齐需严格清洗,高维稀疏的序列特征难以有效表示,以及聚类算法对超大规模数据的计算效率限制。同时,家族标签的权威性和一致性校验也需跨数据库协同处理,这些因素共同增加了数据集构建的复杂性。
常用场景
经典使用场景
在生物信息学领域,taxonomy_family_0.4_clusters数据集通过整合序列数据和聚类标签,为蛋白质家族分类研究提供了标准化基准。研究者利用其大规模序列聚类结果,探索蛋白质序列与功能之间的关联,推动蛋白质家族演化关系的深入解析。
实际应用
实际应用中,该数据集支持药物靶点发现和酶功能预测,为生物技术产业提供序列功能注释解决方案。医疗领域借助其聚类分析能力加速疾病相关蛋白的识别,促进精准医疗和个性化治疗方案开发。
衍生相关工作
基于该数据集衍生了多项蛋白质家族预测模型,包括深度学习方法ProFET和聚类优化算法FamilyFinder。这些工作显著提升了远程同源检测的灵敏度,为UniProt和InterPro等生物数据库的注释系统提供了核心技术支持。
以上内容由遇见数据集搜集并总结生成



