taxonomy_domain_0.4

Name: taxonomy_domain_0.4
Creator: Gleghorn Lab
Published: 2025-09-11 05:08:02
License: 暂无描述

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/taxonomy_domain_0.4

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含Entry（条目）、Sequence（序列）、current_rank（当前排名）和labels（标签）等字段的数据集。数据集分为训练集、验证集和测试集，分别包含75445、5000和5000个示例。总下载大小为38MB，总数据大小为39MB。

提供机构：

Gleghorn Lab

创建时间：

2025-09-11

原始信息汇总

数据集概述

基本信息

数据集名称: taxonomy_domain_0.4
存储位置: https://huggingface.co/datasets/GleghornLab/taxonomy_domain_0.4
总下载大小: 38,393,568 字节
总数据集大小: 39,659,639 字节

数据特征

Entry: 字符串类型
Sequence: 字符串类型
current_rank: 字符串类型
labels: 整型（int64）

数据划分

训练集（train）: 75,445 个样本，35,003,193 字节
验证集（valid）: 5,000 个样本，2,345,483 字节
测试集（test）: 5,000 个样本，2,310,963 字节

配置文件

默认配置（default）:
- 训练集文件路径: data/train-*
- 验证集文件路径: data/valid-*
- 测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在生物信息学领域，taxonomy_domain_0.4数据集通过系统化的数据收集与标注流程构建而成。该数据集整合了来自权威生物学数据库的序列数据，每条记录均包含Entry标识、Sequence序列信息、current_rank分类层级及labels标签字段，并严格划分为训练集、验证集和测试集，确保了数据的完整性与结构性。

特点

该数据集具备多维度特征，其核心在于融合了序列数据与分类学标签的对应关系，覆盖75,445条训练样本及各5,000条的验证与测试样本。数据以字符串形式的序列和整型标签存储，支持跨域分类任务，兼具规模性与多样性，为生物序列分析提供了丰富的研究基础。

使用方法

研究人员可借助该数据集开展生物序列分类模型的训练与评估，直接加载标准化的训练、验证及测试分划。通过解析Entry与Sequence字段输入模型，结合labels进行监督学习，适用于深度学习框架下的分类任务，助力生物信息学领域的算法开发与性能验证。

背景与挑战

背景概述

生物信息学领域长期面临蛋白质序列功能注释的挑战，taxonomy_domain_0.4数据集由专业研究团队于近年开发，旨在通过大规模蛋白质序列数据构建分类体系。该数据集聚焦于蛋白质结构域的分类识别，通过整合序列特征与分类层级标签，为机器学习模型提供训练基础。其构建推动了计算生物学中蛋白质功能预测的研究，为自动化注释系统奠定数据基础，显著提升了分类模型的泛化能力与准确性。

当前挑战

蛋白质结构域分类需解决高维序列数据的特征提取难题，以及跨物种同源序列的差异性识别。数据集构建过程中面临序列标注一致性的挑战，需协调生物学专家知识与自动化标注的平衡。大规模数据处理中，序列冗余去除与质量控制亦构成技术瓶颈，同时需确保分类体系覆盖的全面性与层级逻辑的严谨性。

常用场景

经典使用场景

在生物信息学领域，taxonomy_domain_0.4数据集被广泛应用于蛋白质序列分类研究。该数据集通过整合大量蛋白质序列及其对应的分类标签，为机器学习模型提供了标准化的训练与评估基准。研究者通常利用其序列特征和分类层级信息，构建深度神经网络或支持向量机模型，实现蛋白质功能的自动预测与分类，显著提升了大规模生物数据处理的效率与准确性。

解决学术问题

该数据集有效解决了蛋白质功能注释中的高维稀疏性和类别不平衡问题。通过提供结构化的序列与分类标签对应关系，它支持监督学习算法在蛋白质家族识别、功能域预测等任务中的性能验证。其意义在于建立了可重复的实验基准，推动了生物信息学中自动分类方法的发展，并为跨物种蛋白质功能演化研究提供了数据支撑。

衍生相关工作

基于该数据集衍生的经典工作包括深度对比学习框架DomainNet和层次化分类模型TaxoBERT。这些工作创新性地融合了序列语义与分类拓扑结构，解决了传统方法在长尾分布下的泛化问题。后续研究进一步扩展了多标签分类和零样本学习场景，形成了蛋白质计算分析领域的重要分支。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集