cafa5

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/wanglab/cafa5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个部分：CAFA5推理部分和GO元数据部分。CAFA5推理部分的特征包括蛋白质ID、蛋白质名称、蛋白质功能、生物体、长度、亚细胞位置、序列、GO IDs、GO生物学过程、GO分子功能和GO细胞组分。GO元数据部分的特征包括GO ID、GO名称、GO定义、GO方面、GO深度和GO权重。数据集提供了训练集和测试集，分别包含不同的示例数量和大小。

This dataset comprises two components: the CAFA5 inference section and the GO metadata section. The features included in the CAFA5 inference section are protein ID, protein name, protein function, organism, sequence length, subcellular localization, sequence, GO IDs, GO biological process, GO molecular function, and GO cellular component. The features in the GO metadata section include GO ID, GO name, GO definition, GO aspect, GO depth, and GO weight. The dataset provides training and test sets, which contain different numbers and sizes of samples.

创建时间：

2025-06-09

原始信息汇总

数据集概述

基本信息

数据集名称: wanglab/cafa5
许可证: Apache-2.0
数据集大小: 总计约493.15 MB
下载大小: 约239.45 MB

数据集配置

1. cafa5_reasoning

描述: 包含蛋白质相关数据及其功能注释。
特征:
- protein_id: 蛋白质ID（字符串）
- protein_names: 蛋白质名称（字符串）
- protein_function: 蛋白质功能（字符串）
- organism: 生物体（字符串）
- length: 蛋白质长度（浮点数）
- subcellular_location: 亚细胞定位（字符串）
- sequence: 蛋白质序列（字符串）
- go_ids: GO ID序列（字符串序列）
- go_bp: 生物过程GO ID序列（字符串序列）
- go_mf: 分子功能GO ID序列（字符串序列）
- go_cc: 细胞组分GO ID序列（字符串序列）
- interpro_ids: InterPro ID序列（字符串序列）
- structure_path: 结构路径（字符串）
数据分割:
- train: 133,496个样本，约310.47 MB
- test: 141,864个样本，约182.67 MB

2. go_metadata

描述: 包含基因本体（GO）元数据。
特征:
- go_id: GO ID（字符串）
- go_name: GO名称（字符串）
- go_def: GO定义（字符串）
- go_aspect: GO类别（字符串）
- go_depth: GO深度（整数）
- go_weight: GO权重（浮点数）
数据分割:
- metadata: 43,248个样本，约12.36 MB

3. interpro_metadata

描述: 包含InterPro元数据。
特征:
- interpro_id: InterPro ID（字符串）
- entry_name: 条目名称（字符串）
数据分割:
- metadata: 36,062个样本，约1.08 MB

搜集汇总

数据集介绍

构建方式

在蛋白质功能注释领域，CAFA5数据集通过整合多源生物信息学数据构建而成。该数据集采用Apache-2.0许可协议，包含三个核心模块：蛋白质功能推理数据、基因本体元数据和InterPro元数据。蛋白质功能推理模块采集了超过27万条蛋白质记录，每条记录包含序列信息、亚细胞定位、三维结构路径等13个特征维度，并通过分布式存储方式组织训练集和测试集。基因本体模块系统收录了4.3万条标准术语及其层级关系，InterPro模块则整合了3.6万种蛋白质家族特征模式。

使用方法

该数据集适用于蛋白质功能预测模型的训练与评估，研究者可通过HuggingFace平台加载三个独立配置。使用cafa5_reasoning配置可获取蛋白质特征矩阵及功能标签，go_metadata配置提供基因本体语义网络，interpro_metadata配置则用于蛋白质结构域分析。典型工作流程包括：加载分布式训练集进行模型预训练，利用测试集验证预测性能，最后结合元数据模块进行功能注释的可解释性分析。数据分片设计支持流式处理，可有效降低内存消耗，适用于大规模蛋白质功能图谱构建任务。

背景与挑战

背景概述

CAFA5数据集作为蛋白质功能注释领域的重要资源，由国际蛋白质功能预测评估（CAFA）项目于近年推出，旨在推动计算生物学中蛋白质功能预测算法的发展。该数据集整合了蛋白质序列、基因本体（GO）注释、亚细胞定位等多元信息，为研究者提供了全面的蛋白质功能注释基准。其构建汇集了全球多个顶尖研究机构的智慧，显著提升了蛋白质功能预测的准确性和可解释性，对生物信息学和系统生物学研究产生了深远影响。

当前挑战

CAFA5数据集面临的挑战主要体现在两个方面：在领域问题层面，蛋白质功能预测需解决高维度稀疏数据下的多标签分类难题，尤其是基因本体术语的层次结构和长尾分布问题；在构建过程中，如何有效整合异构数据源（如InterPro条目与GO注释的映射）、确保注释质量的可靠性，以及处理非实验性推断注释的噪声，均构成了重大技术障碍。

常用场景

经典使用场景

在生物信息学领域，CAFA5数据集作为蛋白质功能预测的重要基准，被广泛应用于评估机器学习模型的性能。该数据集通过整合蛋白质序列、亚细胞定位、基因本体论（GO）注释等多维度信息，为研究者提供了一个标准化的测试平台。其经典使用场景包括蛋白质功能注释的自动化预测、跨物种功能保守性分析，以及蛋白质-蛋白质相互作用网络的构建。

解决学术问题

CAFA5数据集有效解决了蛋白质功能注释中的关键学术问题，特别是在大规模蛋白质功能预测的准确性和可扩展性方面。通过提供丰富的蛋白质特征和标准化的评估框架，该数据集促进了深度学习模型在生物序列分析中的应用，显著提升了功能预测的精度。其意义在于推动了计算生物学与人工智能的交叉研究，为理解蛋白质的功能演化机制提供了数据支撑。

实际应用

在实际应用中，CAFA5数据集被制药公司和生物技术企业用于加速药物靶点的发现和功能验证。例如，通过预测未知蛋白质的功能，研究人员可以快速筛选潜在的药物靶点，优化药物设计流程。此外，该数据集还支持农业生物技术中的作物改良，通过分析植物蛋白质的功能特性，助力抗病品种的培育。

数据集最近研究