SaProtHub/Dataset-Subcellular_Localization-DeepLoc

Name: SaProtHub/Dataset-Subcellular_Localization-DeepLoc
Creator: SaProtHub
Published: 2025-02-04 03:45:23
License: 暂无描述

Hugging Face2025-02-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/SaProtHub/Dataset-Subcellular_Localization-DeepLoc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预测蛋白质在细胞内的亚细胞定位，是一个10类分类任务。每个输入的蛋白质*x*被映射到一个标签*y* ∈ {0, 1, ..., 9}，其中数字标签代表不同的细胞内位置，如核、细胞质、细胞外等。数据集根据结构相似性被分为训练集、验证集和测试集，数据以LMDB格式组织，每个样本包含蛋白质的UniProt ID、结构感知序列、pLDDT值和分类标签。

提供机构：

SaProtHub

原始信息汇总

数据集概述

数据集描述

任务类型： 10类分类任务，用于预测蛋白质在细胞内的定位。
标签含义：
- 0: Nucleus
- 1: Cytoplasm
- 2: Extracellular
- 3: Mitochondrion
- 4: Cell.membrane
- 5: Endoplasmic.reticulum
- 6: Plastid
- 7: Golgi.apparatus
- 8: Lysosome/Vacuole
- 9: Peroxisome

数据集分割

结构类型： AF2
数据来源： 来自论文《DeepLoc: prediction of protein subcellular localization using deep learning》。
分割方式： 基于70%结构相似性，使用ProteinShake方法。
数据集大小：
- 训练集：10414
- 验证集：1368
- 测试集：1368

数据格式

存储格式： LMDB
数据结构：
- 长度： 样本总数
- 字段：
  - name： 蛋白质的UniProt ID
  - seq： 结构感知序列
  - plddt： 所有位置的pLDDT值
  - label： 序列的分类标签

搜集汇总

数据集介绍

构建方式

在蛋白质组学领域，亚细胞定位预测对于理解蛋白质功能至关重要。本数据集源自DeepLoc研究，通过深度学习模型预测蛋白质在细胞内的分布位置。构建过程中，研究者从原始DeepLoc数据集中筛选出所有具备AlphaFold2预测结构的蛋白质，确保数据质量与结构信息的完整性。随后，基于70%的结构相似性阈值，采用ProteinShake工具进行划分，最终形成包含10414个训练样本、1368个验证样本和1368个测试样本的数据集，涵盖了细胞核、细胞质、细胞膜等十个亚细胞定位类别。

特点

该数据集以AlphaFold2预测的蛋白质结构作为输入，将亚细胞定位任务转化为十分类问题，涵盖了从细胞核到过氧化物酶体等关键细胞器。其独特之处在于整合了计算结构生物学的最新成果，每个蛋白质样本均附带高置信度的三维结构信息，为模型提供了丰富的空间特征。数据划分基于严格的结构相似性标准，有效避免了序列同源性带来的偏差，确保了评估的客观性与泛化能力。标签体系清晰明确，覆盖了真核细胞中主要的亚细胞区室，为多类别预测研究提供了坚实基础。

使用方法

使用本数据集时，研究者可将其应用于蛋白质亚细胞定位的监督学习任务。数据以CSV格式存储，包含蛋白质的SA序列（即AlphaFold2结构表示）及对应的整数标签（0至9）。建议按照既定划分方案加载训练、验证与测试集，利用深度学习架构（如卷积神经网络或图神经网络）对结构特征进行建模。模型训练过程中，可结合序列与结构信息提升预测精度，并通过验证集调整超参数。最终，在独立测试集上评估性能，指标可包括准确率、宏平均F1分数等，以推动计算生物学领域的方法创新。

背景与挑战

背景概述

蛋白质亚细胞定位预测是计算生物学中的核心问题，旨在确定蛋白质在细胞内的具体位置，这对于理解蛋白质功能、疾病机制及药物靶点发现至关重要。SaProtHub/Dataset-Subcellular_Localization-DeepLoc数据集基于2017年发表的DeepLoc研究构建，由Borgwardt实验室等机构主导，利用深度学习技术对蛋白质序列进行10类分类。该数据集整合了AlphaFold2预测的结构信息，通过70%结构相似性划分训练、验证和测试集，显著提升了预测模型的泛化能力，推动了生物信息学中蛋白质功能注释的自动化进程。

当前挑战

该数据集致力于解决蛋白质亚细胞定位预测中的多类别不平衡与序列-结构关联建模挑战，由于不同亚细胞区室的蛋白质数量分布不均，模型易偏向多数类，影响罕见定位的预测精度。构建过程中，数据整合面临AlphaFold2结构覆盖不全的局限，部分蛋白质因缺乏可靠结构而被剔除，可能导致数据偏差。此外，基于结构相似性的分割方法虽增强泛化性，但可能引入进化相关性干扰，对模型在全新蛋白质上的性能评估构成考验。

常用场景

经典使用场景

在生物信息学领域，蛋白质亚细胞定位预测是理解蛋白质功能与细胞机制的核心任务。SaProtHub/Dataset-Subcellular_Localization-DeepLoc数据集通过提供基于AlphaFold2结构的蛋白质序列与10类亚细胞位置标签，成为深度学习模型训练与评估的经典基准。研究者常利用该数据集构建卷积神经网络或图神经网络，以端到端方式学习蛋白质结构与定位间的复杂映射关系，推动计算生物学方法的创新。

衍生相关工作

基于该数据集衍生的经典工作包括DeepLoc原论文提出的深度学习框架，以及后续扩展的图神经网络模型如ProteinSAGE等。这些研究进一步整合多尺度蛋白质特征，结合注意力机制优化表示学习，推动了定位预测任务从序列到结构的范式转变。相关成果已被广泛应用于蛋白质功能数据库构建与跨物种定位分析，形成了持续迭代的研究生态。

数据集最近研究