SaProtHub/Dataset-Structure_Class-ProteinShake
收藏Hugging Face2025-02-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Structure_Class-ProteinShake
下载链接
链接失效反馈官方服务:
资源简介:
结构类预测是一个多类分类任务,旨在预测给定蛋白质的正确结构类。此任务基于SCOP数据库构建。数据集的分割基于70%的结构相似性,训练集包含7990个样本,验证集包含955个样本,测试集包含1005个样本。数据格式为LMDB,包含了蛋白质的PDB ID、链ID、结构感知序列、pLDDT值和分类标签等信息。
结构类预测是一个多类分类任务,旨在预测给定蛋白质的正确结构类。此任务基于SCOP数据库构建。数据集的分割基于70%的结构相似性,训练集包含7990个样本,验证集包含955个样本,测试集包含1005个样本。数据格式为LMDB,包含了蛋白质的PDB ID、链ID、结构感知序列、pLDDT值和分类标签等信息。
提供机构:
SaProtHub
原始信息汇总
数据集概述
数据集名称
Structural Class Prediction
任务类型
多类分类任务,用于预测给定蛋白质的正确结构类别。
数据来源
基于SCOP数据库构建。
数据集分割
- 结构类型: PDB
- 分割依据: 基于70%结构相似性
- 分割详情:
- 训练集:7990
- 验证集:955
- 测试集:1005
数据格式
使用LMDB格式组织数据,数据库结构如下:
- 长度: 样本数量
- 样本详情:
- 名称: 蛋白质的PDB ID
- 链: 蛋白质的链ID
- 序列: 结构感知序列
- pLDDT: 所有位置的pLDDT值
- 标签: 序列的分类标签



