five

SaProtHub/Dataset-Structure_Class-ProteinShake

收藏
Hugging Face2025-02-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Structure_Class-ProteinShake
下载链接
链接失效反馈
官方服务:
资源简介:
结构类预测是一个多类分类任务,旨在预测给定蛋白质的正确结构类。此任务基于SCOP数据库构建。数据集的分割基于70%的结构相似性,训练集包含7990个样本,验证集包含955个样本,测试集包含1005个样本。数据格式为LMDB,包含了蛋白质的PDB ID、链ID、结构感知序列、pLDDT值和分类标签等信息。

结构类预测是一个多类分类任务,旨在预测给定蛋白质的正确结构类。此任务基于SCOP数据库构建。数据集的分割基于70%的结构相似性,训练集包含7990个样本,验证集包含955个样本,测试集包含1005个样本。数据格式为LMDB,包含了蛋白质的PDB ID、链ID、结构感知序列、pLDDT值和分类标签等信息。
提供机构:
SaProtHub
原始信息汇总

数据集概述

数据集名称

Structural Class Prediction

任务类型

多类分类任务,用于预测给定蛋白质的正确结构类别。

数据来源

基于SCOP数据库构建。

数据集分割

  • 结构类型: PDB
  • 分割依据: 基于70%结构相似性
  • 分割详情:
    • 训练集:7990
    • 验证集:955
    • 测试集:1005

数据格式

使用LMDB格式组织数据,数据库结构如下:

  • 长度: 样本数量
  • 样本详情:
    • 名称: 蛋白质的PDB ID
    • 链: 蛋白质的链ID
    • 序列: 结构感知序列
    • pLDDT: 所有位置的pLDDT值
    • 标签: 序列的分类标签
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作