five

SaProtHub/Dataset-Binding_Site_Detection-ProteinShake

收藏
Hugging Face2025-01-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Binding_Site_Detection-ProteinShake
下载链接
链接失效反馈
官方服务:
资源简介:
Binding Site Detection数据集用于预测蛋白质残基是否属于小分子结合腔。结合位点残基是指那些位于PDBBind提供的结合口袋内的残基。默认的评估指标是马修斯相关系数。数据集的结构类型为PDB,来源于ProteinShake Building datasets and benchmarks for deep learning on protein structures。数据集按照70%的结构相似性进行划分,分为训练集、验证集和测试集,数量分别为2368、442和464。数据格式为LMDB格式,包含了蛋白质的PDB ID、结构感知序列和所有残基的分类标签。

Binding Site Detection数据集用于预测蛋白质残基是否属于小分子结合腔。结合位点残基是指那些位于PDBBind提供的结合口袋内的残基。默认的评估指标是马修斯相关系数。数据集的结构类型为PDB,来源于ProteinShake Building datasets and benchmarks for deep learning on protein structures。数据集按照70%的结构相似性进行划分,分为训练集、验证集和测试集,数量分别为2368、442和464。数据格式为LMDB格式,包含了蛋白质的PDB ID、结构感知序列和所有残基的分类标签。
提供机构:
SaProtHub
原始信息汇总

数据集概述

数据集描述

  • 目标预测: 预测蛋白质残基是否属于小分子结合腔。
  • 结合位点定义: 结合位点残基是指那些位于PDBBind提供的结合口袋内的残基。
  • 默认评估指标: Matthews Correlation。

数据集分割

  • 结构类型: PDB
  • 数据来源: ProteinShake Building datasets and benchmarks for deep learning on protein structures
  • 分割依据: 基于70%结构相似性
  • 分割详情:
    • 训练集: 2368
    • 验证集: 442
    • 测试集: 464

数据格式

  • 存储格式: LMDB
  • 数据库架构:
    • 样本数量: 数据集中的样本总数
    • 样本详情:
      • 名称(PDB ID): 蛋白质的PDB标识
      • 序列(结构感知序列): 蛋白质的结构感知序列
      • 标签(分类标签): 所有残基的分类标签
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作