SaProtHub/Dataset-Binding_Site_Detection-ProteinShake
收藏Hugging Face2025-01-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Binding_Site_Detection-ProteinShake
下载链接
链接失效反馈官方服务:
资源简介:
Binding Site Detection数据集用于预测蛋白质残基是否属于小分子结合腔。结合位点残基是指那些位于PDBBind提供的结合口袋内的残基。默认的评估指标是马修斯相关系数。数据集的结构类型为PDB,来源于ProteinShake Building datasets and benchmarks for deep learning on protein structures。数据集按照70%的结构相似性进行划分,分为训练集、验证集和测试集,数量分别为2368、442和464。数据格式为LMDB格式,包含了蛋白质的PDB ID、结构感知序列和所有残基的分类标签。
Binding Site Detection数据集用于预测蛋白质残基是否属于小分子结合腔。结合位点残基是指那些位于PDBBind提供的结合口袋内的残基。默认的评估指标是马修斯相关系数。数据集的结构类型为PDB,来源于ProteinShake Building datasets and benchmarks for deep learning on protein structures。数据集按照70%的结构相似性进行划分,分为训练集、验证集和测试集,数量分别为2368、442和464。数据格式为LMDB格式,包含了蛋白质的PDB ID、结构感知序列和所有残基的分类标签。
提供机构:
SaProtHub
原始信息汇总
数据集概述
数据集描述
- 目标预测: 预测蛋白质残基是否属于小分子结合腔。
- 结合位点定义: 结合位点残基是指那些位于PDBBind提供的结合口袋内的残基。
- 默认评估指标: Matthews Correlation。
数据集分割
- 结构类型: PDB
- 数据来源: ProteinShake Building datasets and benchmarks for deep learning on protein structures
- 分割依据: 基于70%结构相似性
- 分割详情:
- 训练集: 2368
- 验证集: 442
- 测试集: 464
数据格式
- 存储格式: LMDB
- 数据库架构:
- 样本数量: 数据集中的样本总数
- 样本详情:
- 名称(PDB ID): 蛋白质的PDB标识
- 序列(结构感知序列): 蛋白质的结构感知序列
- 标签(分类标签): 所有残基的分类标签



