jglaser/pdbbind_complexes

Name: jglaser/pdbbind_complexes
Creator: jglaser
Published: 2022-05-14 20:15:20
License: 暂无描述

Hugging Face2022-05-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jglaser/pdbbind_complexes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过16,000对独特的蛋白质序列和配体SMILES，以及它们复合物的坐标。SMILES通过P. Schwaller的正则表达式进行标记化。每个配体坐标(x,y,z)映射到一个SMILES标记，如果标记不代表原子，则为*nan*。每个受体坐标映射到该残基的Calpha坐标。数据集可用于微调语言模型，所有数据来自PDBind-cn。

提供机构：

jglaser

原始信息汇总

数据集概述

数据内容

包含超过16,000对独特的蛋白质序列和配体SMILES，以及它们复合物的坐标。
SMILES通过P. Schwaller的正则表达式进行标记化。
每个(x,y,z)配体坐标映射到一个SMILES标记，如果标记不代表原子，则为nan。
每个受体坐标映射到该残基的Calpha坐标。

数据来源

所有数据来自PDBind-cn。

使用方法

加载预处理数据

使用datasets库加载训练和验证数据集： python from datasets import load_dataset train = load_dataset("jglaser/pdbbind_complexes", split=train[:90%]) validation = load_dataset("jglaser/pdbbind_complexes", split=train[90%:])

手动预处理

从PDBind-cn下载数据集：
- 注册并登录https://www.pdbbind.org.cn/。
- 下载以下文件：
  1. Index文件
  2. 通用蛋白质-配体复合物
  3. 精细蛋白质-配体复合物
- 在pdbbind/data目录中解压这些文件。
- 在启用了MPI的集群上运行脚本pdbbind.py，例如： bash mpirun -n 64 pdbbind.py

5,000+

优质数据集

54 个

任务类型

进入经典数据集