jglaser/protein_ligand_contacts

Name: jglaser/protein_ligand_contacts
Creator: jglaser
Published: 2022-03-15 21:17:32
License: 暂无描述

Hugging Face2022-03-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jglaser/protein_ligand_contacts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过16,000对独特的蛋白质序列和配体SMILES，这些数据对包含了实验确定的结合亲和力和蛋白质-配体接触信息。数据集用于微调语言模型，并且所有数据均来自PDBind-cn。接触信息在四个不同的截止距离（5、8、11A和15A）下计算。

提供机构：

jglaser

原始信息汇总

数据集概述

使用datasets库加载训练和验证集： python from datasets import load_dataset train = load_dataset("jglaser/protein_ligand_contacts",split=train[:90%]) validation = load_dataset("jglaser/protein_ligand_contacts",split=train[90%:])

手动预处理需要从PDBind-cn下载数据集，并执行以下步骤：
- 注册并登录https://www.pdbbind.org.cn/下载索引文件、通用蛋白质-配体复合物和精细蛋白质-配体复合物。
- 将下载的文件解压至pdbbind/data目录。
- 运行pdbbind.py脚本进行计算处理。
- 按照pdbbind.ipynb笔记本中的步骤进行操作。

5,000+

优质数据集

54 个

任务类型

进入经典数据集