jglaser/protein_ligand_contacts
收藏Hugging Face2022-03-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jglaser/protein_ligand_contacts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过16,000对独特的蛋白质序列和配体SMILES,这些数据对包含了实验确定的结合亲和力和蛋白质-配体接触信息。数据集用于微调语言模型,并且所有数据均来自PDBind-cn。接触信息在四个不同的截止距离(5、8、11A和15A)下计算。
提供机构:
jglaser
原始信息汇总
数据集概述
数据集内容
- 包含超过16,000对独特的蛋白质序列和配体SMILES,以及实验确定的结合亲和力和蛋白质-配体接触信息。
- 数据以稀疏序列x smiles tokens(2048x512)矩阵的形式表示,其中非零元素的位置被列出。
- 数据集的首尾元素分别对应于[CLS]和[SEP],并被填充为零。
数据集用途
- 适用于微调语言模型。
数据来源
- 数据仅来自PDBind-cn。
接触距离
- 接触计算在四个截止距离:5, 8, 11A和15A。
数据加载
- 使用
datasets库加载训练和验证集: python from datasets import load_dataset train = load_dataset("jglaser/protein_ligand_contacts",split=train[:90%]) validation = load_dataset("jglaser/protein_ligand_contacts",split=train[90%:])
数据预处理
- 手动预处理需要从PDBind-cn下载数据集,并执行以下步骤:
- 注册并登录https://www.pdbbind.org.cn/下载索引文件、通用蛋白质-配体复合物和精细蛋白质-配体复合物。
- 将下载的文件解压至
pdbbind/data目录。 - 运行
pdbbind.py脚本进行计算处理。 - 按照
pdbbind.ipynb笔记本中的步骤进行操作。



