five

jglaser/protein_ligand_contacts

收藏
Hugging Face2022-03-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jglaser/protein_ligand_contacts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过16,000对独特的蛋白质序列和配体SMILES,这些数据对包含了实验确定的结合亲和力和蛋白质-配体接触信息。数据集用于微调语言模型,并且所有数据均来自PDBind-cn。接触信息在四个不同的截止距离(5、8、11A和15A)下计算。
提供机构:
jglaser
原始信息汇总

数据集概述

数据集内容

  • 包含超过16,000对独特的蛋白质序列和配体SMILES,以及实验确定的结合亲和力和蛋白质-配体接触信息。
  • 数据以稀疏序列x smiles tokens(2048x512)矩阵的形式表示,其中非零元素的位置被列出。
  • 数据集的首尾元素分别对应于[CLS]和[SEP],并被填充为零。

数据集用途

  • 适用于微调语言模型。

数据来源

  • 数据仅来自PDBind-cn。

接触距离

  • 接触计算在四个截止距离:5, 8, 11A和15A。

数据加载

  • 使用datasets库加载训练和验证集: python from datasets import load_dataset train = load_dataset("jglaser/protein_ligand_contacts",split=train[:90%]) validation = load_dataset("jglaser/protein_ligand_contacts",split=train[90%:])

数据预处理

  • 手动预处理需要从PDBind-cn下载数据集,并执行以下步骤:
    • 注册并登录https://www.pdbbind.org.cn/下载索引文件、通用蛋白质-配体复合物和精细蛋白质-配体复合物。
    • 将下载的文件解压至pdbbind/data目录。
    • 运行pdbbind.py脚本进行计算处理。
    • 按照pdbbind.ipynb笔记本中的步骤进行操作。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作