jglaser/pdb_protein_ligand_complexes

Name: jglaser/pdb_protein_ligand_complexes
Creator: jglaser
Published: 2022-10-13 15:09:57
License: 暂无描述

Hugging Face2022-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jglaser/pdb_protein_ligand_complexes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约36,000对独特的蛋白质序列和配体SMILES，以及它们复合物的坐标。配体选择标准包括至少3个原子、分子量大于等于100 Da，并且不包括PDB中最常见的280种配体。数据集已经预处理，可以通过pandas库加载训练和测试数据。受体特征包含蛋白质框架和侧链角度，格式为OpenFold/AlphaFold。配体标记中不对应原子的坐标标记为`nan`。

This dataset contains approximately 36,000 unique pairs of protein sequences and ligand SMILES, along with the coordinates of their corresponding complexes. The ligand selection criteria are as follows: each ligand must contain at least 3 atoms, have a molecular weight of no less than 100 Da, and not be among the 280 most common ligands in the PDB. The dataset has been preprocessed, allowing training and test subsets to be loaded using the pandas library. Receptor features include protein backbone and sidechain angles, formatted following the OpenFold/AlphaFold standard. Coordinates that do not correspond to any actual atoms in ligand annotations are labeled as `nan`.

提供机构：

jglaser

原始信息汇总

数据集概述

数据集内容

包含约36,000对独特的蛋白质序列与配体SMILES，以及它们从PDB获取的复合物坐标。
配体SMILES假设已通过P. Schwaller的正则表达式进行分词。

配体选择标准

配体至少包含3个原子。
分子量大于等于100 Da。
不包括PDB中最常见的280种配体（如PEG、ADP等常见添加剂）。

数据预处理

使用Pandas加载预处理的训练和测试数据集： python import pandas as pd train = pd.read_pickle(data/pdb_train.p) test = pd.read_pickle(data/pdb_test.p)

数据集特征

受体特征包括蛋白质框架和侧链角度，格式遵循OpenFold/AlphaFold。
非原子对应的配体标记其坐标为nan。

数据集结构

数据集包含以下列：pdb_id, lig_id, seq, smiles, receptor_features, ligand_xyz, ligand_xyz_2d, ligand_bonds。
示例数据展示： python

test.head(5) [5 rows x 8 columns]

受体特征示例

包含rigidgroups_gt_frames和torsion_angles_sin_cos。 python

test.iloc[0][receptor_features].keys() dict_keys([rigidgroups_gt_frames, torsion_angles_sin_cos])

配体坐标示例

示例中包含坐标为nan的非原子配体标记。 python

test.iloc[0][ligand_xyz] [(22.289, 11.985, 9.225), (21.426, 11.623, 7.959), (nan, nan, nan), (nan, nan, nan), (21.797, 11.427, 6.574), (20.556, 11.56, 5.792), (nan, nan, nan), (20.507, 11.113, 4.552), (nan, nan, nan), (19.581, 10.97, 6.639), (20.107, 10.946, 7.954), (nan, nan, nan), (nan, nan, nan), (19.645, 10.364, 8.804)]

搜集汇总

数据集介绍

构建方式

在结构生物学与计算化学的交叉领域，蛋白质-配体复合物数据集的构建需兼顾结构多样性与化学意义。本数据集从蛋白质数据库（PDB）中系统筛选了约36,000个独特的蛋白质序列与配体SMILES对，并整合了其复合物坐标。筛选过程遵循严格的配体选择标准：仅纳入原子数不少于3、分子量大于等于100道尔顿的配体，同时排除了PDB中280种最常见配体（如PEG、ADP等添加剂），以确保数据在化学空间上的代表性与非冗余性。数据预处理采用并行计算框架，通过脚本自动提取序列与坐标信息，最终以序列化格式保存，为后续分析奠定了高质量的结构基础。

特点

该数据集在生物分子相互作用研究中展现出鲜明的技术特征。其核心在于融合了多维度结构信息：不仅包含蛋白质的氨基酸序列与配体的SMILES字符串，还提供了复合物的三维坐标。蛋白质特征以OpenFold/AlphaFold格式编码，涵盖刚性群框架和侧链扭转角的正余弦值；配体坐标则精确到原子级别，非原子标记以NaN值清晰区分。数据集采用Pandas序列化格式存储，字段设计直观，涵盖PDB标识符、配体标识、序列、SMILES、受体特征、配体坐标及化学键连接关系，实现了结构数据与化学信息的无缝整合，为机器学习模型提供了丰富的输入特征。

使用方法

在药物发现与蛋白质工程的应用场景中，本数据集的使用流程兼顾便捷性与可扩展性。用户可通过Pandas库直接加载预处理的训练与测试分割数据，快速获取结构化数据框。数据框包含八个关键字段，其中受体特征以字典形式存储蛋白质框架与角度信息，配体坐标以列表形式记录原子位置。对于高级用户，数据集支持从PDB原始档案进行手动更新：通过并行下载脚本获取最新结构数据，并利用MPI或Slurm集群环境运行解析脚本，实现大规模复合物信息的自动化提取与整合，为动态研究需求提供了灵活的数据维护方案。

背景与挑战

背景概述

蛋白质-配体复合物结构预测是计算生物学与药物发现领域的核心议题，旨在揭示生物大分子与小分子间的相互作用机制。数据集jglaser/pdb_protein_ligand_complexes由研究人员基于蛋白质数据库（PDB）构建，收录了约3.6万组独特的蛋白质序列与配体SMILES对及其复合物坐标，数据以OpenFold/AlphaFold格式存储受体特征。该资源聚焦于非常见配体筛选，通过排除分子量低于100 Da或原子数少于3的配体，以及PDB中280种最常见配体，提升了数据在药物设计中的特异性与实用性，为深度学习模型在结构预测与虚拟筛选中的应用提供了标准化基准。

当前挑战

该数据集致力于解决蛋白质-配体结合模式预测的复杂性问题，其挑战在于配体化学空间的多样性与结合位点构象的动态变化，要求模型能够精准编码三维空间相互作用。构建过程中，数据筛选面临配体标准化与去冗余的难题，需平衡结构覆盖度与数据质量；同时，从PDB原始坐标提取并统一蛋白质框架与侧链角度时，需处理异构体标注不一致与坐标缺失问题，且SMILES序列的原子坐标映射易受非原子标记干扰，增加了数据清洗与对齐的复杂性。

常用场景

经典使用场景

在计算化学与结构生物信息学领域，蛋白质-配体复合物数据集为分子对接与相互作用预测提供了关键基准。该数据集整合了约36,000个独特的蛋白质序列与配体SMILES对，并包含其复合物的三维坐标信息，特别排除了分子量低于100 Da或属于PDB中常见添加剂的配体，确保了数据的多样性与代表性。研究人员常利用其预处理的训练与测试分割，结合OpenFold/AlphaFold格式的受体特征，构建深度学习模型以模拟蛋白质与配体间的空间结合模式，从而推动药物发现中的虚拟筛选流程。

衍生相关工作

基于该数据集衍生的经典工作主要集中在深度生成模型与几何深度学习方向。例如，结合图神经网络与注意力机制的架构被开发用于预测配体结合姿态，同时生成具有优化性质的分子结构。这些研究进一步推动了如EquiBind等端到端对接工具的发展，实现了无需模板的快速结合模式预测。此外，数据集还支撑了多任务学习框架的构建，将复合物结构解析与物化性质预测相结合，拓展了计算化学方法在多功能分子设计中的边界。

数据集最近研究