vector-institute/atom3d-lba

Name: vector-institute/atom3d-lba
Creator: vector-institute
Published: 2024-07-09 16:07:32
License: 暂无描述

Hugging Face2024-07-09 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/vector-institute/atom3d-lba

下载链接

链接失效反馈

官方服务：

资源简介：

LBA（Ligand Binding Affinity）数据集用于预测配体与其对应蛋白质的结合亲和力，基于蛋白质-配体复合物的共结晶结构。数据集从PDBBind数据库中提取，使用了2019年更新的“精炼集”，并过滤了无法通过RDKit读取的配体。最终数据集包含4,463个复合物。每个条目包含原子编号、3D坐标、实验测量的结合亲和力（pK）以及用于区分蛋白质、口袋和配体原子的掩码。数据集分为训练集、验证集和测试集，分别包含3507、466和490个样本。

The dataset is used to predict the binding affinity of ligands to their corresponding proteins based on the co-crystallized structure of the protein-ligand complex. Each entry in the dataset contains the following keys: [input_ids] (the set of atomic numbers for the protein, pocket, and ligand atoms concatenated together), [coords] (the 3D coordinates for the protein, pocket, and ligand atoms concatenated together), [label] (experimentally measured binding affinity as pK), and [token_type_ids] (a mask corresponding to which inputs_ids/coords belong to the protein, pocket, or ligand atoms). The dataset is derived from the 2019 update of the PDBBind database, containing 4,463 complexes after filtering.

提供机构：

vector-institute

原始信息汇总

LBA: Ligand Binding Affinity 数据集概述

概述

该数据集用于预测配体与相应蛋白质的结合亲和力，基于蛋白质-配体复合物的共结晶结构。预测的结合亲和力为pK值，定义为-log(Ki)或-log(Kd)，取决于哪种测量值可用。

数据集来源于PDBBind数据库（Wang et al., 2004），该数据库是一个广泛使用的蛋白质-配体复合物数据库，包含从文献中提取的实验亲和力数据。使用2019年更新的“refined set”子集，该子集基于结构和亲和力数据的质量进行筛选。经过过滤无法被RDKit读取的配体后，最终数据集包含4,463个复合物。

数据集

分割方式：
- split-by-sequence-identity-30: 同一集合中没有序列相似度超过30%的蛋白质。

格式

每个数据条目包含以下键：

input_ids: 蛋白质、口袋和配体原子的原子序数集合。
coords: 蛋白质、口袋和配体原子的3D坐标集合。
label: 实验测量的结合亲和力，以pK表示。
token_type_ids: 对应于input_ids/coords的掩码，指示哪些属于蛋白质、口袋或配体原子（0表示蛋白质，1表示口袋，2表示配体）。

引用信息

@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }

@article{wang2004pdbbind, title={The PDBbind database: Collection of binding affinities for protein- ligand complexes with known three-dimensional structures}, author={Wang, Renxiao and Fang, Xueliang and Lu, Yipin and Wang, Shaomeng}, journal={Journal of medicinal chemistry}, volume={47}, number={12}, pages={2977--2980}, year={2004}, publisher={ACS Publications} }

@article{liu2015pdb, title={PDB-wide collection of binding data: current status of the PDBbind database}, author={Liu, Zhihai and Li, Yan and Han, Li and Li, Jie and Liu, Jie and Zhao, Zhixiong and Nie, Wei and Liu, Yuchen and Wang, Renxiao}, journal={Bioinformatics}, volume={31}, number={3}, pages={405--412}, year={2015}, publisher={Oxford University Press} }

搜集汇总

数据集介绍

构建方式

该数据集名为vector-institute/atom3d-lba，其构建基于PDBBind数据库中经实验测定的蛋白质-配体复合物的晶体结构和结合亲和力数据。通过筛选结构质量和亲和力数据的质量，选取了所谓的'精炼集'的子集，并在去除RDKit无法读取的无效键合数据后，最终形成了包含4,463个复合物的数据集。数据集包含蛋白质、口袋和配体原子的原子编号序列、三维坐标以及对应的实验测定结合亲和力标签（pK值）。

特点

数据集的主要特点在于其专注于预测配体与相应蛋白质的结合亲和力，并以pK值形式表示。此外，数据集通过确保序列同源性不超过30%来减少数据集中的冗余，提高了数据集的多样性。在数据格式上，每个条目都包含了原子编号序列、三维坐标、结合亲和力标签以及输入原子类型的掩码，这些信息为模型的训练和评估提供了全面的基础。

使用方法

使用该数据集时，用户可以从HuggingFace的存储库中下载已划分好的训练集、验证集和测试集。每个数据集都包含了相应的蛋白质、口袋和配体原子的序列和坐标，以及对应的结合亲和力标签。用户可以利用这些数据对模型进行训练，以预测未知的蛋白质-配体结合亲和力。此外，数据集的配置文件提供了数据路径等信息，便于用户快速集成和使用。

背景与挑战

背景概述

在分子生物学与药物设计领域，蛋白质-配体结合亲和力的预测是至关重要的研究课题。'vector-institute/atom3d-lba'数据集的构建，旨在通过蛋白质与配体复合物的共结晶结构，预测配体与其相应蛋白质的结合亲和力。该数据集由Vector Institute的Raphael JL Townshend等研究人员于2020年创建，基于PDBBind数据库的2019年更新版'精致集'，经过严格筛选，最终包含了4463个复合物。该数据集为相关领域的研究提供了宝贵的资源，对提升药物分子设计精度与效率具有显著影响。

当前挑战

该数据集在构建与应用过程中面临的主要挑战包括：一是如何精确地预测实验测量的结合亲和力pK值，这对于药物研发至关重要；二是数据集构建中涉及到的复合物质量筛选，确保结构数据与亲和力数据的准确性；三是配体读取过程中因无效键合数据导致的过滤问题。此外，数据集在保证不同集合中蛋白质序列同源性不超过30%的条件下进行分割，以确保模型的泛化能力。

常用场景

经典使用场景

在分子建模与药物设计中，预测配体与蛋白质的结合亲和力是至关重要的步骤。vector-institute/atom3d-lba数据集为此提供了基础，其经典使用场景在于，研究者通过分析蛋白质-配体复合物的三维结构，预测实验测定的结合亲和力，从而为药物设计和筛选提供理论依据。

衍生相关工作

基于vector-institute/atom3d-lba数据集，研究者已经开展了一系列相关工作，如分子对接、药物再定位以及结合位点的识别等，这些工作进一步拓展了该数据集在生物信息学和药物化学领域的应用边界。

数据集最近研究