LP-PDBBind, BDB2020+

arXiv2024-05-03 更新2024-06-24 收录

下载链接：

https://github.com/THGLab/LP-PDBBind/

下载链接

链接失效反馈

官方服务：

资源简介：

LP-PDBBind是一个经过清理的非共价结合剂数据集，分为训练、验证和测试集，以控制数据泄露，即具有高序列和结构相似性的蛋白质和配体。BDB2020+是一个新的独立数据集，通过匹配BindingDB中的高质量结合自由能与自2020年以来存档的PDB中的共结晶配体-蛋白质复合物。

LP-PDBBind is a curated dataset of non-covalent binders, partitioned into training, validation, and test sets to control data leakage caused by proteins and ligands with high sequence and structural similarity. BDB2020+ is a novel independent dataset constructed by matching high-quality binding free energies from BindingDB with co-crystallized ligand-protein complexes archived in the PDB since 2020.

创建时间：

2023-08-18

搜集汇总

数据集介绍

构建方式

在蛋白质-配体结合亲和力预测领域，数据泄露问题长期困扰着模型的泛化能力评估。LP-PDBBind数据集的构建旨在解决这一挑战，通过对PDBBind数据集进行系统性重组与清洗。研究团队首先剔除了共价结合的配体-蛋白质复合物，并过滤了含有罕见化学元素的分子以及存在空间冲突的低质量结构。随后，基于蛋白质序列相似性和配体化学指纹相似性，采用迭代式分割策略，将数据划分为训练集、验证集和测试集，确保各集合间蛋白质序列相似度低于0.5、配体相似度低于0.99，从而有效遏制了数据泄露风险。

特点

LP-PDBBind数据集的核心特点在于其严谨的防泄露设计。该数据集通过严格控制训练集与测试集之间的蛋白质和配体相似性，显著降低了模型因记忆相似样本而导致的性能高估。此外，数据集提供了多个清洁级别（CL1-CL3），用户可根据需求在数据规模与质量间进行权衡。配套的BDB2020+基准集进一步增强了评估的独立性，该集合源自2020年后发布的BindingDB数据，并经过严格的结构匹配与相似性过滤，为模型泛化能力提供了更为可靠的检验平台。

使用方法

该数据集适用于训练和评估蛋白质-配体结合亲和力预测模型。用户可首先下载LP-PDBBind中不同清洁级别的数据分割文件，依据研究目标选择合适的集合进行模型训练。在训练过程中，建议使用CL1级别数据以平衡数据规模与质量，而验证与测试则采用CL2级别以确保结合亲和力数据的可靠性。为全面评估模型性能，可进一步在独立的BDB2020+基准集以及针对特定靶点（如SARS-CoV-2 Mpro和EGFR）构建的数据集上进行测试，从而系统考察模型在未知复合物上的泛化能力与排名准确性。

背景与挑战

背景概述

在计算药物发现领域，准确预测蛋白质-配体结合亲和力是开发新型药物的核心挑战。PDBBind数据集作为该领域的重要基准，自2004年发布以来，由中国科学院等机构的研究人员持续维护，汇集了来自蛋白质数据库（PDB）的蛋白质-配体复合物结构及其实验测定的结合亲和力数据。该数据集旨在为经典评分函数和机器学习评分函数的训练与评估提供标准化平台，其通用集、精炼集和核心集的划分在历史上推动了结合亲和力预测模型的快速发展。然而，随着机器学习模型的广泛应用，数据泄露问题逐渐凸显，即训练集与测试集之间存在高度相似的蛋白质或配体，导致模型在评估时表现虚高，难以反映其在新复合物上的真实泛化能力。为此，加州大学伯克利分校的Teresa Head-Gordon团队于2024年提出了LP-PDBBind数据集，通过重组PDBBind数据并引入严格的相似性控制，旨在构建一个无数据泄露的数据集，以更准确地评估评分函数在新蛋白质-配体系统上的预测性能。

当前挑战

LP-PDBBind数据集面临的挑战主要源于其旨在解决的核心问题：蛋白质-配体结合亲和力预测中的泛化能力评估。传统PDBBind数据集因训练集与测试集之间的交叉污染，导致模型在相似复合物上表现优异，但在新复合物上泛化不足。构建LP-PDBBind时，研究团队需克服多重挑战：首先，在数据清洗阶段，需剔除共价结合复合物、低质量结构及罕见元素配体，以确保数据的一致性与可靠性；其次，在数据划分过程中，必须同时控制蛋白质序列相似性和配体化学相似性，避免训练集与测试集之间的隐性关联，这涉及复杂的相似性计算与迭代分割算法。此外，为提供独立基准，团队还需构建BDB2020+数据集，从BindingDB中匹配2020年后的高质量结合数据，并确保其与PDBBind无重叠，这一过程需处理结构匹配、键序重分配及序列对齐等技术难题。这些挑战共同指向了构建更公平、更泛化基准数据集的核心需求。

常用场景

经典使用场景

在计算药物发现领域，LP-PDBBind和BDB2020+数据集被广泛用于训练和评估蛋白质-配体结合亲和力预测模型。该数据集通过严格的数据清洗和分割策略，有效控制了训练集与测试集之间的序列和结构相似性，从而为机器学习评分函数提供了更为可靠的基准测试平台。经典使用场景包括对AutoDock Vina、InteractionGraphNet、RF-Score及DeepDTA等代表性评分函数进行再训练与性能验证，确保模型在面对新型蛋白-配体复合物时具备更强的泛化能力。

实际应用

在实际药物研发流程中，LP-PDBBind和BDB2020+数据集为虚拟筛选和先导化合物优化提供了关键支持。基于该数据集训练的评分函数能够更精准地预测未知蛋白靶点与候选分子之间的结合自由能，加速苗头化合物的发现与验证。例如，在针对SARS-CoV-2主要蛋白酶和表皮生长因子受体的抑制剂筛选中，再训练后的模型展现出优异的排名能力，显著提升了实验验证的成功率，体现了其在抗病毒和抗癌药物设计中的实用价值。

衍生相关工作

该数据集的构建催生了一系列围绕蛋白质-配体相互作用预测的衍生研究。基于LP-PDBBind的再训练框架被扩展至更多先进评分函数，如PIGNet、RTMScore和GIGN等图神经网络模型，进一步提升了结合亲和力预测的精度。同时，BDB2020+作为独立测试集已成为评估模型泛化能力的新标准，促进了时间分割、骨架分割等数据防泄漏策略的深入探讨，为构建更稳健的计算药物发现流程奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集