DecoyDB
收藏arXiv2025-07-09 更新2025-07-11 收录
下载链接:
https://github.com/spatialdatasciencegroup/DecoyDB, https://huggingface.co/datasets/YupuZ/Decoy_DB
下载链接
链接失效反馈官方服务:
资源简介:
DecoyDB是一个大规模的、结构感知的数据集,专为蛋白质-配体复合物的自监督图对比学习而设计。该数据集由高分辨率真实3D复合物和多样化的诱饵结构组成,诱饵结构具有计算生成的结合姿势,范围从真实的(正对)到次优的(负对)。DecoyDB包含61104个真实3D复合物和5353307个诱饵,每个诱饵都标注了与原始姿势的均方根偏差(RMSD)。此外,还设计了一个定制的图对比学习算法,以基于DecoyDB对图神经网络进行预训练,并使用PDBbind的标签对模型进行微调。实验证明,使用DecoyDB预训练的模型在预测准确性、样本学习效率和泛化能力方面都有显著提升。
DecoyDB is a large-scale, structure-aware dataset specifically designed for self-supervised graph contrastive learning of protein-ligand complexes. This dataset comprises high-resolution experimentally determined 3D complexes and diverse decoy structures, where the decoys feature computationally generated binding poses ranging from native (positive pairs) to suboptimal (negative pairs). DecoyDB contains 61,104 authentic 3D complexes and 5,353,307 decoys, with each decoy annotated with the root-mean-square deviation (RMSD) relative to the native binding pose. Furthermore, a customized graph contrastive learning algorithm was developed to pre-train graph neural networks using DecoyDB, followed by fine-tuning the model with labels from PDBbind. Experimental results have shown that models pre-trained with DecoyDB exhibit substantial improvements in prediction accuracy, sample learning efficiency, and generalization capability.
提供机构:
佛罗里达大学计算机科学与信息科学系、佛罗里达大学药物化学系
创建时间:
2025-07-09
搜集汇总
数据集介绍

构建方式
在蛋白质-配体结合亲和力预测领域,数据集的构建对于推动自监督学习的发展至关重要。DecoyDB数据集的构建过程始于从蛋白质数据库(PDB)中筛选高分辨率(≤2.5Å)的蛋白质-配体复合物,并通过严格的分子量范围和元素组成过滤确保数据质量。随后,利用AutoDock Vina程序为每个复合物生成多样化的诱饵结构,这些诱饵通过计算模拟产生,覆盖了从接近天然构象到明显偏离的广泛范围。每个诱饵均标注了与天然构象的均方根偏差(RMSD),从而为对比学习提供了丰富的正负样本对。最终数据集包含61,104个真实复合物和5,353,307个诱饵,为模型预训练提供了坚实的结构基础。
特点
DecoyDB的突出特点在于其规模化和结构多样性。作为目前最大的蛋白质-配体复合物数据集之一,其诱饵结构的RMSD值跨度从0.03Å到25.56Å,系统性地涵盖了结合构象的空间分布谱系。数据集中每个真实复合物平均对应88个计算生成的诱饵,这种高密度采样确保了模型能够学习到精细的构效关系。特别设计的连续RMSD标注机制突破了传统二值化负样本的局限,使模型能够感知不同程度的构象偏离。此外,严格的分辨率筛选和冗余控制保障了数据的生物学合理性,而独立于PDBbind的数据来源有效避免了预训练与微调阶段的数据泄露问题。
使用方法
该数据集的核心应用在于支持基于图对比学习的预训练框架。研究人员首先利用DecoyDB中的天然构象与诱饵构象构建对比学习任务,通过定制的二分类InfoNCE损失函数同时优化连续负样本(不同RMSD的诱饵)和离散负样本(不同复合物)的表示。结合去噪分数匹配正则化技术,模型能够捕捉蛋白质-配体结合的能量最小化特性。预训练完成后,可通过迁移学习将模型微调应用于PDBbind等标注数据集上的亲和力预测任务。实验表明,这种预训练策略能显著提升基础模型在预测精度、样本效率和泛化能力方面的表现,尤其在小样本场景下优势更为明显。
背景与挑战
背景概述
DecoyDB数据集由佛罗里达大学的研究团队于2025年提出,旨在解决药物发现领域中蛋白质-配体结合亲和力预测的关键问题。该数据集针对现有标记数据稀缺的瓶颈(如PDBbind仅含不足2万标记复合物),创新性地构建了包含6.1万高分辨率真实复合物及535万计算生成诱饵结构的大规模资源。其核心突破在于通过结晶学分辨率≤2.5Å的严格筛选,结合AutoDock Vina生成的多样化结合构象,为图对比学习提供了具有连续RMSD标注的正负样本对。该数据集显著拓展了自监督学习在分子相互作用建模中的应用边界,为提升深度学习模型的样本效率和泛化能力奠定了新的基准。
当前挑战
该领域面临双重挑战:在科学问题层面,传统方法受限于标记数据规模与计算成本,而现有图对比学习技术因随机扰动会破坏分子物化约束;在数据集构建层面,需解决高分辨率结构筛选、生化合理性保障及大规模诱饵生成等难题。DecoyDB通过三个关键技术应对:1) 建立晶体结构质量控制系统,2) 开发基于能量最小化原理的构象采样算法,3) 设计包含连续负样本的对比损失函数。特别地,需精确平衡诱饵结构的多样性(RMSD 0.03-25.56Å)与生化合理性,避免生成违反立体化学规则的无效样本。
常用场景
经典使用场景
DecoyDB数据集在蛋白质-配体结合亲和力预测领域具有广泛的应用。该数据集通过提供大量高质量的未标记蛋白质-配体复合物及其计算生成的诱饵结构,为自监督学习尤其是图对比学习(GCL)提供了丰富的数据支持。研究人员可以利用DecoyDB预训练图神经网络模型,随后在少量标记数据上进行微调,从而显著提升模型的预测性能。
解决学术问题
DecoyDB解决了蛋白质-配体结合亲和力预测中的两个关键学术问题:一是缺乏大规模高质量的标记数据,二是缺乏定义明确的正负样本对用于对比学习。通过提供61,104个高分辨率3D复合物和5,353,307个诱饵结构,DecoyDB填补了这一空白,使得基于自监督学习的模型能够更好地捕捉蛋白质-配体相互作用的空间结构特征。
衍生相关工作
DecoyDB的推出催生了一系列相关研究工作,尤其是在图对比学习和蛋白质-配体相互作用预测领域。例如,基于DecoyDB的定制化GCL框架在多个基准测试中表现出色,显著提升了基础模型的预测精度和泛化能力。此外,DecoyDB还被用于改进分子对接算法和虚拟筛选工具,进一步推动了计算药物发现的发展。
以上内容由遇见数据集搜集并总结生成



