BindingMOAD

github2025-02-18 更新2025-02-21 收录

下载链接：

https://github.com/gskcheminformatics/SBDD-benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集未提供具体中文描述，根据上下文推断，BindingMOAD是一个用于结构基药物设计的数据集。

The dataset, BindingMOAD, is inferred to be a collection designed for structural-based drug design.

创建时间：

2025-02-18

原始信息汇总

SBDD-benchmarking 数据集概述

数据集简介

目的：评估传统和3D深度学习SBDD（Structure-Based Drug Design）方法，通过开发基准测试进行比较。
评估方法：包括DiffSBDD、Pocket2Mol、LigBuilderv3和AutoGrow4四种方法。

数据集结构

Benchmarking_Tasks
- 包含任务1、2、3的数据整理Jupyter笔记本。
- 存储来自ChEMBL、PDB或BindingMOAD的基准测试数据集，按任务文件夹分类。
- Task 0文件夹包含重新训练所需的PDB和SMILES文件。
Analysis_Scripts
- 重新训练损失分析和推理评估笔记本。
sbdd_bench
- 主模块，包含用于运行选定SBDD方法推理的sbdd_inference子模块和用于运行任务特定指标分析的sbdd_analysis子模块。

评估任务

盲测集性能：评估在BindingMOAD中未见的蛋白质盲测集上的性能。
选择性目标性能：评估在选择性目标（如ITK）和泛活性目标（如pan-JAK和pan-BET）上的性能。
虚拟筛选集性能：评估在COVID-19 Moonshot和CSAR 2014 HTS数据上的虚拟筛选性能。
3D配体构象分析：使用Mogul和RDKit、MOE进行药效团分析。

评估标准

PoseBusters指标
MOSES基准分数
PLIP相互作用
任务特定的配体-残基相互作用

使用方法

重新训练和推理
- 重新训练DiffSBDD和Pocket2Mol，模型检查点位于retrained_ckpts/{model_name}.pt。
- 推理使用sbdd_bench.sbdd_inference模块。
SBDD任务分析
- 使用envs/sbdd_analysis_env.yaml创建分析环境。
- 安装sbdd_bench包及相关依赖（如PLIP和prot-lig-combine）。
- 运行分析脚本run_analysis.py。
完整绘图和评估
- 使用Analysis Scripts目录中的Jupyter笔记本进行损失分析和最终性能可视化。

资源需求

方法	时间	资源
DiffSBDD	4-21:45:07	1 RTX-3090和1 A6000 GPU
Pocket2Mol	2-04:08:06	4 A6000 GPUs

搜集汇总

数据集介绍

构建方式

BindingMOAD数据集的构建，采用对SBDD（Structure-Based Drug Design）方法进行评估的框架。该数据集通过选取BindingMOAD中的蛋白质-配体复合物，基于配体相似性进行拆分，进而对DiffSBDD和Pocket2Mol等模型进行再训练，从而构建出适用于不同评估任务的子集。

特点

该数据集的特色在于，它不仅包含了用于再训练的PDBs和SMILES数据，还提供了针对不同评估任务的数据集，如针对盲蛋白质集、选择性靶点和广谱靶点的虚拟筛选集。此外，数据集还提供了多种评估指标，包括PoseBusters指标、MOSES基准分数、PLIP相互作用等，以全面评估SBDD方法的表现。

使用方法

使用该数据集，用户首先需要根据相应模型仓库的指南进行再训练，并配置conda环境。再训练完成后，用户可以利用`sbdd_bench.sbdd_inference`模块进行推理，并使用`run_inference.py`脚本来执行特定任务。针对分析，用户需创建分析环境，安装必要的依赖，并利用`run_analysis.py`脚本来处理推理结果，进行模型性能的评估和分析。

背景与挑战

背景概述

BindingMOAD数据集是在分子对接领域创建的，旨在为结构基础的药物设计（SBDD）方法提供一个评估和比较的基准。该数据集由多个研究机构合作开发，创建于近年来，以推动SBDD方法的研究和应用。主要研究人员通过深入分析蛋白质-配体相互作用，提出核心研究问题，即如何准确预测蛋白质与小分子之间的结合。BindingMOAD数据集的构建对相关领域产生了显著影响，为研究人员提供了一个可靠的资源，以评估不同SBDD方法的性能和适用性。

当前挑战

该数据集在构建和应用过程中面临的挑战主要包括：首先，确保数据集的多样性和代表性，以便能够全面评估SBDD方法在不同情境下的表现；其次，数据集的构建过程中涉及大量数据处理和模型训练工作，这对计算资源提出了较高要求；最后，随着SBDD方法的不断发展，数据集需要不断更新和扩展，以适应新的评估需求。在领域问题上，BindingMOAD数据集面临的挑战是如何精确预测蛋白质与小分子的结合姿势和亲和力，这对于药物设计和疾病治疗具有重要意义。

常用场景

经典使用场景

BindingMOAD数据集作为评估结构基础上的药物设计（SBDD）方法的基准，其经典使用场景在于对DiffSBDD、Pocket2Mol、LigBuilderv3及AutoGrow4等SBDD方法进行性能评测。该数据集通过特定的任务设定，如对盲蛋白质集、选择性靶点和广谱靶点的性能评估，以及对虚拟筛选集的分析，为研究者提供了一个统一的评价框架。

解决学术问题

该数据集解决了SBDD方法在实际应用中的效果验证问题，通过提供标准化的测试任务和评价指标，如PoseBusters指标、MOSES基准分数、PLIP相互作用等，有助于学术界和产业界对SBDD方法进行客观的比较和评估，推动药物设计领域的发展。

衍生相关工作

基于BindingMOAD数据集的研究衍生出了多项相关工作，包括对3D配体构象的额外分析，以及利用RDKit和MOE进行的药效团分析，这些工作进一步扩展了数据集的应用范围，促进了药物设计领域的研究深度和广度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集