five

BindingMOAD|药物设计数据集|结构基设计数据集

收藏
github2025-02-18 更新2025-02-21 收录
药物设计
结构基设计
下载链接:
https://github.com/gskcheminformatics/SBDD-benchmarking
下载链接
链接失效反馈
资源简介:
该数据集未提供具体中文描述,根据上下文推断,BindingMOAD是一个用于结构基药物设计的数据集。

The dataset, BindingMOAD, is inferred to be a collection designed for structural-based drug design.
创建时间:
2025-02-18
原始信息汇总

SBDD-benchmarking 数据集概述

数据集简介

  • 目的:评估传统和3D深度学习SBDD(Structure-Based Drug Design)方法,通过开发基准测试进行比较。
  • 评估方法:包括DiffSBDD、Pocket2Mol、LigBuilderv3和AutoGrow4四种方法。

数据集结构

  • Benchmarking_Tasks
    • 包含任务1、2、3的数据整理Jupyter笔记本。
    • 存储来自ChEMBL、PDB或BindingMOAD的基准测试数据集,按任务文件夹分类。
    • Task 0文件夹包含重新训练所需的PDB和SMILES文件。
  • Analysis_Scripts
    • 重新训练损失分析和推理评估笔记本。
  • sbdd_bench
    • 主模块,包含用于运行选定SBDD方法推理的sbdd_inference子模块和用于运行任务特定指标分析的sbdd_analysis子模块。

评估任务

  1. 盲测集性能:评估在BindingMOAD中未见的蛋白质盲测集上的性能。
  2. 选择性目标性能:评估在选择性目标(如ITK)和泛活性目标(如pan-JAK和pan-BET)上的性能。
  3. 虚拟筛选集性能:评估在COVID-19 Moonshot和CSAR 2014 HTS数据上的虚拟筛选性能。
  4. 3D配体构象分析:使用Mogul和RDKit、MOE进行药效团分析。

评估标准

  • PoseBusters指标
  • MOSES基准分数
  • PLIP相互作用
  • 任务特定的配体-残基相互作用

使用方法

  1. 重新训练和推理

    • 重新训练DiffSBDD和Pocket2Mol,模型检查点位于retrained_ckpts/{model_name}.pt
    • 推理使用sbdd_bench.sbdd_inference模块。
  2. SBDD任务分析

    • 使用envs/sbdd_analysis_env.yaml创建分析环境。
    • 安装sbdd_bench包及相关依赖(如PLIP和prot-lig-combine)。
    • 运行分析脚本run_analysis.py
  3. 完整绘图和评估

    • 使用Analysis Scripts目录中的Jupyter笔记本进行损失分析和最终性能可视化。

资源需求

方法 时间 资源
DiffSBDD 4-21:45:07 1 RTX-3090和1 A6000 GPU
Pocket2Mol 2-04:08:06 4 A6000 GPUs
AI搜集汇总
数据集介绍
main_image_url
构建方式
BindingMOAD数据集的构建,采用对SBDD(Structure-Based Drug Design)方法进行评估的框架。该数据集通过选取BindingMOAD中的蛋白质-配体复合物,基于配体相似性进行拆分,进而对DiffSBDD和Pocket2Mol等模型进行再训练,从而构建出适用于不同评估任务的子集。
特点
该数据集的特色在于,它不仅包含了用于再训练的PDBs和SMILES数据,还提供了针对不同评估任务的数据集,如针对盲蛋白质集、选择性靶点和广谱靶点的虚拟筛选集。此外,数据集还提供了多种评估指标,包括PoseBusters指标、MOSES基准分数、PLIP相互作用等,以全面评估SBDD方法的表现。
使用方法
使用该数据集,用户首先需要根据相应模型仓库的指南进行再训练,并配置conda环境。再训练完成后,用户可以利用`sbdd_bench.sbdd_inference`模块进行推理,并使用`run_inference.py`脚本来执行特定任务。针对分析,用户需创建分析环境,安装必要的依赖,并利用`run_analysis.py`脚本来处理推理结果,进行模型性能的评估和分析。
背景与挑战
背景概述
BindingMOAD数据集是在分子对接领域创建的,旨在为结构基础的药物设计(SBDD)方法提供一个评估和比较的基准。该数据集由多个研究机构合作开发,创建于近年来,以推动SBDD方法的研究和应用。主要研究人员通过深入分析蛋白质-配体相互作用,提出核心研究问题,即如何准确预测蛋白质与小分子之间的结合。BindingMOAD数据集的构建对相关领域产生了显著影响,为研究人员提供了一个可靠的资源,以评估不同SBDD方法的性能和适用性。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:首先,确保数据集的多样性和代表性,以便能够全面评估SBDD方法在不同情境下的表现;其次,数据集的构建过程中涉及大量数据处理和模型训练工作,这对计算资源提出了较高要求;最后,随着SBDD方法的不断发展,数据集需要不断更新和扩展,以适应新的评估需求。在领域问题上,BindingMOAD数据集面临的挑战是如何精确预测蛋白质与小分子的结合姿势和亲和力,这对于药物设计和疾病治疗具有重要意义。
常用场景
经典使用场景
BindingMOAD数据集作为评估结构基础上的药物设计(SBDD)方法的基准,其经典使用场景在于对DiffSBDD、Pocket2Mol、LigBuilderv3及AutoGrow4等SBDD方法进行性能评测。该数据集通过特定的任务设定,如对盲蛋白质集、选择性靶点和广谱靶点的性能评估,以及对虚拟筛选集的分析,为研究者提供了一个统一的评价框架。
解决学术问题
该数据集解决了SBDD方法在实际应用中的效果验证问题,通过提供标准化的测试任务和评价指标,如PoseBusters指标、MOSES基准分数、PLIP相互作用等,有助于学术界和产业界对SBDD方法进行客观的比较和评估,推动药物设计领域的发展。
衍生相关工作
基于BindingMOAD数据集的研究衍生出了多项相关工作,包括对3D配体构象的额外分析,以及利用RDKit和MOE进行的药效团分析,这些工作进一步扩展了数据集的应用范围,促进了药物设计领域的研究深度和广度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录