five

GenBench3D

收藏
arXiv2024-07-05 更新2024-07-09 收录
下载链接:
https://github.com/bbaillif/genbench3d
下载链接
链接失效反馈
官方服务:
资源简介:
GenBench3D数据集由剑桥大学尤斯夫·哈米德化学系和剑桥晶体数据中心共同创建,专注于评估三维分子生成模型的性能。该数据集包含多达10,000条数据,主要用于分析分子构象的有效性。数据集的创建过程结合了剑桥结构数据库中的参考值,通过评估分子键长和键角的合理性来确保分子构象的质量。GenBench3D主要应用于药物设计领域,特别是结构基于的药物设计,旨在优化分子在特定结合口袋中的构象和亲和力。

GenBench3D dataset was jointly developed by the Yusuf Hamied Department of Chemistry at the University of Cambridge and the Cambridge Crystallographic Data Centre, focusing on evaluating the performance of 3D molecular generative models. It comprises up to 10,000 entries and is primarily used for analyzing the validity of molecular conformations. The dataset is constructed using reference values from the Cambridge Structural Database, and the quality of molecular conformations is ensured by assessing the rationality of molecular bond lengths and bond angles. GenBench3D is mainly applied in the field of drug design, especially structure-based drug design, aiming to optimize the conformation and binding affinity of molecules in specific binding pockets.
提供机构:
剑桥大学尤斯夫·哈米德化学系,剑桥晶体数据中心
创建时间:
2024-07-05
原始信息汇总

GenBench3D 数据集概述

数据集描述

GenBench3D 是一个用于评估深度学习模型生成三维分子的基准数据集。该数据集包含了对6种模型的评估结果,并提供了详细的 Validity3D 等指标的计算方法。相关详细信息和结果可在arxiv上查阅。

主要要求

  • Python > 3.9
  • RDKit > 2022.09
  • openbabel
  • vina
  • ADFRsuite
  • meeko
  • mdanalysis
  • PDBFixer
  • Schrodinger Glide CLI(可选)
  • csd python api(可选)

安装步骤

  1. 下载并安装环境: bash git clone https://github.com/bbaillif/genbench3d.git cd genbench3d conda env create -f environment.yml conda activate genbench3d pip install -e .

  2. 选择参考3D数据源:

    • LigBoundConf PDB子集(最小化版本):公开可用,下载链接
    • CSD Drug:用于论文中,需要访问CSD数据和CSD Python API,下载链接
    • MolList:任何RDKit分子列表。
  3. 下载CrossDocked数据集:

    • 原始CrossDocked v1.1数据集下载链接
    • 处理过的CrossDocked数据集下载链接
  4. 修改配置文件中的数据源和可执行文件路径。

基本使用

  • 示例脚本: bash python sb_benchmark_mols.py -c config/default.yaml -i examples/pocket2mol_generated_2z3h.sdf -o results_pocket2mol_generated_2z3h.json -p test_set/BSD_ASPTE_1_130_0/2z3h_A_rec.pdb -n test_set/BSD_ASPTE_1_130_0/2z3h_A_rec_1wn6_bst_lig_tt_docked_3.sdf --do_conf_analysis

  • 参数说明:

    • -i:输入SDF文件路径。
    • -o:输出JSON文件路径。
    • -p:蛋白质目标PDB文件路径。
    • -n:原生配体文件路径。
    • --do_conf_analysis:计算所有指标。

复现论文结果

  • 下载论文使用的数据集:figshare

脚本编写

  • 加载配置文件: python import yaml config_path = config/default.yaml config = yaml.safe_load(open(config_path, r))

  • 设置参考几何: python from genbench3d.data.source import SDFSource, MolListSource from genbench3d.geometry import ReferenceGeometry ligboundconf_name = LigBoundConf ligboundconf_path = config[data][ligboundconf_path] source = SDFSource(ligands_path=ligboundconf_path, name=ligboundconf_name) reference_geometry = ReferenceGeometry(source=source, root=config[benchmark_dirpath], minimum_pattern_values=config[genbench3d][minimum_pattern_values])

  • 计算所有指标: python from genbench3d import GenBench3D benchmark = GenBench3D(reference_geometry=reference_geometry, config=config[genbench3d]) results = benchmark.get_results_for_mol_list(mol_list)

实现指标

基于拓扑图的指标

指标 定义
Validity2D RDKit解析的分子的比例
Uniqueness2D 基于SMILES的唯一分子比例
Novelty2D 训练集中不存在的分子比例
Diversity2D 摩根指纹的平均不相似度
环大小比例 观察到的环大小的分布
分子量(MW) 分子量
logP 使用RDKit计算
SAScore 使用RDKit实现
QED 使用RDKit实现

基于分子3D构象的指标

指标 定义
Validity3D 基于CSD Drug Subset的键长和键角的有效性
Uniqueness3D 基于TFD的唯一构象比例
Novelty3D 训练集中不存在的构象比例
Diversity3D 基于TFD的平均构象偏差
MMFF94s应变能 使用RDKit计算

基于口袋的指标

指标 定义
空间冲突 与蛋白质冲突的分子比例
口袋外 分子中心与原生配体中心距离10埃以上的比例
绝对Vina分数 使用Vina Python包
相对Vina分数 使用Vina Python包
绝对Gold PLP分数 使用CSD Python API
相对Gold PLP分数 使用CSD Python API
绝对Glide分数 需要Schrodinger Glide命令行接口
相对Glide分数 需要Schrodinger Glide命令行接口
搜集汇总
数据集介绍
main_image_url
构建方式
GenBench3D 数据集的构建旨在评估基于三维结构的分子生成模型的质量。该数据集的核心是 Validity3D 指标,该指标通过比较生成分子中的键长和键角与剑桥结构数据库中观察到的参考值,来评估分子构象的质量。此外,该数据集还考虑了分子内立体冲突和芳香环的扁平性。为了评估生成分子的结合亲和力,GenBench3D 使用了 Vina、Glide 和 Gold PLP 分数来估计绝对和相对亲和力。
特点
GenBench3D 数据集的特点在于其对三维分子生成模型的全面评估。它不仅考虑了分子图的合理性,还深入到了三维构象的几何学质量。该数据集的 Validity3D 指标是一个创新,它基于实际的结构数据来评估分子构象的合理性,而不是依赖于理想的规则。此外,GenBench3D 还包括了对接分数的评估,这些分数是在没有对接步骤的情况下直接计算的,从而更准确地反映了模型的真实输出。
使用方法
GenBench3D 数据集的使用方法包括生成分子图和三维构象的质量评估,以及结合亲和力的估计。用户可以使用 Validity3D 指标来评估生成分子的构象质量,并通过 Vina、Glide 和 Gold PLP 分数来估计分子的结合亲和力。此外,GenBench3D 还提供了对接分数的相对评估,即与已知配体的分数进行比较。用户可以根据这些评估结果来选择最优的生成模型,并为结构基础药物设计生成新的活性分子。
背景与挑战
背景概述
GenBench3D数据集旨在评估基于三维结构的分子生成模型。该数据集由Benoit Baillif、Jason Cole、Patrick McCabe和Andreas Bender等研究人员在2023年创建,隶属于英国剑桥大学的Yusuf Hamied化学系和剑桥晶体学数据中心。GenBench3D的主要研究问题在于如何有效地评估和比较3D分子生成模型,尤其是在结构基础药物设计中,模型生成的分子是否符合三维结构的真实性。该数据集的创建对于推动3D分子生成模型的发展,以及提高其在药物设计中的应用效果具有重要意义。
当前挑战
GenBench3D数据集面临的主要挑战包括:1)所解决的领域问题的挑战:如何确保生成的分子在三维结构上具有真实性,包括键长和键角的合理性,以及避免分子内部和分子与蛋白质口袋之间的空间冲突。2)构建过程中所遇到的挑战:如何设计有效的评估指标,如Validity3D,来量化分子结构的真实性,以及如何使用多种评分函数来评估分子与蛋白质口袋的结合亲和力。此外,还需要考虑模型生成的分子是否与已知分子具有相似性,以及如何提高生成的分子的多样性和新颖性。
常用场景
经典使用场景
GenBench3D数据集被广泛用于评估基于结构的3D分子生成模型的质量。它通过提供一个统一的基准,允许研究人员比较不同模型的性能,特别是在生成具有良好结合亲和力的分子方面。该数据集的经典使用场景包括评估分子的几何有效性、独特性、新颖性和多样性,以及预测分子的结合亲和力。
解决学术问题
GenBench3D数据集解决了3D分子生成模型评估中的关键问题。传统的基准测试主要针对SMILES或分子图生成器,如GuacaMol或MOSES,而GenBench3D则专注于评估3D生成模型的质量,特别是分子的几何有效性。该数据集引入了Validity3D指标,该指标基于剑桥结构数据库中的参考值,评估了分子构象的质量。此外,GenBench3D还通过使用Vina、Glide和Gold PLP评分函数来估计绝对和相对亲和力,为评估分子的结合亲和力提供了更全面的方法。
衍生相关工作
GenBench3D数据集的衍生相关工作包括PoseBusters和PoseCheck等基准测试。这些基准测试旨在评估深度学习方法的输出,以确保生成的分子符合物理和化学原理。此外,GenBench3D数据集还促进了3D分子生成模型的发展,如LiGAN、3D-SBDD、Pocket2Mol、TargetDiff、DiffSBDD和ResGen等模型。这些模型在GenBench3D数据集上的表现表明,它们在生成具有良好结合亲和力的分子方面具有巨大潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作