PMO

arXiv2022-10-10 更新2024-07-30 收录

下载链接：

https://github.com/wenhao-gao/mol_opt

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于实际分子优化的开源基准，旨在促进分子优化算法进展的透明和可重复评估。

An open-source benchmark for real-world molecular optimization, aimed at facilitating transparent and reproducible evaluations of advancements in molecular optimization algorithms.

创建时间：

2022-06-23

原始信息汇总

mol_opt: A Benchmark for Practical Molecular Optimization

概述

名称: mol_opt
目的: 提供一个开源的实用分子优化（PMO）基准，以促进分子优化算法透明和可重复的评估。
支持算法: 25种分子设计算法
任务数量: 23个任务
重点: 样本效率（oracle调用）

安装指南

环境配置: bash conda create -n molopt python=3.7 conda activate molopt pip install torch PyTDC PyYAML conda install -c rdkit rdkit
推荐版本: PyTorch 1.10.2, PyTDC 0.3.6

方法分类

虚拟筛选:
- screening: 随机搜索ZINC数据库
- molpal: 使用分子属性预测器优先处理高分分子
遗传算法 (GA):
- graph_ga: 基于分子图
- smiles_ga: 基于SMILES
- selfies_ga: 基于SELFIES
- stoned: 基于SELFIES
- synnet: 基于合成
变分自编码器 (VAE):
- smiles_vae: 基于SMILES
- selfies_vae: 基于SELFIES
- jt_vae: 基于连接树（片段作为构建块）
- dog_ae: 基于合成
贝叶斯优化 (BO):
- gpbo
强化学习 (RL):
- reinvent
- reinvent_selfies
- reinvent_transformer
- graphinvent
- moldqn
- smiles_aug_mem
- smiles_bar
爬山算法 (HC):
- smiles_lstm_hc: SMILES级HC
- smiles_ahc: SMILES级增强HC
- selfies_lstm_hc: SELFIES级HC
- mimosa: 图级HC
- dog_gen: 合成基础HC
梯度上升 (gradient ascent):
- dst: 基于分子图
- pasithea: 基于SELFIES
基于分数的建模 (SBM):
- gflownet
- gflownet_al
- mars

运行方式

简单运行: 每个oracle的单次测试运行，默认设置
生产运行: 每个oracle使用不同随机种子的多次独立运行
调优运行: 在main/MODEL_NAME/hparam_tune.yaml中定义的搜索空间上进行超参数调优

多目标优化

实现分支: multiobjective
命令示例: bash python run.py MODEL_NAME --oracles qed+jnk3

超参数

运行超参数: 通过argparse定义
默认模型超参数: hparam_default.yaml
调优模型超参数: hparam_tune.yaml

贡献

开源项目: 欢迎更新更好的参数设置或包括您的模型在基准测试中
贡献指南: 查看Contribution Guidelines

搜集汇总

数据集介绍

构建方式

在分子优化领域，PMO基准的构建旨在填补现有评估体系中对样本效率关注的空白。该数据集通过整合23种广泛使用的单目标优化任务，涵盖了从简单启发式函数到复杂生物活性预测模型等多种类型的评估函数。构建过程中，研究者严格限制了每个优化算法的最大查询次数为10,000次，并采用ZINC 250K数据库作为统一的分子来源，确保了实验条件的一致性。所有算法均经过超参数调优，并在多个独立随机种子下运行，以降低结果的随机性偏差。

使用方法

使用PMO基准时，研究者需遵循其标准化的实验协议。首先，所有算法应在相同的最大查询次数限制下进行比较，通常设置为10,000次评估调用。其次，评估应基于曲线下面积指标，该指标同时考虑了算法在有限预算内达到高性能的能力。对于非确定性算法，必须进行多次独立运行并报告结果的分布情况。当研究环境发生变化时，需要重新进行超参数调优以适应新的任务特性。PMO的代码和数据均公开可用，研究者可以通过其GitHub仓库复现实验，并利用提供的统一环境公平比较新算法与现有方法。

背景与挑战

背景概述

分子优化是化学科学中的核心目标，对药物与材料设计至关重要。近年来，尽管在计算分子优化的多个方面取得了显著进展，但现有研究常基于自设任务或简单评估函数，缺乏对算法性能的透明、可复现比较。为此，麻省理工学院、佐治亚理工学院等机构的研究团队于2022年创建了PMO（Practical Molecular Optimization）基准数据集。该数据集聚焦于分子设计的实际应用场景，系统评估了25种算法在23个单目标优化任务上的表现，特别强调了样本效率——即评估函数（oracle）调用次数对优化效果的影响。PMO的建立填补了分子优化领域标准化评估的空白，为后续算法开发提供了可靠的性能对照基础，推动了该领域向更高效、实用的方向发展。

当前挑战

PMO数据集致力于解决分子优化领域的两大核心挑战：一是样本效率问题，即如何在有限的评估函数调用次数（如实验或高精度模拟）内高效地发现理想分子，这对降低实际研发成本至关重要；二是算法评估的标准化与可复现性挑战，包括避免使用过于简单的评估函数、控制算法随机性带来的结果波动，以及确保不同研究在相同实验设置下进行公平比较。在数据集构建过程中，研究团队还面临整合多样化评估函数、统一不同分子表示方法（如SMILES、SELFIES、图结构）以及处理超参数敏感性和非确定性算法结果稳定性等实际困难。

常用场景

经典使用场景

在计算化学与药物设计领域，PMO数据集作为一个标准化的分子优化基准，其经典使用场景在于系统评估不同分子设计算法在有限查询预算下的样本效率。该数据集通过整合23种广泛应用的分子性质评估函数（如QED、DRD2、GSK3β等），并严格限制每个算法的最大查询次数为10,000次，模拟了真实药物发现中昂贵实验或高精度模拟的成本约束。研究人员利用PMO比较各类算法——包括遗传算法、强化学习、变分自编码器等——在多样化的优化任务上的表现，从而揭示算法在样本效率与优化能力之间的权衡。

解决学术问题

PMO数据集主要解决了分子优化研究中长期存在的三个关键学术问题：一是缺乏对样本效率的系统性考量，以往研究往往忽略评估函数调用次数这一实际成本因素；二是消除了因使用简单或自定义评估函数而导致的算法比较模糊性；三是通过标准化实验设置与多次独立运行，减少了算法随机性带来的评估偏差。该数据集的意义在于为领域提供了一个透明、可重复的基准，推动研究者开发更具实用性的高效分子优化方法，并促进算法评估从单纯追求性能指标向兼顾成本效益的转变。

实际应用

在实际应用中，PMO数据集直接服务于自动化药物发现与材料设计流程。其构建的评估框架能够帮助制药企业与研究机构筛选出在有限实验预算下仍能高效探索化学空间的分子设计算法，从而加速先导化合物的发现与优化。例如，通过PMO评估的算法可以集成到虚拟筛选平台中，指导合成化学家优先测试那些通过少量计算预测即显示出高生物活性的分子候选物，显著降低早期药物研发的时间与经济成本。

数据集最近研究