higher-level route and reaction datasets
收藏高层次计算机辅助逆合成策略数据集
概述
本数据集包含用于生成高层次路线和反应数据集的脚本,这些脚本位于dataset_curation/目录中。用于部署和运行带ASKCOS的合成计划的脚本位于ASKCOSv2/目录中。所有示例脚本都位于examples/目录。
数据
- 数据集可通过此链接获取。
datasets.zip:本项目中的数据集筛选管道依赖于使用NameRXN软件生成的分类和原子映射反应数据,我们无法发布。我们发布的是通过此管道生成的反应和路线数据集。template_relevance_models_and_data.zip:包含部署ASKCOS和运行合成计划所需的所有文件,包括本项目使用的四个单步模型的.mar文件、带有价格信息的buyables文件以及不需要用于部署的反应分割、模板和模型检查点。higher-level_consol_model_and_data.zip:包含部署ASKCOS和仅使用高层次单步模型(具有模板合并)运行合成计划所需的文件。
数据集生成
环境设置
shell $ cd higherlev_retro $ conda env create -f environment.yml $ conda activate higherlev_retro $ pip install -e rdchiral
高层次路线/反应数据集生成
shell $ sh scripts/00_generate_higher-level_dataset.sh
生成的数据将保存为data/routes/uspto.routes.jsonl.gz、data/reactions/uspto_original.csv和data/reactions/uspto_higher-level.csv。
高层次路线生成
Python from datastructs.abs_tree import AbsTree
示例代码,具体内容省略
模型训练
使用data/reactions/uspto_higher-level.csv训练新模板相关性模型:
shell
$ cd ASKCOSv2/retro/template_relevance/
$ sh scripts/benchmark.sh
$ cd ../../../
ASKCOS部署与使用
数据下载
- 下载
template_relevance_models_and_data.zip或higher-level_consol_model_and_data.zip并解压到相应目录。
ASKCOS部署
shell $ cd ASKCOSv2/askcos2_core $ conda activate higherlev_retro $ make deploy $ cd ../../
合成计划运行
-
单步逆合成示例: shell $ python examples/run_retro_query.py --model_name=uspto_higher-level_consol --max_num_templates=25 --max_cum_prob=1.0 --data=example
-
多步合成计划示例: shell $ python examples/run_mcts_query.py --model_name=uspto_higher-level_consol --max_depth=8 --max_num_templates=25 --num_workers=1 --data=example
ASKCOS停止与重启
shell $ cd ASKCOSv2/askcos2_core $ make stop $ cd ../../
重启命令
$ cd ASKCOSv2/askcos2_core $ make update $ cd ../../




