five

higher-level route and reaction datasets

收藏
github2025-02-26 更新2025-02-13 收录
下载链接:
https://github.com/jihye-roh/higherlev_retro
下载链接
链接失效反馈
官方服务:
资源简介:
高阶路线和反应数据集,用于计算机辅助逆合成规划的研究项目。

High-order Route and Reaction Dataset for research projects on computer-aided retrosynthesis planning
创建时间:
2025-01-28
原始信息汇总

高层次计算机辅助逆合成策略数据集

概述

本数据集包含用于生成高层次路线和反应数据集的脚本,这些脚本位于dataset_curation/目录中。用于部署和运行带ASKCOS的合成计划的脚本位于ASKCOSv2/目录中。所有示例脚本都位于examples/目录。

数据

  • 数据集可通过此链接获取。
  • datasets.zip:本项目中的数据集筛选管道依赖于使用NameRXN软件生成的分类和原子映射反应数据,我们无法发布。我们发布的是通过此管道生成的反应和路线数据集。
  • template_relevance_models_and_data.zip:包含部署ASKCOS和运行合成计划所需的所有文件,包括本项目使用的四个单步模型的.mar文件、带有价格信息的buyables文件以及不需要用于部署的反应分割、模板和模型检查点。
  • higher-level_consol_model_and_data.zip:包含部署ASKCOS和仅使用高层次单步模型(具有模板合并)运行合成计划所需的文件。

数据集生成

环境设置

shell $ cd higherlev_retro $ conda env create -f environment.yml $ conda activate higherlev_retro $ pip install -e rdchiral

高层次路线/反应数据集生成

shell $ sh scripts/00_generate_higher-level_dataset.sh

生成的数据将保存为data/routes/uspto.routes.jsonl.gzdata/reactions/uspto_original.csvdata/reactions/uspto_higher-level.csv

高层次路线生成

Python from datastructs.abs_tree import AbsTree

示例代码,具体内容省略

模型训练

使用data/reactions/uspto_higher-level.csv训练新模板相关性模型: shell $ cd ASKCOSv2/retro/template_relevance/ $ sh scripts/benchmark.sh $ cd ../../../

ASKCOS部署与使用

数据下载

  • 下载template_relevance_models_and_data.ziphigher-level_consol_model_and_data.zip并解压到相应目录。

ASKCOS部署

shell $ cd ASKCOSv2/askcos2_core $ conda activate higherlev_retro $ make deploy $ cd ../../

合成计划运行

  • 单步逆合成示例: shell $ python examples/run_retro_query.py --model_name=uspto_higher-level_consol --max_num_templates=25 --max_cum_prob=1.0 --data=example

  • 多步合成计划示例: shell $ python examples/run_mcts_query.py --model_name=uspto_higher-level_consol --max_depth=8 --max_num_templates=25 --num_workers=1 --data=example

ASKCOS停止与重启

shell $ cd ASKCOSv2/askcos2_core $ make stop $ cd ../../

重启命令

$ cd ASKCOSv2/askcos2_core $ make update $ cd ../../

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要依赖于NameRXN软件生成的分类和原子映射反应数据。首先,通过反应处理、多步骤(原始)路线提取和高级路线生成,构建出高层次的路线和反应数据集。具体而言,项目中的脚本使用示例反应文件`data/reactions/uspto.reactions.example.json.gz`来生成原始和高级别的反应/路线数据集,并将结果保存为`data/routes/uspto.routes.jsonl.gz`和`data/reactions/uspto_original.csv`、`data/reactions/uspto_higher-level.csv`。
特点
此数据集的特点在于其数据来源于经过分类和原子映射处理的化学反应,且包含了由NameRXN软件生成的反应数据,尽管这些原始数据无法公开。释放的数据集是由此流程生成的反应和路线数据,其中包括了高层次的反应和路线信息,适用于计算机辅助逆合成策略的研究与开发。此外,数据集还提供了训练新模板相关性模型的可能。
使用方法
使用该数据集首先需要设置运行环境,通过激活conda环境并安装必要的包来准备。之后,可以通过运行提供的脚本生成高级别的数据集,例如使用`scripts/00_generate_higher-level_dataset.sh`脚本来处理反应数据并生成路线。此外,还可以直接从多步骤路线生成高级别路线,或使用预训练的模型进行模板相关性分析。具体的使用方法在README文件中提供了详细的步骤和示例。
背景与挑战
背景概述
higher-level route and reaction datasets数据集的创建,旨在推动计算机辅助逆合成策略的高层次研究。该数据集由相关领域的研究人员开发,并在化学信息学领域具有重要的影响力。该数据集的创建时间为近期,研究人员依托NameRXN软件,生成了分类和原子映射的反应数据,进而在这些数据的基础上构建了高层次路线和反应数据集。这些数据集对于计算机辅助合成规划的研究具有重要意义,为相关算法的改进提供了丰富的实验材料。
当前挑战
在构建higher-level route and reaction datasets数据集的过程中,研究人员面临了诸多挑战。首先,如何精确地进行原子映射是数据集构建中的一个关键问题。其次,由于数据集中涉及的反应类型多样,构建统一的高层次路线抽象模型也是一个难点。此外,数据集在生成过程中,如何确保数据的质量和一致性,以及如何高效地处理大规模数据,都是数据集构建过程中需要解决的问题。在研究领域问题方面,该数据集主要解决的是计算机辅助逆合成中的高层次规划问题,如何有效地从目标分子反向规划到起始材料,是这一领域面临的主要挑战。
常用场景
经典使用场景
在化学合成领域中,该数据集的经典使用场景是进行计算机辅助逆合成分析,旨在通过高级策略简化合成路线的规划过程,进而提高合成设计的效率和准确性。
解决学术问题
该数据集解决了传统逆合成分析中合成路线复杂、计算成本高的问题,通过提供高层次的反应和路线数据,使得研究者能够快速识别出潜在的合成路径,降低了学术研究的门槛,提高了研究效率。
衍生相关工作
基于该数据集,衍生出了多项相关工作,如使用机器学习算法对合成路线进行优化,开发更加智能的逆合成规划工具,以及将数据集应用于实际的药物设计和合成中,推动了化学合成领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作