five

Mechanistic Dataset

收藏
arXiv2024-03-07 更新2024-06-21 收录
下载链接:
https://github.com/jfjoung/mechanism_prediction
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建的Mechanistic Dataset是一个大规模的化学反应机制数据集,由麻省理工学院的研究团队开发。该数据集包含580万个基本反应步骤,通过应用专家制定的基本反应模板,从专利文献中提取的反应数据生成。数据集旨在训练机器学习模型,以预测反应路径和重现催化剂及试剂的作用,同时探索模型在预测杂质方面的潜力。该数据集的应用领域包括化学反应的预测和优化,以及新反应的发现。

The Mechanistic Dataset constructed in this study is a large-scale chemical reaction mechanism dataset developed by the research team at the Massachusetts Institute of Technology (MIT). This dataset contains 5.8 million elementary reaction steps, and is generated from reaction data extracted from patent literature using elementary reaction templates formulated by experts. The dataset is designed to train machine learning models for predicting reaction pathways and reproducing the roles of catalysts and reagents, while exploring the potential of such models in predicting impurities. The application scope of this dataset covers the prediction and optimization of chemical reactions, as well as the discovery of novel chemical reactions.
提供机构:
麻省理工学院
创建时间:
2024-03-07
搜集汇总
数据集介绍
main_image_url
构建方式
Mechanistic Dataset is constructed by applying expert-curated elementary reaction templates to a dataset of reactions containing only reactants and products. The expert templates, developed for the 86 most popular reaction types in the Pistachio dataset, are applied to infer the intermediates and byproducts of the reactions. The resulting dataset includes 1.3 million overall reactions and 5.8 million elementary reactions, providing a comprehensive and authentic resource for machine learning applications.
特点
The key feature of the Mechanistic Dataset is its focus on reaction mechanisms rather than just the prediction of final products. This dataset allows for the training of machine learning models that can predict intermediate products, byproducts, and side products, offering a more detailed and nuanced understanding of chemical reactions. Additionally, the dataset is based on experimentally-reported reactions from the patent literature, ensuring a broad coverage of reaction types and reactant structures.
使用方法
To utilize the Mechanistic Dataset, machine learning models are trained on the dataset to predict the next intermediate or product at the elementary reaction level. Three representative models are introduced: the Weisfeiler-Lehman difference network (WLDN), the Transformer, and Graph2SMILES. These models are designed to predict the entire sequence of elementary reactions, thereby recapitulating the roles of catalysts and reagents in the reaction pathways. The dataset is divided into training, validation, and test sets for model evaluation and performance assessment.
背景与挑战
背景概述
在化学领域中,对有机反应机制的深入理解对于反应发展、杂质预测以及反应发现等方面具有重要意义。传统的预测反应产物的方法往往依赖于实验数据和专家经验,但缺乏对反应机制的具体描述。为了克服这一局限性,研究人员开发了一种名为Mechanistic Dataset的数据集,该数据集通过将专家反应模板应用于实验报告的试剂和产物之间,推断了中间体,并训练了多个机器学习模型。该数据集包含了5,184,184个基本步骤,对于反应路径预测和催化剂及试剂作用的再现具有重要意义。
当前挑战
Mechanistic Dataset在预测反应机制方面存在一些挑战。首先,由于数据集中缺乏描述“正确”反应机制的“或至少广泛认同和合理的”数据集,因此预测反应机制面临困难。其次,构建数据集的过程中,专家反应模板的应用可能导致生成非预期的中间体或副产品。此外,Mechanistic Dataset的泛化能力也是一个挑战,尤其是在处理新反应类型时,模型的性能可能会降低。最后,由于语言模型如Transformer和Graph2SMILES在预测过程中可能违反原子守恒,这也限制了Mechanistic Dataset的应用范围。
常用场景
经典使用场景
Mechanistic Dataset 是一个基于机器学习的有机化学反应机理预测数据集,它通过专家反应模板来推断实验报告的试剂和产品之间的中间体,并在此基础上训练机器学习模型。该数据集包含超过 580 万个基础反应步骤,涵盖了从反应物到产物的详细路径。其经典的使用场景包括预测反应途径、复现催化剂和试剂的作用,以及预测反应中的杂质。这些功能对于反应开发、杂质预测和反应发现具有重要意义。
衍生相关工作
Mechanistic Dataset 的出现促进了机理预测模型的发展,衍生出了一系列相关的工作。例如,基于该数据集,研究人员开发了一系列机器学习模型,包括图神经网络模型、序列模型和图到序列模型,这些模型在预测反应途径和复现催化剂和试剂的作用方面取得了良好的效果。此外,Mechanistic Dataset 还被用于预测反应中的杂质,为反应优化和杂质控制提供了新的思路。
数据集最近研究
最新研究方向
本研究引入了名为Mechanistic Dataset的新数据集,旨在通过机器学习模型重现反应机理。研究者们通过将专家反应模板应用于包含反应物和产物的反应数据集中,构建了包含5,184,184个基本步骤的数据集,并训练了多个机器学习模型。这些模型被用于探索其预测反应途径和重述催化剂和试剂角色的能力,并展示了其在预测杂质方面的潜力,这是传统模型常常忽略的。此外,研究者还评估了这些机理模型对新反应类型的泛化能力,揭示了数据集多样性、连续预测和原子守恒规则违反等方面的挑战。本研究为化学领域中的反应机理理解和预测提供了新的视角,并为未来机理模型的发展指明了方向。
相关研究论文
  • 1
    Beyond Major Product Prediction: Reproducing Reaction Mechanisms with Machine Learning Models Trained on a Large-Scale Mechanistic Dataset麻省理工学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作