PMechDB

Name: PMechDB
Creator: 加州大学欧文分校
Published: 2025-04-22 10:31:23
License: 暂无描述

arXiv2025-04-22 更新2025-04-24 收录

下载链接：

http://arxiv.org/abs/2504.15539v1

下载链接

链接失效反馈

官方服务：

资源简介：

PMechDB是一个由加州大学欧文分校计算机科学与化学系创建的化学数据集，包含约13000个经过有机化学家团队手动验证的极性基本反应步骤。这些反应步骤不仅平衡且部分原子映射，旨在为机器学习模型提供具有化学严谨性的训练基础。数据集通过收集化学文献和教科书中的反应条目并进行手动编纂而构建，用于预测极性反应机制，推动合成化学领域的创新。

PMechDB is a chemical dataset developed by the Departments of Computer Science and Chemistry at the University of California, Irvine. It contains approximately 13,000 elementary polar reaction steps manually validated by a team of organic chemists. These reaction steps are both balanced and partially atom-mapped, serving as a chemically rigorous training foundation for machine learning models. The dataset was constructed by collecting reaction entries from chemical literature and textbooks and performing manual curation, with the purpose of predicting polar reaction mechanisms and promoting innovation in the field of synthetic chemistry.

提供机构：

加州大学欧文分校

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

PMechDB数据集的构建采用了多源数据整合与人工验证相结合的科学方法。研究团队通过系统收集化学文献和教材中的极性基元反应步骤，构建了约13,000个经过原子映射平衡和化学家团队人工验证的反应条目。为进一步扩展数据覆盖范围，创新性地引入了约4,800万个组合生成的质子转移反应，这些反应通过酸碱配对和速率常数计算进行合理性筛选。数据集采用80/10/10的比例随机划分为训练集、验证集和测试集，并额外构建了包含350个机理路径的人类基准数据集用于模型评估。

特点

该数据集最显著的特征在于其独特的机理级反应表示方式，将化学反应分解为展示电子流动的极性基元步骤。所有反应条目均保持严格的原子平衡，并包含部分原子映射信息，这为机器学习模型提供了精确的化学约束。数据集涵盖广泛的有机反应类型，包含15种常见原子的分布，其中碳、氧、氮原子出现频率最高。相较于传统USPTO数据集，PMechDB通过机理注释和平衡反应的特点，为模型训练提供了更具化学严谨性的基础。

使用方法

PMechDB数据集支持多种先进的机器学习架构应用。用户可通过基于Transformer的序列到序列模型（如Chemformer）或基于图神经网络的模型（如Graph2SMILES）进行端到端反应预测。对于需要更高解释性的场景，推荐采用两步预测法：先识别反应位点，再枚举可能的反应机理。数据集特别适合用于训练混合模型架构，如将Transformer模型与Siamese网络结合，既能保持预测准确性，又能过滤化学不合理的产物。研究团队还提供了在线接口，支持用户进行单步预测和多步路径搜索等任务。

背景与挑战

背景概述

PMechDB数据集由加州大学欧文分校的Ryan J. Miller、Pierre Baldi等学者于2024年创建，旨在解决化学反应预测中的机制可解释性问题。该数据集包含约13,000个经过化学家手动验证的极性基元反应步骤，通过电子流动的箭头推动机制详细描述了反应过程。相较于传统的USPTO数据集将反应视为整体转化，PMechDB的创新性在于其机制注释和平衡反应特性，为机器学习模型提供了更接近化学家思维方式的训练基础。该数据集通过结合教科书级反应路径和组合生成的质子转移反应，显著提升了模型在药物合成、材料设计等领域的预测准确性和机制解释能力。

当前挑战

PMechDB面临的挑战主要体现在三个方面：在领域问题上，需解决传统黑箱模型无法揭示电子转移路径的缺陷，要求预测结果同时满足化学平衡和机制合理性；在数据构建过程中，手工标注13,000个基元反应需克服有机反应机制复杂多样性的挑战，特别是对共振结构、过渡态等量子化学特征的准确描述；此外，组合生成的4800万质子转移反应虽扩展了数据覆盖范围，但其化学空间仍受限于预设的酸碱对组合规则，难以完全模拟真实实验中的溶剂效应和立体选择性等复杂因素。这些挑战促使研究者开发混合架构模型来平衡预测精度与机制可解释性。

常用场景

经典使用场景

PMechDB数据集在化学信息学领域被广泛用于训练和评估机器学习模型，以预测极性反应机制。该数据集通过捕捉电子流动和反应机理的细节，为研究者提供了一个高精度的基准，用于验证模型在预测化学反应路径方面的能力。特别是在药物合成和有机化学研究中，PMechDB帮助研究者理解复杂的反应机理，从而优化合成路线。

衍生相关工作

PMechDB数据集衍生了一系列经典研究工作，包括基于Transformer的Chemformer模型和两阶段Siamese架构。这些工作不仅在反应预测准确性上取得了突破，还通过结合组合生成的反应数据，进一步扩展了模型的覆盖范围。此外，PMechDB还为机理路径预测和反应分类等任务提供了新的研究思路和基准数据。

数据集最近研究