five

PMechDB

收藏
arXiv2025-04-22 更新2025-04-24 收录
下载链接:
http://arxiv.org/abs/2504.15539v1
下载链接
链接失效反馈
官方服务:
资源简介:
PMechDB是一个由加州大学欧文分校计算机科学与化学系创建的化学数据集,包含约13000个经过有机化学家团队手动验证的极性基本反应步骤。这些反应步骤不仅平衡且部分原子映射,旨在为机器学习模型提供具有化学严谨性的训练基础。数据集通过收集化学文献和教科书中的反应条目并进行手动编纂而构建,用于预测极性反应机制,推动合成化学领域的创新。

PMechDB is a chemical dataset developed by the Departments of Computer Science and Chemistry at the University of California, Irvine. It contains approximately 13,000 elementary polar reaction steps manually validated by a team of organic chemists. These reaction steps are both balanced and partially atom-mapped, serving as a chemically rigorous training foundation for machine learning models. The dataset was constructed by collecting reaction entries from chemical literature and textbooks and performing manual curation, with the purpose of predicting polar reaction mechanisms and promoting innovation in the field of synthetic chemistry.
提供机构:
加州大学欧文分校
创建时间:
2025-04-22
搜集汇总
数据集介绍
main_image_url
构建方式
PMechDB数据集的构建采用了多源数据整合与人工验证相结合的科学方法。研究团队通过系统收集化学文献和教材中的极性基元反应步骤,构建了约13,000个经过原子映射平衡和化学家团队人工验证的反应条目。为进一步扩展数据覆盖范围,创新性地引入了约4,800万个组合生成的质子转移反应,这些反应通过酸碱配对和速率常数计算进行合理性筛选。数据集采用80/10/10的比例随机划分为训练集、验证集和测试集,并额外构建了包含350个机理路径的人类基准数据集用于模型评估。
特点
该数据集最显著的特征在于其独特的机理级反应表示方式,将化学反应分解为展示电子流动的极性基元步骤。所有反应条目均保持严格的原子平衡,并包含部分原子映射信息,这为机器学习模型提供了精确的化学约束。数据集涵盖广泛的有机反应类型,包含15种常见原子的分布,其中碳、氧、氮原子出现频率最高。相较于传统USPTO数据集,PMechDB通过机理注释和平衡反应的特点,为模型训练提供了更具化学严谨性的基础。
使用方法
PMechDB数据集支持多种先进的机器学习架构应用。用户可通过基于Transformer的序列到序列模型(如Chemformer)或基于图神经网络的模型(如Graph2SMILES)进行端到端反应预测。对于需要更高解释性的场景,推荐采用两步预测法:先识别反应位点,再枚举可能的反应机理。数据集特别适合用于训练混合模型架构,如将Transformer模型与Siamese网络结合,既能保持预测准确性,又能过滤化学不合理的产物。研究团队还提供了在线接口,支持用户进行单步预测和多步路径搜索等任务。
背景与挑战
背景概述
PMechDB数据集由加州大学欧文分校的Ryan J. Miller、Pierre Baldi等学者于2024年创建,旨在解决化学反应预测中的机制可解释性问题。该数据集包含约13,000个经过化学家手动验证的极性基元反应步骤,通过电子流动的箭头推动机制详细描述了反应过程。相较于传统的USPTO数据集将反应视为整体转化,PMechDB的创新性在于其机制注释和平衡反应特性,为机器学习模型提供了更接近化学家思维方式的训练基础。该数据集通过结合教科书级反应路径和组合生成的质子转移反应,显著提升了模型在药物合成、材料设计等领域的预测准确性和机制解释能力。
当前挑战
PMechDB面临的挑战主要体现在三个方面:在领域问题上,需解决传统黑箱模型无法揭示电子转移路径的缺陷,要求预测结果同时满足化学平衡和机制合理性;在数据构建过程中,手工标注13,000个基元反应需克服有机反应机制复杂多样性的挑战,特别是对共振结构、过渡态等量子化学特征的准确描述;此外,组合生成的4800万质子转移反应虽扩展了数据覆盖范围,但其化学空间仍受限于预设的酸碱对组合规则,难以完全模拟真实实验中的溶剂效应和立体选择性等复杂因素。这些挑战促使研究者开发混合架构模型来平衡预测精度与机制可解释性。
常用场景
经典使用场景
PMechDB数据集在化学信息学领域被广泛用于训练和评估机器学习模型,以预测极性反应机制。该数据集通过捕捉电子流动和反应机理的细节,为研究者提供了一个高精度的基准,用于验证模型在预测化学反应路径方面的能力。特别是在药物合成和有机化学研究中,PMechDB帮助研究者理解复杂的反应机理,从而优化合成路线。
衍生相关工作
PMechDB数据集衍生了一系列经典研究工作,包括基于Transformer的Chemformer模型和两阶段Siamese架构。这些工作不仅在反应预测准确性上取得了突破,还通过结合组合生成的反应数据,进一步扩展了模型的覆盖范围。此外,PMechDB还为机理路径预测和反应分类等任务提供了新的研究思路和基准数据。
数据集最近研究
最新研究方向
近年来,PMechDB数据集在化学信息学领域引起了广泛关注,特别是在极性反应机理预测方面。该数据集通过将化学反应表示为极性基本步骤,捕捉电子流动和机理细节,为深度学习模型提供了更丰富的训练基础。最新研究显示,基于PMechDB的混合模型(如结合Chemformer和两步Siamese架构的模型)在预测极性反应机理方面表现出色,其Top-10准确率高达94.9%。这一进展不仅提升了反应预测的准确性,还增强了模型的解释性,使其更贴近化学家的思维方式。此外,通过引入组合生成的质子转移反应,PMechDB进一步扩展了模型的覆盖范围,提高了泛化能力。这些研究成果为合成化学、药物设计和材料科学等领域的高通量反应预测提供了有力工具,推动了化学信息学的前沿发展。
相关研究论文
  • 1
    Interpretable Deep Learning for Polar Mechanistic Reaction Prediction加州大学欧文分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作