QM9-NMR
收藏arXiv2020-12-03 更新2024-06-21 收录
下载链接:
http://moldis.tifrh.res.in:3000/QM9NMR
下载链接
链接失效反馈官方服务:
资源简介:
QM9-NMR数据集由塔塔基础研究所创建,包含134,000个分子的核磁共振屏蔽数据,涵盖了超过0.8百万个碳原子。数据集内容丰富,包括气体和五种常见溶剂相的状态。创建过程中,使用了先进的量子力学方法进行数据生成。该数据集主要应用于机器学习模型训练,以提高小分子化学化合物空间中核磁共振谱的筛选速度和准确性,解决化学和生物化学中的复杂问题。
The QM9-NMR dataset was developed by the Tata Institute of Fundamental Research. It contains nuclear magnetic resonance (NMR) shielding data for 134,000 molecules, covering over 0.8 million carbon atoms. The dataset includes comprehensive data across gas phase and five common solvent phase states. State-of-the-art quantum mechanical methods were employed to generate the dataset. This dataset is primarily used for training machine learning models, with the goal of improving the speed and accuracy of NMR spectrum screening in the small molecule chemical compound space, thereby addressing complex challenges in chemistry and biochemistry.
提供机构:
塔塔基础研究所
创建时间:
2020-09-15
搜集汇总
数据集介绍
构建方式
核磁共振波谱学在化学与生物物理领域扮演着不可或缺的角色,然而对于大规模分子数据集而言,从头计算化学屏蔽张量仍是一项计算成本高昂的任务。为应对这一挑战,QM9-NMR数据集应运而生。该数据集基于QM9数据库中的130,831个稳定且合成上可行的小型有机分子构建,这些分子包含最多9个重原子(C、N、O、F)。研究者采用mPW1PW91/6-311+G(2d,p)水平的密度泛函理论,在气相及五种常见溶剂(四氯化碳、四氢呋喃、丙酮、二甲基亚砜、甲醇)的隐式溶剂模型下,计算了所有原子的各向同性化学屏蔽值。此外,数据集还包含了B3LYP/STO-3G水平的基线屏蔽常数,为后续的Δ-机器学习策略提供了基础。整个数据集涵盖了超过120万个氢原子、83万个碳原子以及大量其他核素的屏蔽数据,构成了一个丰富而系统的化学空间参考资源。
特点
QM9-NMR数据集的核心特点在于其规模与化学多样性的完美结合。该数据集囊括了超过80万个碳原子的各向同性屏蔽值,覆盖了从饱和烃到高度不饱和及环状体系的广泛化学环境,其碳化学位移分布清晰地反映了sp³与sp²杂化碳原子的典型区间。尤为突出的是,数据集提供了气相与五种极性及非极性溶剂环境下的屏蔽数据,揭示了溶剂效应对不同原子局域环境的非均匀影响,其影响幅度可达±4 ppm。这种多相态、多核素(H、C、N、O、F)的丰富信息为深入理解化学屏蔽的局域性本质提供了绝佳素材。同时,数据集中包含的基线级屏蔽值使得Δ-机器学习策略得以应用,从而显著提升预测精度。
使用方法
QM9-NMR数据集主要用于训练和验证基于原子局域环境的机器学习模型,以高效预测新分子的13C化学屏蔽值。研究者推荐采用核岭回归框架,结合库仑矩阵、平滑重叠原子位置或FCHL等局域描述符,对原子周围的化学环境进行编码。通过从数据集中随机抽取训练样本(例如10万个碳原子),并利用留出验证集(如5万个碳原子)评估模型性能,可系统优化超参数。特别地,采用Δ-机器学习策略,即以廉价理论(如B3LYP/STO-3G)计算的屏蔽值为基线,训练模型预测其与高精度目标值之间的偏差,能够将预测误差进一步降低至1.4 ppm以下。该数据集已公开于MolDis大数据分析平台,支持用户直接下载使用,并可通过迁移学习应用于包含10至17个重原子的药物分子等更大体系。
背景与挑战
背景概述
核磁共振波谱学在化学与生物物理学领域占据着不可或缺的地位,其快速、准确且非破坏性的特性使其成为解析化学键合场景的理想工具。然而,对于大规模分子数据集而言,从头算方法预测核磁共振屏蔽张量或耦合常数的计算成本极为高昂。为应对这一挑战,2020年,印度塔塔基础科学研究所的Amit Gupta、Sabyasachi Chakraborty及Raghunathan Ramakrishnan等人发布了QM9-NMR数据集。该数据集以QM9分子库为基底,涵盖了134,000个稳定小分子中超过80万个碳原子的各向同性屏蔽常数,并在气相及五种常见溶剂相中采用mPW1PW91/6-311+G(2d,p)水平的第一性原理方法计算。这一大规模基准数据集旨在为机器学习模型提供高精度训练资源,推动核磁共振波谱预测在化学空间中的高通量筛选,其影响力已辐射至药物分子及大分子体系的结构解析领域。
当前挑战
QM9-NMR数据集所应对的核心挑战在于:第一,核磁共振屏蔽性质具有显著的局域性,即原子化学位移仅受其近邻环境影响,但传统密度泛函理论计算对于包含十万级分子的大数据集仍显昂贵,亟需机器学习模型在保持精度的同时实现快速推理。第二,构建过程中面临多重技术难题:数据集需涵盖QM9中130,831个分子的稳定构象,并排除3,054个在几何优化中碎裂的体系;必须统一采用B3LYP/6-31G(2df,p)级几何优化与高精度屏蔽计算,同时考虑五种溶剂的隐式连续模型影响,确保数据一致性与可比性。此外,机器学习模型在预测芳香族、不饱和体系及含氟基团时误差显著增大,表明训练集对特定化学环境的覆盖不足,而∆-ML策略虽能将平均绝对误差降至1.36 ppm,但面对含长程共轭效应的大分子(如线性多环芳烃)时,局域描述符的截断半径限制依然构成严峻挑战。
常用场景
经典使用场景
在核磁共振(NMR)波谱学与计算化学交叉领域中,QM9-NMR数据集被广泛用于训练和验证基于机器学习的13C化学屏蔽预测模型。该数据集包含了超过80万个碳原子在气相及五种常见溶剂中的各向同性屏蔽值,为开发原子级局部描述符(如库仑矩阵、平滑重叠原子位置描述符和FCHL描述符)提供了高质量的基准参考。研究者常利用该数据集构建核岭回归模型,以实现对小分子化学空间中13C NMR屏蔽值的快速、准确预测,并探索描述符与核函数对预测性能的影响。
衍生相关工作
基于QM9-NMR数据集,衍生了一系列经典的机器学习与计算化学工作。例如,Gerrard等人利用FCHL描述符结合核岭回归,预测了CSD数据库中超过7.5万种结构的1H和13C化学位移及J耦合常数。Gao等人发展了DFT+ML深度学习模型,实现了对实验13C化学位移的精确预测。此外,Paruzzo等人采用高斯过程回归与SOAP描述符,成功预测了固体分子中1H和13C的屏蔽值。这些工作共同推动了数据驱动NMR波谱学从理论基准向实际应用的跨越,彰显了QM9-NMR在化学信息学与材料科学中的深远影响。
数据集最近研究
最新研究方向
QM9-NMR数据集的最新研究方向聚焦于利用机器学习加速核磁共振化学位移的高通量预测,特别是在小分子化学空间中。该数据集涵盖了134k个分子中超过80万个碳原子的同位素屏蔽常数,结合隐式溶剂模型,为气相和五种常见溶剂环境提供了基准数据。前沿研究采用核岭回归与局部描述符(如FCHL、SOAP和CM),并通过Δ-ML策略进一步将预测误差压低至1.36 ppm,显著提升了模型在药物分子和GDB17子集等大分子体系中的迁移能力。这一进展不仅推动了计算NMR在药物发现中的实际应用,也为构建更精确的化学空间图谱提供了数据驱动的范式,与近年来Kaggle竞赛中ML辅助NMR预测的热点事件相呼应。
相关研究论文
- 1Revving up 13C NMR shielding predictions across chemical space: Benchmarks for atoms-in-molecules kernel machine learning with new data for 134 kilo molecules塔塔基础研究所 · 2020年
以上内容由遇见数据集搜集并总结生成



