QM7-X
收藏arXiv2020-06-27 更新2024-06-21 收录
下载链接:
http://doi.org/10.5281/zenodo.3905361
下载链接
链接失效反馈官方服务:
资源简介:
QM7-X数据集由卢森堡大学物理与材料科学系创建,包含约420万个小有机分子的平衡与非平衡结构,涵盖至多7个非氢原子(C, N, O, S, Cl)。该数据集通过量子力学PBE0+MBD理论计算,提供了42种物理化学性质,包括分子和局部(原子在分子中)的性质。创建过程中,首先系统地采样了稳定平衡结构,包括结构异构体和立体异构体,随后生成了100种非平衡结构,以全面覆盖化学化合物空间。QM7-X数据集旨在支持下一代基于机器学习的模型开发,用于探索更广泛的化学化合物空间,并进行具有目标性质的分子设计。
The QM7-X dataset was created by the Department of Physics and Materials Science, University of Luxembourg. It contains approximately 4.2 million equilibrium and non-equilibrium structures of small organic molecules, with up to 7 non-hydrogen atoms (C, N, O, S, Cl). Calculated via quantum mechanical PBE0+MBD theory, this dataset provides 42 physicochemical properties, including both molecular-level and local (atom-in-molecule) properties. During its creation, stable equilibrium structures were systematically sampled first, including structural and stereoisomers, followed by the generation of 100 non-equilibrium structures to comprehensively cover the chemical compound space. The QM7-X dataset is intended to support the development of next-generation machine learning-based models for exploring a broader chemical compound space and performing molecular design with targeted properties.
提供机构:
卢森堡大学物理与材料科学系
创建时间:
2020-06-27
搜集汇总
数据集介绍

构建方式
QM7-X数据集的构建基于GDB13数据库中的小分子有机化合物,涵盖最多七个非氢原子(C、N、O、S、Cl)。首先,通过MMFF94力场对每个分子式进行广泛的构象异构体和立体异构体采样,生成约40,000个(亚)稳定平衡结构。随后,通过DFTB3+MBD理论对每个平衡结构进行100个非平衡结构的生成,总计约420万分子结构。最终,使用PBE0+MBD理论计算了42种物理化学性质,涵盖从基态量(如原子化能量和偶极矩)到响应量(如极化率张量和色散系数)的广泛性质。
特点
QM7-X数据集的特点在于其全面性和多样性。它不仅包含了广泛的平衡结构,还通过非平衡结构的生成,扩展了对化学空间的覆盖。数据集中的分子结构涵盖了构象异构体、立体异构体(如对映异构体和非对映异构体),以及通过正常模式位移生成的非平衡结构。此外,QM7-X提供了42种量子力学计算的物理化学性质,这些性质既包括全局(分子)性质,也包括局部(分子内原子)性质,为分子结构-性质关系的研究提供了丰富的数据支持。
使用方法
QM7-X数据集的使用方法主要围绕其提供的HDF5文件格式展开。每个分子结构的信息存储在一个Python字典中,包含原子编号、原子坐标和物理化学性质等关键数据。用户可以通过HDF5键访问这些信息,例如通过'atNUM'键获取原子编号,通过'atXYZ'键获取原子坐标。数据集中的结构通过特定的命名规则进行标识,便于用户区分不同的分子构型和异构体。QM7-X数据集可用于开发下一代机器学习模型,探索化学空间中的分子性质关系,并为分子设计提供理论支持。
背景与挑战
背景概述
QM7-X数据集由卢森堡大学、格拉茨大学、康奈尔大学和阿贡国家实验室的研究团队于2020年推出,旨在为小分子有机化合物的量子力学性质提供全面的数据支持。该数据集涵盖了约420万个包含最多七个非氢原子(C、N、O、S、Cl)的分子结构,包括平衡态和非平衡态构型。QM7-X通过高精度的量子力学计算(PBE0+MBD理论水平)生成了42种物理化学性质,涵盖从基态性质(如原子化能量和偶极矩)到响应性质(如极化率张量和色散系数)的广泛范围。该数据集的推出为化学化合物空间(CCS)的系统探索提供了重要工具,推动了基于机器学习的分子设计与性质预测研究。
当前挑战
QM7-X数据集的构建面临多重挑战。首先,化学化合物空间的维度随分子尺寸呈指数增长,导致对大规模CCS的探索变得极为复杂。其次,高精度的量子力学计算(如PBE0+MBD)计算成本高昂,限制了数据集的规模扩展。此外,数据集需涵盖结构异构体、立体异构体(如对映异构体和非对映异构体)以及构象异构体的全面采样,这对计算资源和算法提出了更高要求。最后,确保非平衡态结构的物理化学性质计算的准确性和可靠性,尤其是在描述范德华相互作用和共价键性质方面,仍需进一步验证和优化。这些挑战为未来基于QM7-X的机器学习模型开发提供了重要的研究方向。
常用场景
经典使用场景
QM7-X数据集在量子化学和机器学习领域中被广泛用于分子性质预测和化学空间探索。通过提供约420万个小有机分子的42种物理化学性质,QM7-X为研究人员提供了一个系统且全面的数据集,用于训练和验证机器学习模型。这些模型能够预测分子的基态和响应性质,如原子化能、偶极矩、极化率张量等,从而加速新材料的发现和药物设计。
解决学术问题
QM7-X数据集解决了量子化学计算中分子结构-性质关系复杂且计算成本高昂的问题。通过提供大量经过严格量子力学计算的分子结构和性质数据,QM7-X为研究人员提供了一个可靠的基准,用于开发新一代机器学习模型。这些模型能够更高效地探索化学空间,并预测分子的物理化学性质,从而推动分子设计和材料科学的进步。
衍生相关工作
QM7-X数据集的发布催生了一系列相关研究工作,特别是在机器学习驱动的分子性质预测领域。基于QM7-X,研究人员开发了多种深度学习模型,如SchNet和ANI-1,这些模型能够高效地预测分子的物理化学性质。此外,QM7-X还为分子力场的构建提供了数据支持,推动了分子动力学模拟和材料设计的发展。
以上内容由遇见数据集搜集并总结生成



