PubChemQC PM6
收藏arXiv2019-04-15 更新2024-06-21 收录
下载链接:
http://pubchemqc.riken.jp/pm6_dataset.html
下载链接
链接失效反馈官方服务:
资源简介:
PubChemQC PM6数据集是由理化学研究所的研究人员创建,包含了2.21亿个分子的优化几何结构和电子性质。该数据集基于PM6方法计算,覆盖了PubChem化合物数据库中92.9%的分子。数据集内容丰富,包括中性、阳离子、阴离子和自旋翻转电子态的分子。创建过程中,研究人员使用了SMILES和InChI编码来处理分子数据。该数据集广泛应用于有机薄膜太阳能电池、电致发光材料、有机非线性光学材料、分子传感器和新药设计等领域,旨在通过量子化学计算提供高质量的训练数据,以促进机器学习在化学领域的应用。
The PubChemQC PM6 Dataset was created by researchers at RIKEN. It contains optimized geometric structures and electronic properties of 221 million molecules. Computed using the PM6 semiempirical quantum chemistry method, the dataset covers 92.9% of the molecules in the PubChem Compound Database. The dataset encompasses diverse molecular types, including neutral, cationic, anionic, and spin-flip electronic state molecules. During its construction, researchers utilized SMILES and InChI encodings to process molecular data. This dataset is widely applied in research fields such as organic thin-film solar cells, electroluminescent materials, organic nonlinear optical materials, molecular sensors, and novel drug design. It aims to provide high-quality training data via quantum chemical calculations, so as to facilitate the application of machine learning in the field of chemistry.
提供机构:
理化学研究所
创建时间:
2019-04-12
搜集汇总
数据集介绍
构建方式
PubChemQC PM6数据集的构建基于PubChem Compounds数据库中的分子信息,采用PM6半经验量子化学方法进行几何优化和电子结构计算。首先,从PubChem Compounds中筛选出分子量小于1000g/mol的中性分子,排除了带电分子和分子量过大的分子。随后,使用Open Babel工具生成初始几何结构,并通过Gaussian09软件进行PM6几何优化。此外,数据集还计算了分子的阳离子、阴离子和自旋翻转态的几何结构和电子性质。最终,数据集包含超过2.21亿个分子的优化几何结构和电子性质数据。
特点
PubChemQC PM6数据集是目前最大的基于半经验量子化学方法计算的分子数据集,涵盖了超过2.21亿个分子的优化几何结构和电子性质。数据集不仅包含中性分子的计算结果,还提供了阳离子、阴离子和自旋翻转态的计算结果,覆盖了PubChem Compounds数据库中94.0%的中性分子。数据集的独特之处在于其规模庞大且计算效率高,PM6方法在保证计算精度的同时显著降低了计算成本,适用于大规模分子筛选和机器学习模型的训练。
使用方法
PubChemQC PM6数据集可用于分子性质预测、材料设计和药物发现等领域的研究。研究人员可以通过访问数据集提供的压缩文件,获取每个分子的CID、分子量、InChI表示、SMILES表示、分子组成式、电荷和自旋数等信息。数据集还提供了每个分子的优化几何结构、电子性质以及阳离子、阴离子和自旋翻转态的计算结果。这些数据可以用于训练机器学习模型,预测分子的HOMO-LUMO能隙、振动强度、偶极矩等性质,或用于虚拟筛选和分子设计。数据集的使用需遵循Creative Commons Attribution 4.0 International许可协议。
背景与挑战
背景概述
PubChemQC PM6数据集由日本理化学研究所(RIKEN)的Maho Nakata等人于2019年创建,旨在为化学领域的研究提供大规模的分子几何结构和电子性质数据。该数据集基于PubChem Compounds数据库中的分子,使用PM6半经验量子化学方法对221百万个分子进行了几何优化和电子性质计算。研究背景源于有机分子在新材料设计、药物开发等领域的重要性,而传统的量子化学计算虽然精确,但计算成本高昂,难以应对庞大的化学空间。PubChemQC PM6的推出为机器学习在化学领域的应用提供了高质量的训练数据,推动了数据驱动化学研究的发展。
当前挑战
PubChemQC PM6数据集在构建过程中面临多重挑战。首先,选择哪些分子进行计算是一个复杂的问题,尽管PubChem Compounds数据库包含了大量分子,但如何从中筛选出具有代表性的分子仍是一个难题。其次,分子表示方法的多样性也带来了挑战,尽管InChI和SMILES等编码系统被广泛使用,但它们在某些情况下无法准确反映分子的三维结构或电子性质。此外,计算过程中,PM6方法虽然计算效率较高,但其精度相对较低,尤其是在处理金属元素和复杂分子时,计算结果可能不够准确。最后,数据集的规模庞大,计算资源的消耗和时间成本也是构建过程中的主要挑战之一。
常用场景
经典使用场景
PubChemQC PM6数据集在计算化学领域中被广泛用于分子几何优化和电子性质的计算。该数据集包含了超过2.21亿个分子的优化几何结构和电子性质,涵盖了PubChem数据库中92.9%的分子。研究人员可以利用这些数据来预测分子的化学性质,如HOMO-LUMO能隙、偶极矩、振动频率等,从而加速新材料和药物的设计过程。
解决学术问题
PubChemQC PM6数据集解决了计算化学中大规模分子性质预测的难题。传统的量子化学计算方法虽然精确,但计算成本高昂,难以应对海量分子的计算需求。通过PM6半经验方法,该数据集在保证一定精度的前提下,显著降低了计算成本,为机器学习模型提供了高质量的训练数据,推动了数据驱动化学研究的发展。
衍生相关工作
PubChemQC PM6数据集的发布催生了一系列基于机器学习的分子性质预测研究。例如,研究人员利用该数据集训练深度学习模型,预测分子的HOMO-LUMO能隙和振动频率。此外,该数据集还被用于开发新的分子表示方法,如基于图神经网络的分子嵌入技术,进一步推动了计算化学与人工智能的交叉研究。
以上内容由遇见数据集搜集并总结生成



