five

QH9

收藏
arXiv2024-03-21 更新2024-06-21 收录
下载链接:
https://zenodo.org/records/8274793, https://github.com/divelab/AIRS/tree/main/OpenDFT/QHBench/QH9
下载链接
链接失效反馈
官方服务:
资源简介:
QH9数据集是由德州农工大学开发的一个新的量子哈密顿数据集,旨在提供基于QM9数据集的130,831个稳定分子几何结构和999或2998个分子动力学轨迹的精确哈密顿矩阵。数据集创建过程中,使用了PySCF软件进行计算量子化学计算,确保了哈密顿矩阵的准确性。该数据集适用于机器学习模型在量子化学属性预测中的应用,特别是在加速密度泛函理论(DFT)计算方面。通过设计多种分子基准任务,展示了当前机器学习模型预测任意分子哈密顿矩阵的能力。数据集的应用领域包括科学和技术应用中的分子和材料设计,旨在解决加速量子化学计算的挑战。

The QH9 dataset is a novel quantum Hamiltonian dataset developed by Texas A&M University. It is designed to provide accurate Hamiltonian matrices for 130,831 stable molecular geometries and 999 or 2998 molecular dynamics trajectories based on the QM9 dataset. During the dataset construction process, PySCF software was employed to perform quantum chemical calculations, thereby ensuring the accuracy of the Hamiltonian matrices. This dataset is suitable for applications of machine learning models in quantum chemistry property prediction, particularly for accelerating density functional theory (DFT) calculations. By designing multiple molecular benchmark tasks, it showcases the ability of contemporary machine learning models to predict Hamiltonian matrices for arbitrary molecules. The application fields of this dataset cover molecular and material design in scientific and technological applications, with the objective of addressing the challenges in accelerating quantum chemical computations.
提供机构:
德州农工大学
创建时间:
2023-06-16
搜集汇总
数据集介绍
main_image_url
构建方式
QH9数据集的构建基于QM9数据集,包含了130,831个稳定分子几何结构和999或2998个分子动力学轨迹,每个轨迹包含100个几何结构。通过使用PySCF软件进行密度泛函理论(DFT)计算,生成精确的哈密顿矩阵。数据集分为稳定几何结构和动态轨迹两部分,分别用于训练和评估量子张量网络模型。为了确保计算精度,DFT计算的超参数设置为高精度,如网格密度设置为3,SCF收敛条件设置为10^-13,并使用B3LYP交换相关泛函和Def2SVP基组。
特点
QH9数据集的主要特点在于其大规模和多样性,涵盖了130,831个稳定分子几何结构和数千个分子动力学轨迹,提供了丰富的哈密顿矩阵数据。此外,数据集设计了四个具体任务,分别针对稳定分子几何结构和动态轨迹,评估模型在分布内和分布外的性能。数据集还提供了详细的评估指标,包括哈密顿矩阵的均方误差(MAE)、占据轨道能量的MAE以及电子波函数系数的余弦相似度,确保了对模型预测质量的全面评估。
使用方法
QH9数据集可用于训练和评估量子张量网络模型,以预测分子哈密顿矩阵。用户可以通过提供的四个任务进行模型训练和测试,分别针对稳定分子几何结构和动态轨迹。数据集提供了详细的评估指标,用户可以根据这些指标评估模型的性能,包括哈密顿矩阵的MAE、占据轨道能量的MAE以及电子波函数系数的余弦相似度。此外,数据集还提供了加速DFT计算的评估指标,帮助用户评估模型在实际应用中的加速效果。
背景与挑战
背景概述
QH9数据集是由德克萨斯A&M大学的研究团队于2024年创建的,旨在为量子化学领域提供精确的哈密顿矩阵预测基准。该数据集基于QM9分子数据集,包含了130,831个稳定分子几何结构和999或2998个分子动力学轨迹的哈密顿矩阵。主要研究人员包括Haiyang Yu、Meng Liu、Youzhi Luo等,他们致力于通过机器学习方法加速电子结构预测,特别是作为密度泛函理论(DFT)的替代方法。QH9数据集的创建填补了现有量子化学数据集中哈密顿矩阵预测的空白,为开发更高效的机器学习方法和加速分子及材料设计提供了重要资源。
当前挑战
QH9数据集面临的挑战主要集中在两个方面。首先,哈密顿矩阵的预测任务本身具有高度复杂性,因为哈密顿矩阵是决定量子态和化学性质的核心物理量,其预测需要处理大量的分子几何结构和动力学轨迹。其次,构建过程中遇到的挑战包括如何确保哈密顿矩阵的精确性和高效性,特别是在处理大规模分子数据时,如何保持计算的稳定性和准确性。此外,哈密顿矩阵的旋转等变性(SE(3)等变性)使得设计能够保持这种等变性的神经网络架构变得尤为复杂,这也是当前研究中的一个重要难题。
常用场景
经典使用场景
QH9数据集的经典使用场景主要集中在量子化学领域,特别是在预测分子体系的哈密顿矩阵方面。该数据集通过提供130,831个稳定分子几何结构和999或2998个分子动力学轨迹的哈密顿矩阵,为机器学习模型提供了一个基准平台。这些数据可以用于训练和验证量子张量网络模型,以预测任意分子的哈密顿矩阵,从而加速电子结构计算,尤其是在密度泛函理论(DFT)中的应用。
衍生相关工作
QH9数据集的发布催生了一系列相关的经典工作,特别是在量子张量网络和深度学习模型的应用方面。例如,QHNet模型作为该数据集的主要基准模型,展示了其在预测哈密顿矩阵方面的有效性。此外,其他研究者也基于该数据集开发了多种SE(3)-等变神经网络架构,进一步推动了量子化学计算的机器学习方法的发展。这些工作不仅提升了模型的预测精度,还为未来的研究提供了新的方向和挑战。
数据集最近研究
最新研究方向
QH9数据集在量子化学领域的前沿研究方向主要集中在量子哈密顿矩阵的预测与加速计算。该数据集通过提供130,831个稳定分子几何结构和999个分子动力学轨迹的精确哈密顿矩阵,推动了机器学习模型在量子化学计算中的应用。研究者们利用量子张量网络等方法,探索如何在保持旋转和变换等变性的前提下,高效预测哈密顿矩阵,从而加速密度泛函理论(DFT)计算。这一研究方向不仅有助于提升分子和材料设计的效率,还为开发更精确的量子化学模拟方法提供了新的基准。
相关研究论文
  • 1
    QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules德州农工大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作