QeMFi

Name: QeMFi
Creator: 伍珀塔尔大学数学与自然科学学院
Published: 2024-10-15 16:34:32
License: 暂无描述

arXiv2024-10-15 更新2024-10-17 收录

下载链接：

http://arxiv.org/abs/2410.11391v1

下载链接

链接失效反馈

官方服务：

资源简介：

QeMFi数据集由伍珀塔尔大学数学与自然科学学院创建，包含135,000个几何结构的九种不同化学分子，每个几何结构计算了五个不同精度的量子化学（QC）属性。数据集内容包括分子几何结构和相应的QC属性，如基态能量。数据集的创建过程涉及使用TD-DFT方法计算不同基组大小的QC属性。该数据集主要用于评估多精度机器学习（MFML）方法在量子化学计算中的数据效率，旨在解决量子化学计算中的高计算成本问题。

The QeMFi dataset was created by the Faculty of Mathematics and Natural Sciences at the University of Wuppertal. It contains 135,000 geometric configurations across nine distinct chemical molecules, with five quantum chemistry (QC) properties of varying accuracy calculated for each configuration. The dataset includes molecular geometric structures and their corresponding QC properties, such as ground-state energy. The dataset development process involved calculating QC properties with different basis set sizes using the TD-DFT method. This dataset is primarily used to evaluate the data efficiency of multi-fidelity machine learning (MFML) methods in quantum chemistry calculations, aiming to address the high computational cost issue in quantum chemistry computations.

提供机构：

伍珀塔尔大学数学与自然科学学院

创建时间：

2024-10-15

搜集汇总

数据集介绍

构建方式

QeMFi数据集的构建基于量子化学（QC）理论和机器学习（ML）方法的协同进步。该数据集包含了135,000个几何结构，涵盖九种化学多样性分子，每个几何结构通过时间依赖密度泛函理论（TD-DFT）计算了五个不同精度的基组：STO3G, 321G, 631G, def2 SVP, 和 def2 TZVP。这些数据用于评估多精度机器学习方法在量子化学计算中的数据效率，特别是针对基态能量的预测。

使用方法

QeMFi数据集主要用于评估和比较不同机器学习模型在量子化学计算中的数据效率。研究者可以通过该数据集训练和验证多精度机器学习模型，如Δ-ML、多精度机器学习（MFML）及其优化版本（o-MFML），以及新引入的多精度Δ-机器学习（MFΔML）方法。通过分析模型在不同精度下的表现，研究者可以更好地理解这些方法在减少计算成本和提高预测精度方面的潜力。

背景与挑战

背景概述

QeMFi数据集由Vivin Vinod和Peter Zaspel于2024年创建，隶属于德国伍珀塔尔大学的数学与自然科学学院。该数据集专注于量子化学（QC）领域，旨在通过机器学习（ML）方法降低传统量子化学计算的高计算成本。QeMFi数据集的核心研究问题是如何在多保真度（multifidelity）和Δ-ML（delta-machine learning）方法中提高数据效率，从而在预测分子基态能量时减少训练数据的生成成本。该数据集的发布对量子化学领域的研究产生了深远影响，特别是在多保真度机器学习方法的应用和优化方面。

当前挑战

QeMFi数据集面临的挑战主要集中在两个方面：一是如何有效解决量子化学领域中数据生成成本高的问题，特别是在多保真度和Δ-ML方法的应用中；二是数据集构建过程中如何确保不同保真度数据的一致性和准确性。此外，数据集还需要应对多保真度方法在处理大量预测时的效率问题，以及在训练数据非嵌套或异质性较高时的模型优化挑战。这些挑战不仅影响数据集的实际应用效果，也对量子化学领域的进一步研究提出了新的要求。

常用场景

经典使用场景

QeMFi数据集在量子化学领域中被广泛用于评估机器学习方法在多保真度模型中的数据效率。该数据集包含九种化学多样性分子的135,000个几何结构，每个结构具有五个不同保真度的量子化学性质计算结果。通过对比单保真度核岭回归（KRR）、多保真度机器学习（MFML）和优化多保真度机器学习（o-MFML）等方法，研究人员能够系统地分析这些方法在预测基态能量时的数据生成成本与模型准确性之间的关系。

解决学术问题

QeMFi数据集解决了量子化学计算中数据生成成本高昂的问题。通过引入多保真度机器学习方法，研究人员能够在保持模型准确性的同时显著降低数据生成成本。这一研究不仅推动了量子化学计算的效率提升，还为机器学习在化学领域的应用提供了新的视角。此外，该数据集还促进了多保真度机器学习方法的理论发展，为未来的研究奠定了坚实的基础。

实际应用

QeMFi数据集在实际应用中具有广泛的前景，特别是在需要大量量子化学计算的领域，如药物设计和新材料开发。通过使用多保真度机器学习方法，研究人员可以在减少计算资源消耗的同时，快速预测分子的基态能量和其他量子化学性质。这不仅加速了新材料的发现过程，还降低了药物设计的成本，为工业界和学术界提供了强有力的工具。

数据集最近研究