five

CheMFi

收藏
arXiv2024-06-20 更新2024-06-24 收录
下载链接:
https://zenodo.org/records/11636903
下载链接
链接失效反馈
官方服务:
资源简介:
CheMFi数据集是由伍珀塔尔大学数学与自然科学学院创建的一个全面的多保真度数据集,专注于多样化的分子量子化学性质。该数据集包含135,000个几何结构,通过TD-DFT方法计算,使用五种不同的基组选择,提供了包括垂直激发能、振子强度、分子偶极矩和基态能量等多种量子化学性质。数据集的创建过程涉及从WS22分子构象中均匀抽样,并进行多保真度量子化学计算。CheMFi数据集的应用领域广泛,主要用于评估和优化多保真度机器学习模型在量子化学性质预测中的性能,解决计算成本与预测精度之间的平衡问题。

The CheMFi dataset is a comprehensive multi-fidelity dataset developed by the Faculty of Mathematics and Natural Sciences at the University of Wuppertal, focusing on diverse molecular quantum chemical properties. It contains 135,000 geometric structures calculated via the TD-DFT method with five different basis set selections, providing a variety of quantum chemical properties including vertical excitation energies, oscillator strengths, molecular dipole moments, and ground-state energies. The dataset creation process involves uniform sampling from the WS22 molecular conformations and subsequent multi-fidelity quantum chemical calculations. The CheMFi dataset has broad application scenarios, primarily used to evaluate and optimize the performance of multi-fidelity machine learning models in quantum chemical property prediction, addressing the trade-off between computational cost and prediction accuracy.
提供机构:
伍珀塔尔大学数学与自然科学学院
创建时间:
2024-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
CheMFi数据集的构建基于WS22分子构象库,该库包含了10种不同分子的Wigner采样构象。为了构建CheMFi数据集,研究人员从每个分子中均匀采样了15,000个构象,总计135,000个单点构象。这些构象随后在TD-DFT理论水平下进行了量子化学计算,使用了五种不同大小的基组,分别是STO-3G、3-21G、6-31G、def2-SVP和def2-TZVP。这些基组的选择代表了不同的计算精度,从而形成了多精度数据集。
特点
CheMFi数据集的特点在于其多精度和多样性。它包含了9种不同分子的量子化学性质,包括垂直激发能、振荡强度、分子偶极矩和基态能等。数据集涵盖了从简单的尿素到复杂的2-(甲基亚胺甲基)苯酚等多种分子,提供了丰富的化学空间。此外,CheMFi数据集提供了多精度基准,包括最先进的多精度机器学习(MFML)和优化MFML(o-MFML)方法,这对于评估多精度模型的准确性和可迁移性具有重要意义。
使用方法
CheMFi数据集的使用方法包括加载和分析其包含的量子化学性质。数据集以NumPy npz文件的形式存储,每个分子一个文件,文件中包含了该分子的所有采样构象的量子化学性质。用户可以通过查询文件中的键来访问这些性质,例如,使用键'SCF'可以获取SCF能量。此外,CheMFi数据集还提供了脚本来生成多精度模型和基准测试,这些脚本可以帮助用户进行多精度机器学习模型的研究和评估。
背景与挑战
背景概述
CheMFi数据集的创建标志着量子化学和机器学习领域的最新进展。由德国伍珀塔尔大学数学与自然科学学院的Vivin Vinod和Peter Zaspel两位研究人员主导,CheMFi数据集旨在为多精度机器学习(MFML)方法提供基准数据。MFML方法使用来自不同量子化学计算方法的多个数据集进行训练,从而提高预测的准确性和计算效率。CheMFi数据集从WS22分子构象中提取,包含了使用TD-DFT方法计算的不同精度的量子化学性质。该数据集提供了包括垂直激发能、振子强度、分子偶极矩和基态能量等多种量子化学性质,为量子化学领域的MFML模型提供了重要的基准数据,对推动该领域的研究具有重要意义。
当前挑战
CheMFi数据集的创建和使用面临一些挑战。首先,构建多精度数据集需要大量的计算资源,尤其是对于包含大量构象和不同精度的数据集。其次,MFML模型训练需要考虑不同精度数据之间的关联性和误差传递,以提高模型的准确性和泛化能力。此外,数据集的使用也需要考虑计算成本和资源利用效率,以确保研究的可持续性。为了解决这些挑战,研究人员需要探索更高效的计算方法和模型训练策略,以提高MFML模型的性能和实用性。
常用场景
经典使用场景
CheMFi数据集是量子化学领域的一个多保真度数据集,它包含了从WS22分子构象中抽取的九种不同分子的135,000个几何形状。该数据集提供了五种保真度级别的量子化学性质,包括垂直激发能、振子强度、分子偶极矩和基态能量。这些数据为多保真度机器学习方法提供了宝贵的资源,可以用于训练和评估机器学习模型在预测量子化学性质方面的准确性。CheMFi数据集特别适合于多保真度机器学习方法的研究,因为它提供了不同保真度级别下的量子化学性质数据,这对于评估和改进多保真度机器学习模型非常有用。
解决学术问题
CheMFi数据集解决了量子化学领域中缺乏一个多样化、多保真度数据集的问题。现有的数据集如QM7b和MD17虽然提供了丰富的数据,但是它们在规模和多样性方面都存在一定的局限性。CheMFi数据集提供了更大规模的数据集,并且包含了从低到高不同保真度级别下的量子化学性质数据,这对于评估和改进多保真度机器学习模型非常有用。此外,CheMFi数据集还提供了一些用于评估和改进多保真度机器学习模型的工具,如预分析脚本和学习曲线生成脚本,这为研究人员提供了更方便的评估和改进多保真度机器学习模型的工具。
衍生相关工作
CheMFi数据集的发布推动了多保真度机器学习方法的进一步发展。基于CheMFi数据集,研究人员可以开发和应用新的多保真度机器学习模型,并对其进行评估和改进。此外,CheMFi数据集还可以用于开发新的量子化学计算方法,如多保真度计算方法和机器学习辅助的计算方法等。这些新的方法和模型可以用于更准确地预测量子化学性质,从而推动量子化学和材料科学领域的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作