nablaDFT

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/AIRI-Institute/nablaDFT

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了一个基于Molecular Sets (MOSES)数据集子集的基准数据集，包含1,004,918个含有C, N, S, O, F, Cl, Br, H原子的分子。数据集包含226,424个独特的Bemis-Murcko骨架和34,572个独特的BRICS片段。每个分子提供1到62个独特构象，总计5,340,152个构象。每个构象的电子性质，包括能量(E)、DFT哈密顿矩阵(H)和DFT重叠矩阵(S)，均使用量子化学软件包Psi4在ωB97X-D/def2-SVP理论水平上计算。

We present a benchmark dataset derived from a subset of the Molecular Sets (MOSES) dataset, comprising 1,004,918 molecules containing atoms of C, N, S, O, F, Cl, Br, and H. The dataset includes 226,424 unique Bemis-Murcko scaffolds and 34,572 unique BRICS fragments. Each molecule is provided with 1 to 62 unique conformations, totaling 5,340,152 conformations. The electronic properties of each conformation, including energy (E), DFT Hamiltonian matrix (H), and DFT overlap matrix (S), were calculated using the quantum chemistry software package Psi4 at the ωB97X-D/def2-SVP theoretical level.

创建时间：

2022-08-18

原始信息汇总

数据集概述

数据集名称

$ abla^2$ DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

数据集版本

2.0

数据集来源

基于Molecular Sets (MOSES)数据集的子集。

数据集内容

包含1,936,931个分子，这些分子包含C, N, S, O, F, Cl, Br, H等原子。数据集包含226,424个独特的Bemis-Murcko骨架和34,572个独特的BRICS片段。

数据集结构

每个分子提供1到62个独特构象，总计12,676,264个构象。
每个构象计算了其电子性质，包括能量（E）、DFT哈密顿矩阵（H）和DFT重叠矩阵（S）。
所有性质使用Kohn-Sham方法在ωB97X-D/def2-SVP理论水平上计算，使用量子化学软件包Psi4（版本1.5）。

数据集分割

提供多个数据集分割，用于不同模型的比较。

数据集下载

哈密顿矩阵数据库：链接位于Hamiltonian databases。
能量数据库：链接位于Energy databases。
原始Psi4波函数：链接位于wave functions。
总结文件：summary.csv和trajectories_summary.csv。
构象文件：archive。

数据集使用

提供了访问数据集元素的示例代码，包括哈密顿矩阵数据库和能量数据库的下载和使用。
提供了使用Psi4波函数的示例代码，用于加载和分析各种量子化学属性。

数据集引用

若在研究中使用此数据集，请引用：

@article{10.1039/D2CP03966D, author ="Khrabrov, Kuzma and Shenbin, Ilya and Ryabov, Alexander and Tsypin, Artem and Telepov, Alexander and Alekseev, Anton and Grishin, Alexander and Strashnov, Pavel and Zhilyaev, Petr and Nikolenko, Sergey and Kadurin, Artur", title ="nablaDFT: Large-Scale Conformational Energy and Hamiltonian Prediction benchmark and dataset", journal ="Phys. Chem. Chem. Phys.", year ="2022", volume ="24", issue ="42", pages ="25853-25863", publisher ="The Royal Society of Chemistry", doi ="10.1039/D2CP03966D", url ="http://dx.doi.org/10.1039/D2CP03966D"}

搜集汇总

数据集介绍

构建方式

nablaDFT数据集的构建基于Molecular Sets (MOSES)数据集的一个子集，包含了1,936,931个分子，涵盖C、N、S、O、F、Cl、Br、H等原子。每个分子具有1到62个独特的构象，总计12,676,264个构象。对于每个构象，通过Kohn-Sham方法在ωB97X-D/def2-SVP水平上计算了能量、DFT哈密顿矩阵和重叠矩阵等电子性质。此外，数据集还包含了大量的量子化学性质，如波函数对象和Hamiltonian矩阵，确保了数据集的多样性和广泛性。

特点

nablaDFT数据集的显著特点在于其规模庞大且多样性丰富，包含了1,936,931个分子和12,676,264个构象，涵盖了多种分子性质和任务。数据集不仅提供了能量和力等基础性质，还包括了Hamiltonian矩阵、重叠矩阵和波函数等高级量子化学性质。此外，数据集首次包含了大量药物分子构象的弛豫轨迹，为神经网络势能的训练和评估提供了丰富的资源。

使用方法

nablaDFT数据集可以通过多种方式访问和使用，包括下载Hamiltonian和能量数据库的链接，以及通过Psi4软件包生成的原始波函数文件。用户可以通过Python脚本直接访问数据集，使用如HamiltonianDatabase和EnergyDatabase等接口进行数据加载。此外，数据集还提供了多种预处理和分割方式，便于不同模型的训练和测试。详细的教程和示例代码可在GitHub页面上找到，帮助用户快速上手并利用数据集进行量子化学研究。

背景与挑战

背景概述

nablaDFT数据集是由AIRI研究所主导开发，旨在推动量子化学计算与神经网络潜力（NNPs）结合的研究。该数据集首次发布于2022年，最新版本为2.0，主要研究人员包括Kuzma Khrabrov等。nablaDFT数据集的核心研究问题是如何通过大规模、多样化的分子结构数据，提升神经网络在分子性质预测、哈密顿矩阵预测及构象优化等任务中的表现。该数据集不仅包含了丰富的分子结构和电子性质数据，还首次引入了大量药物类分子的弛豫轨迹，极大地推动了计算机辅助药物发现领域的发展。

当前挑战

nablaDFT数据集在构建过程中面临诸多挑战。首先，量子化学计算的高复杂性限制了其在大规模分子数据上的应用，如何高效地生成和处理这些数据成为一大难题。其次，神经网络潜力（NNPs）的训练需要大量多样化的数据，如何确保数据集的多样性和覆盖范围也是一个重要挑战。此外，数据集的构建还需考虑如何有效地存储和访问大规模的量子化学计算结果，以及如何设计合理的基准测试来评估不同模型的性能。这些挑战不仅涉及技术层面的优化，还要求研究人员在数据处理和模型评估上具备高度的专业性。

常用场景

经典使用场景

nablaDFT数据集在量子化学领域中被广泛应用于分子性质预测和神经网络势能的训练。其经典使用场景包括通过密度泛函理论（DFT）计算分子能量、力、哈密顿矩阵等关键性质，并利用这些数据训练神经网络模型，以实现高效的分子结构优化和性质预测。

实际应用

nablaDFT数据集在实际应用中广泛用于药物设计、材料科学和化学反应模拟等领域。通过训练神经网络模型，研究人员能够快速预测分子性质，优化分子结构，并加速新药物和材料的发现过程。此外，该数据集还为量子化学计算提供了新的工具和方法，推动了相关领域的技术进步。

衍生相关工作

nablaDFT数据集的发布催生了一系列相关的经典工作，包括SchNOrb、PhiSNet、SchNet等神经网络模型的开发与应用。这些模型在分子波函数预测、电子密度计算和量子相互作用建模等方面取得了显著成果，进一步推动了量子化学与机器学习的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集