∇2DFT

Name: ∇2DFT
Creator: AIRI, Moscow
Published: 2024-06-20 22:14:59
License: 暂无描述

arXiv2024-06-20 更新2024-06-24 收录

下载链接：

https://github.com/AIRI-Institute/nablaDFT

下载链接

链接失效反馈

官方服务：

资源简介：

∇2DFT是由AIRI莫斯科研究机构创建的一个综合性量子化学数据集，专注于药物类分子的研究。该数据集包含1,936,929个分子，总计15,716,667个构象，涵盖了能量、力、哈密顿量和重叠矩阵等多种量子化学属性，以及波函数对象和优化轨迹。所有计算均在DFT水平（ωB97X-D/def2-SVP）进行。∇2DFT不仅是数据量的显著扩展，还首次包含了大量药物类分子的松弛轨迹。该数据集的应用领域广泛，主要用于支持神经网络势能（NNPs）的训练，以解决分子属性预测、哈密顿量预测和构象优化等关键问题，为药物设计和化学科学提供了强大的数据支持。

∇2DFT is a comprehensive quantum chemistry dataset developed by the AIRI Moscow Research Institute, dedicated to the investigation of drug-like molecules. This dataset encompasses 1,936,929 molecules and a total of 15,716,667 conformations, covering diverse quantum chemical properties such as energy, forces, Hamiltonian, and overlap matrices, alongside wavefunction objects and optimization trajectories. All calculations were conducted at the DFT level of theory (ωB97X-D/def2-SVP). ∇2DFT not only represents a substantial expansion in data scale, but also incorporates a large corpus of relaxation trajectories for drug-like molecules for the first time. This dataset finds wide-ranging applications, primarily supporting the training of Neural Network Potentials (NNPs) to tackle key challenges including molecular property prediction, Hamiltonian prediction, and conformation optimization, thereby providing robust data support for drug design and chemical science.

提供机构：

AIRI, Moscow

创建时间：

2024-06-20

原始信息汇总

$

abla^2$ DFT 数据集概述

数据集描述

$ abla^2$ DFT 是一个基于 nablaDFT 的新数据集和基准，包含两倍的分子结构、三倍多的构象、新的数据类型和任务，以及最先进的模型。数据集包括能量、力、17种分子属性、哈密顿矩阵和重叠矩阵，以及波函数对象。所有计算均在 DFT 级别（ωB97X-D/def2-SVP）下进行。此外，$ abla^2$ DFT 是首个包含大量药物类分子弛豫轨迹的数据集。

数据集内容

分子数量：1,936,931 个分子
原子类型：C, N, S, O, F, Cl, Br, H
唯一骨架数量：226,424 个 Bemis-Murcko 骨架
唯一片段数量：34,572 个 BRICS 片段
构象数量：每个分子有 1 到 62 个唯一构象，总共 12,676,264 个构象
计算属性：能量（E）、DFT 哈密顿矩阵（H）、DFT 重叠矩阵（S）
计算方法：Kohn-Sham 方法，ωB97X-D/def2-SVP 级别，使用 Psi4 软件包

数据集分割

数据集提供了多个分割，用于不同模型的比较。

数据下载

哈密顿矩阵数据库：包含不同的训练和测试子集，链接在 Hamiltonian databases
能量数据库：包含不同的训练和测试子集，链接在 Energy databases
原始 psi4 波函数：链接在 wave functions
摘要文件：包含构象索引、SMILES、原子 DFT 属性和波函数归档名称的 CSV 文件，链接在 summary.csv
轨迹摘要文件：包含构象索引、能量和力的优化轨迹的 CSV 文件，链接在 trajectories_summary.csv
构象文件：包含 xyz 文件的 tar 归档，链接在 archive

数据访问示例

哈密顿矩阵数据库：下载最小文件（train-tiny 数据分割，14 Gb）并访问数据
能量数据库：下载最小文件（train-tiny 数据分割，51 Mb）并访问数据
原始 psi4 波函数：下载最小文件（6.8 Gb）并加载各种属性

模型列表

SchNOrb
PhiSNet
SchNet
PaiNN
DimeNet++
EquiformerV2
eSCN
GemNet-OC
Graphormer3D
QHNet

模型性能

模型性能通过能量预测和力预测的平均绝对误差（MAE）进行评估，具体数据见下表：

能量预测 MAE

<table border="1" class="dataframe"> <thead> <tr style="text-align: center;"> <th rowspan="3">Model</th> <th colspan="12"> MAE for energy prediction $ imes 10^{−2} E_h$ (↓)</th> </tr> <tr> <th colspan="4">Test ST</th> <th colspan="4">Test SF</th> <th colspan="4">Test CF</th> </tr> <tr> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> </tr> </thead> <tbody> <tr> <td>LR</td> <td>4.86</td> <td>4.64</td> <td>4.56</td> <td>4.56</td> <td>4.37</td> <td>4.18</td> <td>4.12</td> <td>4.15</td> <td>3.76</td> <td>3.61</td> <td>3.69</td> <td>3.95</td> </tr> <tr> <td>SchNet</td> <td>1.17</td> <td>0.90</td> <td>1.10</td> <td>0.31</td> <td>1.19</td> <td>0.92</td> <td>1.11</td> <td>0.31</td> <td>0.56</td> <td>0.63</td> <td>0.88</td> <td>0.28</td> </tr> <tr> <td>SchNOrb</td> <td>0.83</td> <td>0.47</td> <td>0.39</td> <td>0.39</td> <td>0.86</td> <td>0.46</td> <td>0.37</td> <td>0.39</td> <td>0.37</td> <td>0.26</td> <td>0.27</td> <td>0.36</td> </tr> <tr> <td>DimeNet++</td> <td>42.84</td> <td>0.56</td> <td>0.21</td> <td>0.09</td> <td>37.41</td> <td>0.41</td> <td>0.19</td> <td>0.08</td> <td>0.42</td> <td>0.10</td> <td>0.09</td> <td>0.07</td> </tr> <tr> <td>PAINN</td> <td>0.82</td> <td>0.60</td> <td>0.36</td> <td>0.09</td> <td>0.86</td> <td>0.61</td> <td>0.36</td> <td>0.09</td> <td>0.43</td> <td>0.49</td> <td>0.28</td> <td>0.08</td> </tr> <tr> <td>Graphormer3D-small</td> <td>1.54</td> <td>0.96</td> <td>0.77</td> <td>0.37</td> <td>1.58</td> <td>0.94</td> <td>0.75</td> <td>0.36</td> <td>0.99</td> <td>0.67</td> <td>0.58</td> <td>0.39</td> </tr> <tr> <td>GemNet-OC</td> <td>2.79</td> <td>0.65</td> <td>0.28</td> <td>0.22</td> <td>2.59</td> <td>0.59</td> <td>0.27</td> <td>0.23</td> <td>0.52</td> <td>0.20</td> <td>0.15</td> <td>0.24</td> </tr> <tr> <td>Equiformer_V2</td> <td>2.81</td> <td>1.13</td> <td>0.28</td> <td>0.19</td> <td>2.65</td> <td>1.13</td> <td>0.28</td> <td>0.18</td> <td>0.45</td> <td>0.23</td> <td>0.24</td> <td>0.16</td> </tr> <tr> <td>eSCN</td> <td>1.87</td> <td>0.47</td> <td>0.94</td> <td>0.42</td> <td>1.87</td> <td>0.47</td> <td>0.92</td> <td>0.42</td> <td>0.48</td> <td>0.31</td> <td>0.80</td> <td>0.44</td> </tr> </tbody> </table>

力预测 MAE

<table border="1" class="dataframe"> <thead> <tr style="text-align: center;"> <th rowspan="3">Model</th> <th colspan="12"> MAE for forces prediction $ imes 10^{−2} E_h*A^{-1}$ (↓)</th> </tr> <tr> <th colspan="4">Test ST</th> <th colspan="4">Test SF</th> <th colspan="4">Test CF</th> </tr> <tr> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> </tr> </thead> <tbody> <tr> <td>SchNet</td> <td>0.44</td> <td>0.37</td> <td>0.41</td> <td>0.16</td> <td>0.45</td> <td>0.37</td> <td>0.41</td> <td>0.16</td> <td>0.32</td> <td>0.30</td> <td>0.37</td> <td>0.14</td> </tr> <tr> <td>DimeNet++</td> <td>1.31</td> <td>0.20</td> <td>0.13</td> <td>0.065</td> <td>1.36</td> <td>0.19</td> <td>0.13</td> <td>0.066</td> <td>0.26</td> <td>0.12</td> <td>0.10</td> <td>0.062</td> </tr> <tr> <td>PAINN</td> <td>0.37</td> <td>0.26</td> <td>0.17</td> <td>0.058</td> <td>0.38</td> <td>0.26</td> <td>0.17</td> <td>0.058</td> <td>0.23</td> <td>0.22</td> <td>0.14</td> <td>0.052</td> </tr> <tr> <td>Graphormer3D-small</td> <td><

搜集汇总

数据集介绍

构建方式

∇2DFT 数据集的构建基于 nablaDFT 数据集，它通过扩展 nablaDFT 数据集的分子结构和构象数量，以及引入新的数据类型和任务，以创建一个用于训练神经网络势能（NNPs）和评估量子化学模型的通用数据集。该数据集包含超过 190 万个药物类分子的结构和 1260 万个构象，所有计算均在 DFT 级别（ωB97X-D/def2-SVP）上进行。此外，∇2DFT 是第一个包含大量药物类分子的弛豫轨迹的数据集，为构象优化研究提供了重要资源。

特点

∇2DFT 数据集的特点在于其多样性、全面性和实用性。该数据集提供了超过 30 种量子化学性质，包括能量、力、哈密顿矩阵、重叠矩阵、波函数对象和优化轨迹。此外，∇2DFT 还包含用于评估 NNPs 在分子性质预测、哈密顿矩阵预测和构象优化任务中的性能的基准，以及一个包含 10 个量子化学模型的扩展框架。这些特点使得 ∇2DFT 成为量子化学模型训练和评估的宝贵资源。

使用方法

使用 ∇2DFT 数据集时，首先需要根据研究任务选择合适的数据子集，例如，对于哈密顿矩阵预测任务，可以使用 SchNOrb、PhiSNet 和 QHNet 模型。然后，在选定的数据子集上训练模型，并使用提供的测试集评估模型的性能。对于构象优化任务，可以使用 SchNet、PaiNN 和 DimeNet++ 等模型进行训练和评估。∇2DFT 数据集还提供了丰富的文档和代码，以帮助用户有效地使用数据集。

背景与挑战

背景概述

在药物发现和化学科学领域，计算量子化学方法提供了对分子性质的精确近似，这些性质对于计算机辅助药物发现至关重要。然而，这些方法的计算复杂度限制了其在实际应用中的可扩展性。神经网络势能（NNPs）作为一种有前景的替代方法，但它们需要大量和多样化的数据集进行训练。本文介绍了一个名为∇2DFT的新数据集和基准，它基于nablaDFT。该数据集包含两倍的分子结构，三倍的构象，新的数据类型和任务，以及最先进的模型。数据集包括能量、力、17种分子性质、哈密顿算符和重叠矩阵，以及波函数对象。所有计算都是在DFT水平（ωB97X-D/def2-SVP）下为每个构象进行的。此外，∇2DFT是第一个包含大量药物样分子的松弛轨迹的数据集。我们还引入了一个新的基准，用于评估NNPs在分子性质预测、哈密顿预测和构象优化任务中的性能。最后，我们提出了一个可扩展的框架来训练NNPs，并在其中实现了10个模型。

当前挑战

∇2DFT数据集在量子化学领域面临着一些挑战。首先，数据集没有包含溶剂化分子或蛋白质-配体对，这对于药物设计中的机器学习应用非常重要。其次，数据集缺乏带电和开放壳层系统、纳米颗粒、纳米管、大环和其他非药物样结构。此外，∇2DFT不适合材料科学和无机化学，也不适合基于机器学习的长程和非共价相互作用的研究。

常用场景

经典使用场景

∇2DFT 数据集在量子化学领域中被广泛用于训练和评估神经网络势能模型（NNPs）。这些模型旨在预测分子结构中的能量和原子间作用力，这对于计算机辅助药物设计和材料科学至关重要。∇2DFT 提供了大量的药物分子结构、构象、量子化学性质、哈密顿矩阵和波函数对象，为训练高性能的 NNPs 提供了宝贵的数据基础。

实际应用

∇2DFT 数据集在实际应用中具有重要的价值。它可以帮助研究人员开发更准确的药物分子模型，从而加速药物设计和材料科学的进程。此外，∇2DFT 还可以用于训练和评估其他类型的量子化学模型，如哈密顿矩阵预测模型和波函数学习模型。这些模型可以用于预测分子的各种性质，如能量、力、哈密顿矩阵和波函数，从而为量子化学研究提供更多的可能性。

衍生相关工作

∇2DFT 数据集的发布促进了相关领域的研究。例如，基于 ∇2DFT 的研究可以帮助开发更准确的 NNPs，用于预测分子结构和性质。此外，∇2DFT 还可以用于研究构象优化问题，以及开发新的量子化学模型。这些研究对于推动量子化学和计算化学的发展具有重要意义。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集