∇2DFT
收藏$
abla^2$ DFT 数据集概述
数据集描述
$ abla^2$ DFT 是一个基于 nablaDFT 的新数据集和基准,包含两倍的分子结构、三倍多的构象、新的数据类型和任务,以及最先进的模型。数据集包括能量、力、17种分子属性、哈密顿矩阵和重叠矩阵,以及波函数对象。所有计算均在 DFT 级别(ωB97X-D/def2-SVP)下进行。此外,$ abla^2$ DFT 是首个包含大量药物类分子弛豫轨迹的数据集。
数据集内容
- 分子数量:1,936,931 个分子
- 原子类型:C, N, S, O, F, Cl, Br, H
- 唯一骨架数量:226,424 个 Bemis-Murcko 骨架
- 唯一片段数量:34,572 个 BRICS 片段
- 构象数量:每个分子有 1 到 62 个唯一构象,总共 12,676,264 个构象
- 计算属性:能量(E)、DFT 哈密顿矩阵(H)、DFT 重叠矩阵(S)
- 计算方法:Kohn-Sham 方法,ωB97X-D/def2-SVP 级别,使用 Psi4 软件包
数据集分割
数据集提供了多个分割,用于不同模型的比较。
数据下载
- 哈密顿矩阵数据库:包含不同的训练和测试子集,链接在 Hamiltonian databases
- 能量数据库:包含不同的训练和测试子集,链接在 Energy databases
- 原始 psi4 波函数:链接在 wave functions
- 摘要文件:包含构象索引、SMILES、原子 DFT 属性和波函数归档名称的 CSV 文件,链接在 summary.csv
- 轨迹摘要文件:包含构象索引、能量和力的优化轨迹的 CSV 文件,链接在 trajectories_summary.csv
- 构象文件:包含 xyz 文件的 tar 归档,链接在 archive
数据访问示例
- 哈密顿矩阵数据库:下载最小文件(
train-tiny数据分割,14 Gb)并访问数据 - 能量数据库:下载最小文件(
train-tiny数据分割,51 Mb)并访问数据 - 原始 psi4 波函数:下载最小文件(6.8 Gb)并加载各种属性
模型列表
- SchNOrb
- PhiSNet
- SchNet
- PaiNN
- DimeNet++
- EquiformerV2
- eSCN
- GemNet-OC
- Graphormer3D
- QHNet
模型性能
模型性能通过能量预测和力预测的平均绝对误差(MAE)进行评估,具体数据见下表:
能量预测 MAE
<table border="1" class="dataframe"> <thead> <tr style="text-align: center;"> <th rowspan="3">Model</th> <th colspan="12"> MAE for energy prediction $ imes 10^{−2} E_h$ (↓)</th> </tr> <tr> <th colspan="4">Test ST</th> <th colspan="4">Test SF</th> <th colspan="4">Test CF</th> </tr> <tr> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> </tr> </thead> <tbody> <tr> <td><i>LR</i></td> <td><i>4.86</i></td> <td><i>4.64</i></td> <td><i>4.56</i></td> <td><i>4.56</i></td> <td><i>4.37</i></td> <td><i>4.18</i></td> <td><i>4.12</i></td> <td><i>4.15</i></td> <td><i>3.76</i></td> <td><i>3.61</i></td> <td><i>3.69</i></td> <td><i>3.95</i></td> </tr> <tr> <td><i>SchNet</i></td> <td><i>1.17</i></td> <td><i>0.90</i></td> <td><i>1.10</i></td> <td><i>0.31</i></td> <td><i>1.19</i></td> <td><i>0.92</i></td> <td><i>1.11</i></td> <td><i>0.31</i></td> <td><i>0.56</i></td> <td><i>0.63</i></td> <td><i>0.88</i></td> <td><i>0.28</i></td> </tr> <tr> <td><i>SchNOrb</i></td> <td><i>0.83</i></td> <td><i>0.47</i></td> <td><i>0.39</i></td> <td><i>0.39</i></td> <td><i>0.86</i></td> <td><i>0.46</i></td> <td><i>0.37</i></td> <td><i>0.39</i></td> <td><i>0.37</i></td> <td><i>0.26</i></td> <td><i>0.27</i></td> <td><i>0.36</i></td> </tr> <tr> <td><i>DimeNet++</i></td> <td><i>42.84</i></td> <td><i>0.56</i></td> <td><i>0.21</i></td> <td><i>0.09</i></td> <td><i>37.41</i></td> <td><i>0.41</i></td> <td><i>0.19</i></td> <td><i>0.08</i></td> <td><i>0.42</i></td> <td><i>0.10</i></td> <td><i>0.09</i></td> <td><i>0.07</i></td> </tr> <tr> <td><i>PAINN</i></td> <td><i>0.82</i></td> <td><i>0.60</i></td> <td><i>0.36</i></td> <td><i>0.09</i></td> <td><i>0.86</i></td> <td><i>0.61</i></td> <td><i>0.36</i></td> <td><i>0.09</i></td> <td><i>0.43</i></td> <td><i>0.49</i></td> <td><i>0.28</i></td> <td><i>0.08</i></td> </tr> <tr> <td><i>Graphormer3D-small</i></td> <td><i>1.54</i></td> <td><i>0.96</i></td> <td><i>0.77</i></td> <td><i>0.37</i></td> <td><i>1.58</i></td> <td><i>0.94</i></td> <td><i>0.75</i></td> <td><i>0.36</i></td> <td><i>0.99</i></td> <td><i>0.67</i></td> <td><i>0.58</i></td> <td><i>0.39</i></td> </tr> <tr> <td><i>GemNet-OC</i></td> <td><i>2.79</i></td> <td><i>0.65</i></td> <td><i>0.28</i></td> <td><i>0.22</i></td> <td><i>2.59</i></td> <td><i>0.59</i></td> <td><i>0.27</i></td> <td><i>0.23</i></td> <td><i>0.52</i></td> <td><i>0.20</i></td> <td><i>0.15</i></td> <td><i>0.24</i></td> </tr> <tr> <td><i>Equiformer_V2</i></td> <td><i>2.81</i></td> <td><i>1.13</i></td> <td><i>0.28</i></td> <td><i>0.19</i></td> <td><i>2.65</i></td> <td><i>1.13</i></td> <td><i>0.28</i></td> <td><i>0.18</i></td> <td><i>0.45</i></td> <td><i>0.23</i></td> <td><i>0.24</i></td> <td><i>0.16</i></td> </tr> <tr> <td><i>eSCN</i></td> <td><i>1.87</i></td> <td><i>0.47</i></td> <td><i>0.94</i></td> <td><i>0.42</i></td> <td><i>1.87</i></td> <td><i>0.47</i></td> <td><i>0.92</i></td> <td><i>0.42</i></td> <td><i>0.48</i></td> <td><i>0.31</i></td> <td><i>0.80</i></td> <td><i>0.44</i></td> </tr> </tbody> </table>
力预测 MAE
<table border="1" class="dataframe"> <thead> <tr style="text-align: center;"> <th rowspan="3">Model</th> <th colspan="12"> MAE for forces prediction $ imes 10^{−2} E_h*A^{-1}$ (↓)</th> </tr> <tr> <th colspan="4">Test ST</th> <th colspan="4">Test SF</th> <th colspan="4">Test CF</th> </tr> <tr> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> <th>tiny</th> <th>small</th> <th>medium</th> <th>large</th> </tr> </thead> <tbody> <tr> <td><i>SchNet</i></td> <td><i>0.44</i></td> <td><i>0.37</i></td> <td><i>0.41</i></td> <td><i>0.16</i></td> <td><i>0.45</i></td> <td><i>0.37</i></td> <td><i>0.41</i></td> <td><i>0.16</i></td> <td><i>0.32</i></td> <td><i>0.30</i></td> <td><i>0.37</i></td> <td><i>0.14</i></td> </tr> <tr> <td><i>DimeNet++</i></td> <td><i>1.31</i></td> <td><i>0.20</i></td> <td><i>0.13</i></td> <td><i>0.065</i></td> <td><i>1.36</i></td> <td><i>0.19</i></td> <td><i>0.13</i></td> <td><i>0.066</i></td> <td><i>0.26</i></td> <td><i>0.12</i></td> <td><i>0.10</i></td> <td><i>0.062</i></td> </tr> <tr> <td><i>PAINN</i></td> <td><i>0.37</i></td> <td><i>0.26</i></td> <td><i>0.17</i></td> <td><i>0.058</i></td> <td><i>0.38</i></td> <td><i>0.26</i></td> <td><i>0.17</i></td> <td><i>0.058</i></td> <td><i>0.23</i></td> <td><i>0.22</i></td> <td><i>0.14</i></td> <td><i>0.052</i></td> </tr> <tr> <td><i>Graphormer3D-small</i></td> <td><




