nablaDFT
收藏数据集概述
数据集名称
$ abla^2$ DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
数据集版本
2.0
数据集来源
基于Molecular Sets (MOSES)数据集的子集。
数据集内容
包含1,936,931个分子,这些分子包含C, N, S, O, F, Cl, Br, H等原子。数据集包含226,424个独特的Bemis-Murcko骨架和34,572个独特的BRICS片段。
数据集结构
- 每个分子提供1到62个独特构象,总计12,676,264个构象。
- 每个构象计算了其电子性质,包括能量(E)、DFT哈密顿矩阵(H)和DFT重叠矩阵(S)。
- 所有性质使用Kohn-Sham方法在ωB97X-D/def2-SVP理论水平上计算,使用量子化学软件包Psi4(版本1.5)。
数据集分割
提供多个数据集分割,用于不同模型的比较。
数据集下载
- 哈密顿矩阵数据库:链接位于Hamiltonian databases。
- 能量数据库:链接位于Energy databases。
- 原始Psi4波函数:链接位于wave functions。
- 总结文件:summary.csv和trajectories_summary.csv。
- 构象文件:archive。
数据集使用
- 提供了访问数据集元素的示例代码,包括哈密顿矩阵数据库和能量数据库的下载和使用。
- 提供了使用Psi4波函数的示例代码,用于加载和分析各种量子化学属性。
数据集引用
若在研究中使用此数据集,请引用:
@article{10.1039/D2CP03966D, author ="Khrabrov, Kuzma and Shenbin, Ilya and Ryabov, Alexander and Tsypin, Artem and Telepov, Alexander and Alekseev, Anton and Grishin, Alexander and Strashnov, Pavel and Zhilyaev, Petr and Nikolenko, Sergey and Kadurin, Artur", title ="nablaDFT: Large-Scale Conformational Energy and Hamiltonian Prediction benchmark and dataset", journal ="Phys. Chem. Chem. Phys.", year ="2022", volume ="24", issue ="42", pages ="25853-25863", publisher ="The Royal Society of Chemistry", doi ="10.1039/D2CP03966D", url ="http://dx.doi.org/10.1039/D2CP03966D"}




