msr-acc-tae25
收藏数据集名称
Microsoft Research - Accurate Chemistry Collection: Total Atomization Energies (MSR-ACC/TAE25)
数据集描述
该数据集由微软研究院发布,包含 73,040 个总原子化能(Total Atomization Energies, TAE),计算水平为 CCSD(T)/CBS,采用 W1-F12 热化学协议。数据集旨在全面覆盖化学空间中的闭壳层、电中性、共价键合的平衡分子结构,这些分子最多包含 5 个非氢原子(元素范围至氩),且缺乏显著的多参考特征。数据集的生成方法详见论文《Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space》。
数据集用途
- 用于开发和评估通用的机器学习、密度泛函理论(DFT)和半经验方法。
- 已用于训练首个在原子化能方面达到化学精度的交换相关泛函。
- 可作为大规模、化学多样性的测试集,识别系统误差并验证近似电子结构方法(如描述 s 区和 p 区化合物中的键能)。
- 适用于深度学习 DFT 方法、图神经网络(GNN)等模型的训练与验证。
- 可通过筛选生成高度特定的基准,用于回答实际问题(例如为特定化学体系选择最准确的泛函)。
数据模式与字段说明
分子以 QCSchema 格式存储。关键字段包括:
- symbols:原子符号
- geometry:分子几何坐标
- molecular_charge:分子电荷
- molecular_multiplicity:分子多重度
- name:分子式
- atomic_numbers:各原子的核电荷数
- sha1:每个 QCSchema 文档的 SHA1 哈希值
额外列包括:
atom-count:all:总原子数atom-count:non-h:非氢原子数graph:all:包含所有原子的分子图graph:non-h:包含非氢原子的分子图singlet-triplet-gap-s0-t1@**:指定理论水平下 s0 与 t1 态的能量差tae:frac[(T)]@**:微扰三激发贡献占总原子化能的分数tae@**:指定理论水平下的总原子化能tae[*]@**:指定理论水平下总原子化能的分量
其中 tae@w1-f12 列提供与实验值相比精度最高的参考标号。
使用说明
用户需计算分子的总原子化能(TAE),定义如下:
TAE = n × E(A) - E(M)
其中,n 为分子 M 中某原子 A 的个数,E(A) 为原子 A 处于基态多重度时的能量。
各原子基态多重度参考:
- 氢 (H):双态
- 锂 (Li):双态
- 铍 (Be):单态
- 硼 (B):双态
- 碳 (C):三重态
- 氮 (N):四重态
- 氧 (O):三重态
- 氟 (F):双态
- 钠 (Na):双态
- 镁 (Mg):单态
- 铝 (Al):双态
- 硅 (Si):三重态
- 磷 (P):四重态
- 硫 (S):三重态
- 氯 (Cl):双态
许可协议
社区数据许可协议 - 许可版 - 版本 2.0 (Community Data License Agreement - Permissive - Version 2.0)
引用方式
使用 MSR-ACC/TAE25 时,请引用:
This work uses the MSR-ACC/TAE25 dataset.
对应的 BibTeX 引用:
@misc{ehlert2025, title={Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space}, author={Ehlert, Sebastian and Hermann, Jan and Vogels, Thijs and Satorras, Victor Garcia and Lanius, Stephanie and Segler, Marwin and Giesbertz, Klaas JH and Kooi, Derk P and Takeda, Kenji and Huang, Chin-Wei and Luise, Giulia and van den Berg, Rianne and Gori-Giorgi, Paola and Karton, Amir}, year={2025}, eprint={2506.14492}, archivePrefix={arXiv}, primaryClass={physics.chem-ph}, url={https://arxiv.org/abs/2506.14492}, }
数据集来源
数据集从 Zenodo 记录导入(DOI: 10.5281/zenodo.17629321)。
联系方式
- Amir Karton: amir.karton@une.edu.au
- Jan Hermann: jan.hermann@microsoft.com
- Sebastian Ehlert: sehlert@microsoft.com




