five

msr-acc-tae25

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/microsoft/msr-acc-tae25
下载链接
链接失效反馈
官方服务:
资源简介:
MSR-ACC/TAE25数据集是微软研究精确化学集合(MSR-ACC)的一部分,包含73,040个在CCSD(T)/CBS级别上通过W1-F12热化学协议获得的总原子化能量。该数据集旨在全面覆盖由最多5个非氢原子组成的闭壳、电荷中性、共价键平衡分子结构的化学空间,这些原子来自氩元素以下的元素,且不具有显著的多参考特性。数据集以QCSchema格式存储,包含符号、几何结构、分子电荷、分子多重性等关键字段,以及额外的原子计数、分子图和能量差等信息。该数据集适用于开发和评估机器学习、密度泛函理论和半经验方法,特别适用于验证模型在广泛化学空间中的泛化能力。数据集还提供了详细的引用、许可和联系人信息。

The MSR-ACC/TAE25 dataset is part of the Microsoft Research Accurate Chemistry Collection (MSR-ACC), containing 73,040 total atomization energies obtained at the CCSD(T)/CBS level through the W1-F12 thermochemical protocol. The dataset aims to comprehensively cover the chemical space of closed-shell, charge-neutral, covalently bonded equilibrium molecular structures composed of up to 5 non-hydrogen atoms from elements below argon and without significant multi-reference character. The dataset is stored in QCSchema format, including key fields such as symbols, geometries, molecular charges, molecular multiplicity, as well as additional information like atom counts, molecular graphs, and energy differences. This dataset is suitable for developing and evaluating machine learning, density functional theory, and semi-empirical methods, particularly for validating model generalization across a broad chemical space. The dataset also provides detailed citation, licensing, and contact information.
提供机构:
Microsoft
创建时间:
2026-04-23
原始信息汇总

数据集名称

Microsoft Research - Accurate Chemistry Collection: Total Atomization Energies (MSR-ACC/TAE25)

数据集描述

该数据集由微软研究院发布,包含 73,040 个总原子化能(Total Atomization Energies, TAE),计算水平为 CCSD(T)/CBS,采用 W1-F12 热化学协议。数据集旨在全面覆盖化学空间中的闭壳层、电中性、共价键合的平衡分子结构,这些分子最多包含 5 个非氢原子(元素范围至氩),且缺乏显著的多参考特征。数据集的生成方法详见论文《Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space》。

数据集用途

  • 用于开发和评估通用的机器学习、密度泛函理论(DFT)和半经验方法。
  • 已用于训练首个在原子化能方面达到化学精度的交换相关泛函。
  • 可作为大规模、化学多样性的测试集,识别系统误差并验证近似电子结构方法(如描述 s 区和 p 区化合物中的键能)。
  • 适用于深度学习 DFT 方法、图神经网络(GNN)等模型的训练与验证。
  • 可通过筛选生成高度特定的基准,用于回答实际问题(例如为特定化学体系选择最准确的泛函)。

数据模式与字段说明

分子以 QCSchema 格式存储。关键字段包括:

  • symbols:原子符号
  • geometry:分子几何坐标
  • molecular_charge:分子电荷
  • molecular_multiplicity:分子多重度
  • name:分子式
  • atomic_numbers:各原子的核电荷数
  • sha1:每个 QCSchema 文档的 SHA1 哈希值

额外列包括:

  • atom-count:all:总原子数
  • atom-count:non-h:非氢原子数
  • graph:all:包含所有原子的分子图
  • graph:non-h:包含非氢原子的分子图
  • singlet-triplet-gap-s0-t1@**:指定理论水平下 s0 与 t1 态的能量差
  • tae:frac[(T)]@**:微扰三激发贡献占总原子化能的分数
  • tae@**:指定理论水平下的总原子化能
  • tae[*]@**:指定理论水平下总原子化能的分量

其中 tae@w1-f12 列提供与实验值相比精度最高的参考标号。

使用说明

用户需计算分子的总原子化能(TAE),定义如下:

TAE = n × E(A) - E(M)

其中,n 为分子 M 中某原子 A 的个数,E(A) 为原子 A 处于基态多重度时的能量。

各原子基态多重度参考:

  • 氢 (H):双态
  • 锂 (Li):双态
  • 铍 (Be):单态
  • 硼 (B):双态
  • 碳 (C):三重态
  • 氮 (N):四重态
  • 氧 (O):三重态
  • 氟 (F):双态
  • 钠 (Na):双态
  • 镁 (Mg):单态
  • 铝 (Al):双态
  • 硅 (Si):三重态
  • 磷 (P):四重态
  • 硫 (S):三重态
  • 氯 (Cl):双态

许可协议

社区数据许可协议 - 许可版 - 版本 2.0 (Community Data License Agreement - Permissive - Version 2.0)

引用方式

使用 MSR-ACC/TAE25 时,请引用:

This work uses the MSR-ACC/TAE25 dataset.

对应的 BibTeX 引用:

@misc{ehlert2025, title={Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space}, author={Ehlert, Sebastian and Hermann, Jan and Vogels, Thijs and Satorras, Victor Garcia and Lanius, Stephanie and Segler, Marwin and Giesbertz, Klaas JH and Kooi, Derk P and Takeda, Kenji and Huang, Chin-Wei and Luise, Giulia and van den Berg, Rianne and Gori-Giorgi, Paola and Karton, Amir}, year={2025}, eprint={2506.14492}, archivePrefix={arXiv}, primaryClass={physics.chem-ph}, url={https://arxiv.org/abs/2506.14492}, }

数据集来源

数据集从 Zenodo 记录导入(DOI: 10.5281/zenodo.17629321)。

联系方式

  • Amir Karton: amir.karton@une.edu.au
  • Jan Hermann: jan.hermann@microsoft.com
  • Sebastian Ehlert: sehlert@microsoft.com
搜集汇总
数据集介绍
main_image_url
构建方式
MSR-ACC/TAE25数据集由微软研究院(Microsoft Research)构建,旨在为机器学习泛函训练提供高精度的耦合簇标签。该数据集包含73,040个总原子化能(Total Atomization Energies, TAE),均采用CCSD(T)/CBS级别的理论水平,并遵循W1-F12热化学协议计算获得。数据集的生成过程系统性地覆盖了闭壳层、电中性、共价键合的平衡分子结构化学空间,这些分子最多包含5个非氢原子(源自元素周期表前18号元素),且不具备显著的多参考态特征。详细的构建方法描述见相关预印本论文。
特点
该数据集的核心特色在于其规模宏大、化学多样性丰富且精度卓越。对比那些规模较小或专业性更强的TAE数据库,MSR-ACC/TAE53提供了庞大且化学种类多样的测试集,可用于识别近似电子结构方法(如描述含s-和p-区元素化合物中键能)的系统性误差并进行验证。数据的广泛性和准确性不仅有助于开发深度学习密度泛函理论方法,还能用于训练和验证图神经网络等模型,严格检验其泛化能力是否超越GDB-9等数据集的典型有机化学范畴。此外,用户可按需对数据集进行筛选,构建高度特定的基准测试,以回答实际问题。
使用方法
使用MSR-ACC/TAE25数据集时,用户需计算分子的总原子化能(TAE)。TAE定义为分子中所有原子的能量总和减去分子本身的能量,其中各原子需处于其基态多重度。数据集以QCSchema格式存储分子信息,其中symbols、geometry、molecular_charge和molecular_multiplicity字段足以构建完整的QCSchema文档。同时,提供了元素符号、原子序数以及每个QCSchema文档的SHA1哈希值,并额外包含描述原子数量、分子图以及不同理论水平下TAE组分等信息的列。最为关键的标签是tae@w1-f12列,该列提供了与实验值相比精度最高的参考能量值。
背景与挑战
背景概述
在量子化学领域,精确计算分子的总原子化能(TAE)是评估和发展电子结构方法的核心基准,尤其对于涵盖s区和p区元素的复杂化合物体系,传统实验与理论方法常面临精度与适用范围的双重挑战。由微软研究院(Microsoft Research)主导,联合新英格兰大学等机构的研究团队(Sebastian Ehlert、Jan Hermann、Amir Karton等人)于2025年创建的MSR-ACC/TAE25数据集,旨在解决这一关键瓶颈。该数据集包含73,040个闭壳层、电中性、共价键合平衡分子结构的总原子化能,这些标签通过CCSD(T)/CBS水平结合W1-F12热化学协议计算获得,严格限定非氢原子数不超过5个且元素范围覆盖至氩,并排除了具有显著多参考特征的体系。数据集的设计不仅为机器学习、密度泛函理论(DFT)及半经验方法的开发与验证提供了大规模、高化学多样性的测试平台,更已成功用于训练首个达到化学精度的交换关联泛函,标志着数据驱动方法在电子结构理论中的突破性进展,其影响力迅速辐射至图神经网络等模型的泛化能力测试与定制化基准构建中。
当前挑战
该数据集所解决的领域核心挑战在于:传统DFT和半经验方法在预测主族元素化合物键能时,通常存在系统性误差,难以在广阔化学空间中稳定达到化学精度(通常定义为1 kcal/mol以内的平均绝对误差),而现有的小规模或专业TAE数据库无法有效暴露这些方法的泛化缺陷。MSR-ACC/TAE25通过提供高度多样化的闭壳层共价体系,使研究者能够系统识别和校正这些误差,例如在描述磷硫化合物等非常规有机分子的键能时。在数据集构建过程中,研究团队面临多重挑战:首先,需精确处理从H到Ar元素范围内大量分子的高精度耦合簇计算,这要求严格筛选缺乏多参考特征的体系以避免计算失效;其次,通过W1-F12协议逐分子计算CCSD(T)/CBS级别的TAE是一项计算资源极度密集的任务,必须平衡计算成本与数据规模;此外,为保证数据的一致性与可重复性,还需标准化分子几何、自旋多重性等输入条件,并以QCSchema格式存储,最终形成兼具广度与精度的基准资源,从而支持机器学习模型在实际应用中的可靠泛化。
常用场景
经典使用场景
MSR-ACC/TAE25数据集在量子化学计算领域被誉为一座里程碑式的资源宝库。其核心应用场景在于为机器学习模型提供高精度、大覆盖面的总原子化能基准标签,从而推动新一代交换关联泛函的研发。该数据集涵盖了73040个闭壳层、电中性、共价平衡分子结构的总原子化能,计算精度达到CCSD(T)/CBS水平,并采用W1-F12热化学协议确保数据可靠性。研究者可利用此数据集训练和评估深度学习的密度泛函理论方法、图神经网络以及半经验模型,尤其适用于检验这些方法在广义化学空间中对键能预测的泛化能力,突破了传统有机化学数据的局限。
衍生相关工作
自MSR-ACC/TAE25发布以来,该数据集已催生了一系列重要的后续研究工作。其中最具标志性的成果是成功训练出首个达到化学精度的交换关联泛函,标志着机器学习与密度泛函理论深度融合的重大突破。此外,数据集的发布促进了图神经网络在分子性质预测领域的基准测试,研究者得以系统性地检验GNN模型在处理非有机分子、含多主族元素复杂结构时的外推能力。在更广泛的层面,该数据集推动了基于大规模精确数据的热化学协议标准化工作,并启发了其他专门化数据集(如针对特定化学键类型或反应路径)的构建方法,形成了从数据生成、模型训练到系统误差分析的完整学术研究链条。
数据集最近研究
最新研究方向
量子化学领域迎来了一项里程碑式的数据资源——MSR-ACC/TAE25,该数据集由微软研究院发布,囊括了73,040个在CCSD(T)/CBS理论水平下、经W1-F12热化学协议校正的总原子化能标签。其卓越之处在于系统性地覆盖了闭壳层、电中性、共价键合的平衡分子结构空间,涵盖了高达五个非氢原子且无显著多参考特性的s区和p区元素化合物。这一大规模、高精度且化学多样性丰富的数据库,不仅为训练首个达到化学精度的交换相关泛函提供了基石,更开辟了验证深度学习密度泛函理论、图神经网络以及半经验方法的全新途径。相较于GDB-9等以有机分子为主的传统数据集,MSR-ACC/TAE25因其严格的耦合簇标签与广泛的元素覆盖,在揭示近似电子结构方法的系统误差、评估模型对非常规化学体系(如磷硫化合物)的泛化能力方面展现出无可替代的价值,正引领着计算化学从专一化基准迈向普适性验证的新纪元。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作