SPICE2(+)-ccECP

Name: SPICE2(+)-ccECP
Creator: 麻省理工学院
Published: 2025-04-11 01:55:09
License: 暂无描述

arXiv2025-04-11 更新2025-04-15 收录

下载链接：

http://arxiv.org/abs/2504.07948v1

下载链接

链接失效反馈

官方服务：

资源简介：

SPICE2(+)-ccECP数据集是一个量子化学数据集，由麻省理工学院的研究团队创建。该数据集通过结合SPICE2数据库和ANI-2X数据集中的精选配置，涵盖了广泛的生物分子系统构象空间，包括多种功能团、环境条件和关键的非平衡配置。数据集采用了DFT、QMC和sCI等多种量子化学方法进行计算，总计包含2,108,628个构象，旨在为机器学习模型提供高保真度参考数据。

SPICE2(+)-ccECP dataset is a quantum chemistry dataset created by a research team at the Massachusetts Institute of Technology (MIT). This dataset combines curated configurations from both the SPICE2 database and the ANI-2X dataset, covering a broad conformational space of biomolecular systems, including diverse functional groups, various environmental conditions, and key non-equilibrium configurations. Multiple quantum chemistry methods such as DFT, QMC, and sCI were employed for its computational calculations, and it contains a total of 2,108,628 conformations. The dataset aims to provide high-fidelity reference data for machine learning models.

提供机构：

麻省理工学院

创建时间：

2025-04-11

搜集汇总

数据集介绍

构建方式

SPICE2(+)-ccECP数据集的构建采用了多层级量子化学计算策略，结合GPU加速的高性能计算协议。首先利用密度泛函理论（DFT）处理210万分子构型作为基础层，随后通过量子蒙特卡洛（QMC）方法对其中4万构型进行高精度能量和力的计算，并创新性地引入选择性组态相互作用（sCI）方法优化多行列式波函数。数据集整合了SPICE2原始构型和ANI-2X的10万活性学习筛选构型，采用相关一致有效核势（ccECP）确保计算效率与精度平衡，最终形成涵盖生物分子反应过程的全面构象空间覆盖。

特点

该数据集的核心价值在于其前所未有的量子化学精度与规模：包含2000个多行列式QMC力计算构型，统计误差控制在0.0005 mHa化学精度阈值内。采用ωB97M-D3BJ泛函与ccECP势的组合，有效捕获生物系统中的非共价相互作用。其创新性体现在首次实现sCI与QMC力的协同计算，通过1.4M行列式波函数将节点面误差降低至~2 mHa，为机器学习势场提供了超越DFT精度的参考数据。

使用方法

数据集专为训练原子尺度基础机器学习模型设计，可与FeNNix-Bio1等神经网络势联合使用。用户可通过QMCPACK调用原始波函数数据进行QMC计算验证，或利用PySCF接口进行DFT级重构。针对病毒体系等生物大分子模拟，建议结合Tinker-HP软件包的Quantum-HP模块实现环聚合物量子分子动力学，配合非监督自适应采样策略可高效探索百万原子体系的反应路径。数据集的层次化结构支持渐进式精度验证，从DFT到多行列式QMC构成完整的精度验证阶梯。

背景与挑战

背景概述

SPICE2(+)-ccECP数据集由Anouar Benali、Thomas Pl´e、Olivier Adjoua等研究人员于2025年提出，旨在通过量子蒙特卡罗（QMC）和路径积分方法推动基础神经网络模型的精度极限。该数据集的核心研究问题在于如何生成高精度的量子化学合成数据，以支持原子级基础机器学习模型的训练。数据集结合了SPICE2数据库和ANI-2X数据库的分子构型，并通过主动学习策略扩展了覆盖范围，涵盖了生物分子系统的多种功能基团和环境条件。该数据集的创建标志着在量子化学计算和分子动力学模拟领域的重要突破，为生物系统的量子精度模拟提供了新的可能性。

当前挑战

SPICE2(+)-ccECP数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，数据集旨在解决量子化学计算中的高精度力场生成问题，尤其是如何通过QMC和sCI方法获得接近精确的量子力学能量和力。这一问题的复杂性在于QMC力的计算具有极高的计算成本和统计噪声。在构建过程中，研究人员需要克服大规模量子化学计算的存储和计算效率问题，例如电子排斥积分（ERIs）的计算和存储，以及如何在GPU上高效实现多中心批处理以优化性能。此外，数据集的大规模生成依赖于高性能计算资源，如Aurora超级计算机，这对算法的并行化和优化提出了极高要求。

常用场景

经典使用场景

SPICE2(+)-ccECP数据集在量子化学和机器学习交叉领域具有广泛的应用。该数据集通过整合量子蒙特卡洛（QMC）和选择性构型相互作用（sCI）方法，提供了高精度的能量和力场数据，为构建原子级基础机器学习模型提供了关键支持。其经典使用场景包括训练神经网络势能面，以模拟生物大分子的量子动力学行为，例如病毒颗粒在酸性环境下的结构响应。

衍生相关工作

基于该数据集衍生的经典工作包括FeNNix-Bio1基础模型的开发，该模型将量子精度与分子动力学效率相结合。此外，研究团队还创建了Tinker-HP/Deep-HP计算框架，实现了路径积分分子动力学与神经网络势能的耦合。这些工作发表在《Journal of Chemical Physics》等顶级期刊，并推动了QMCPACK等量子化学软件在GPU加速方面的重大优化。

数据集最近研究