five

Supplementary data for delta learning CCSD(T) water

收藏
github2025-11-05 更新2025-12-05 收录
下载链接:
https://github.com/fast-group-cam/data_CC_water
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含用于支持论文研究的补充数据,特别是用于训练r^2SCAN基线模型和delta [r^2SCAN -> CCSD(T)]模型的数据集,包括MACE输入训练文件和原子能量数据。

This repository contains supplementary data to support the research detailed in the accompanying paper, specifically the datasets for training the r²SCAN baseline model and the delta [r²SCAN → CCSD(T)] model, including MACE input training files and atomic energy data.
创建时间:
2025-11-05
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Supplementary data for a paper on delta learning CCSD(T) water
  • 关联论文:Towards Routine Condensed Phase Simulations with Delta-Learned Coupled Cluster Accuracy: Application to Liquid Water
  • 论文DOI:https://doi.org/10.1021/acs.jctc.5c01377
  • 作者:Niamh ONeill, Benjamin Xu Shi, William J.Baldwin, William C. Witt, Gábor Csányi, Julian D. Gale, Angelos Michaelides and Christoph Schran

数据集内容

1. 模型文件 (models/)

  • 基线模型:最终 r^2SCAN 基线模型 (models/baseline/model)
  • 增量模型:delta [r^2SCAN -> CCSD(T)] 模型 (models/baseline/model)
  • 模型格式:包含三种格式
    • LAMMPS 兼容的 GPU 模型
    • LAMMPS 兼容的 CPU 模型
    • ASE 兼容的 GPU 模型

2. 训练数据集 (models/*/dataset)

  • 内容:用于训练上述模型的数据集
  • 包含文件:MACE 输入训练文件
  • 额外数据:原子能量数据

3. 代码文件 (cluster-cutting-code/)

  • 脚本名称cut_water.py
  • 功能:用于从周期性构型中切割出水簇以供增量模型使用的小型 Python 脚本

4. 输入文件 (inputs/)

  • 内容:LAMMPS 力场输入文件
  • 兼容版本:包含 Symmetrix 和 GPU LAMMPS 的输入文件
搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学领域,高精度耦合簇方法CCSD(T)的模拟往往受限于其巨大的计算成本,难以直接应用于凝聚相体系。为此,该数据集通过增量学习策略构建,首先基于密度泛函理论方法r^2SCAN生成基线数据,随后针对水分子体系,利用精确的CCSD(T)计算结果作为目标,训练增量模型以校正基线预测与高精度结果之间的偏差。数据生成过程涵盖了从周期性水溶液中切割出的水分子簇,确保了模型能够有效捕捉液态水环境中的电子相关效应与分子间相互作用。
特点
本数据集的核心特点在于其专为增量学习框架设计,提供了从r^2SCAN基线到CCSD(T)精度的校正模型及对应训练数据。数据集不仅包含适用于LAMMPS和ASE等多种模拟软件的模型格式,还附带了原子能量信息与输入训练文件,支持在GPU与CPU平台上高效运行。此外,配套的Python脚本便于用户从周期性构型中提取水分子簇,进一步扩展了数据在复杂凝聚相体系中的适用性。这些资源共同为在常规计算资源下实现CCSD(T)级别精度的液态水模拟提供了完整解决方案。
使用方法
使用该数据集时,研究人员可依据具体模拟需求选择合适的模型格式。对于分子动力学模拟,可加载LAMMPS兼容的力场输入文件,利用提供的基线模型与增量模型联合预测体系能量与力场。若采用ASE框架,则直接调用对应的GPU模型进行结构优化或单点能计算。数据集附带的训练文件允许用户复现或进一步微调模型,而切割脚本则辅助从体相构型中生成定制化的水簇训练样本。这种灵活的使用方式显著降低了高精度量子化学方法在凝聚相应用中的技术门槛。
背景与挑战
背景概述
在计算化学领域,高精度电子结构方法如耦合簇单双激发微扰理论(CCSD(T))长期以来被视为能量计算的黄金标准,但其巨大的计算成本限制了在凝聚相体系如液态水中的广泛应用。为突破这一瓶颈,由剑桥大学、伦敦大学学院等机构的研究人员于2025年合作构建了Supplementary data for delta learning CCSD(T) water数据集,旨在支持基于Delta学习策略的机器学习力场开发,该策略通过校正密度泛函理论基线模型来逼近CCSD(T)精度。这一创新不仅显著降低了计算开销,还推动了液态水等复杂体系的高精度分子动力学模拟向常规化迈进,为物理化学和材料科学领域提供了关键工具。
当前挑战
该数据集致力于解决凝聚相体系高精度能量预测的挑战,核心在于如何有效弥合高效但欠准确的密度泛函理论与精确但昂贵的CCSD(T)方法之间的差距。Delta学习框架需克服校正模型的泛化能力问题,确保在不同相态和分子构型下保持稳定性。在构建过程中,研究人员面临数据生成的艰巨性,CCSD(T)计算对液态水大规模采样点极为耗时;同时,从周期性边界条件中切割水团簇以构建训练集时,需保持化学环境的真实性,避免边界效应引入偏差,这增加了数据预处理和模型训练的复杂性。
常用场景
经典使用场景
在计算化学领域,高精度电子结构方法如CCSD(T)虽能提供精确能量,却因计算成本高昂而难以应用于凝聚相体系。该数据集通过提供基于r^2SCAN泛函的基线模型及向CCSD(T)精度跃迁的增量学习模型,为研究人员构建高效力场提供了关键支撑。其经典使用场景在于训练机器学习势函数,以模拟液态水的结构和动力学性质,从而在保持量子化学精度的前提下,显著降低大规模分子动力学模拟的计算负担。
实际应用
在实际应用层面,该数据集衍生的力场模型已集成至LAMMPS和ASE等主流模拟软件中,可直接用于GPU或CPU环境。这使得研究人员能够执行长时间、大尺度的液态水分子动力学模拟,精确预测其扩散系数、振动光谱、相变行为以及作为溶剂时的微观结构。此类模拟在材料设计、生物分子模拟、催化反应机理研究和大气科学等领域具有重要价值,为从分子层面揭示复杂凝聚相系统的物理化学性质提供了实践途径。
衍生相关工作
围绕该数据集所体现的增量学习范式,计算化学领域已衍生出一系列经典研究工作。这些工作进一步拓展了将高精度量子化学数据迁移至机器学习势函数的方法,不仅应用于水体系,还延伸至离子溶液、水-固界面以及生物大分子溶液等复杂环境。相关研究深化了对于多体相互作用和长程效应的机器学习描述,推动了下一代高精度、可转移力场的开发,为跨尺度的计算模拟建立了更为坚实的桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作