five

MC-MLIPs

收藏
github2026-02-26 更新2026-03-02 收录
下载链接:
https://github.com/adamlaho/MC-MLIPs
下载链接
链接失效反馈
官方服务:
资源简介:
用于机器学习原子间势能的分子晶体数据库,包含多种化合物的训练和验证数据集。

A molecular crystal database for machine learning interatomic potentials, containing training and validation datasets for various compounds.
创建时间:
2026-02-19
原始信息汇总

MC-MLIPs 数据集概述

数据集简介

MC-MLIPs 是一个用于机器学习原子间势函数的分子晶体数据库。该数据库包含针对多晶型分子晶体进行微调的 MACE 模型,这些模型使用 AMLP 框架进行训练。

模型与数据

数据集包含针对特定化合物的微调 MACE 模型及其对应的训练与验证数据集。具体信息如下表所示:

化合物 CSD 代码 能量平均绝对误差 (meV/原子) 力平均绝对误差 (meV/Å) 模型文件 数据集文件
Resorcinol RESORA 1.568 3.903 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/resora.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/resora_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/resora_valid.h5
Durene DURENE 1.647 5.193 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/durene.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/durene_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/durene_valid.h5
Coumarin COUMAR 1.670 4.296 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/coumar.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/coumar_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/coumar_valid.h5
Benzamide BZAMID 0.713 8.786 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/bzamid.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/bzamid_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/bzamid_valid.h5
Niacinamide NICOAM 1.513 7.207 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/nicoam.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/nicoam_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/nicoac_valid.h5
Nicotinamide NICOAC 1.201 5.824 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/nicoac.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/nicoac_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/nicoac_valid.h5
Isonicotinamide EHOWIH 1.912 10.809 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/ehowih.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/ehowih_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/ehowih_valid.h5
Pyrazinamide PYRIZIN 1.634 6.732 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/pyrizin.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/pyrizin_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/pyrizin_valid.h5
Benzoic acid BENZAC 1.329 7.897 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/benzac.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/benzac_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/benzac_valid.h5
Acridine ACRDIN 3.700 8.300 https://huggingface.co/adamlaho/MC-MLIP/resolve/main/models/acridine.model 训练集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/acridine_train.h5 <br> 验证集:https://huggingface.co/adamlaho/MC-MLIP/resolve/main/datasets/acridine_valid.h5
平均值 1.689 6.895

训练协议

  • 基础模型:MACE-MH1 (mace-mh-1-omol-1%)
  • 参考数据:DFT (PBE-D4) 优化 + AIMD 轨迹 (25-500K)
  • DFT 设置:VASP,750 eV 截断能,EDIFF = 10⁻⁷ eV

两阶段训练:

  1. 初始阶段:学习率 = 2×10⁻³,能量权重 = 100,力权重 = 10
  2. SWA 阶段 (200 轮后):学习率 = 5×10⁻⁵,力权重 = 100

采用提前停止策略,耐心值为 75 轮。所有模型均使用 float64 精度训练。

模型验证

所有模型均经过以下验证:

  • 能量守恒:NVE 模拟中,25 ps 内的漂移 < 10⁻⁵
  • 热稳定性:NVT 模拟在高达 600K 下保持稳定
  • 结构完整性:径向分布函数 (RDFs) 和 P₂ 序参数得以保持

使用方式

推荐使用 AMLP-Analysis 模块 (amlpa.py) 运行这些模型的模拟。也可直接通过 MACE 计算器使用模型。

引用

若使用这些模型,请引用提供的两篇相关文献。

许可协议

MIT 许可证

致谢

  • MACE 开发团队
  • 纽约大学高性能计算中心
搜集汇总
数据集介绍
构建方式
在分子晶体机器学习领域,MC-MLIPs数据集的构建依托于自动化机器学习流程框架,通过精心设计的训练协议实现。该数据集以MACE-MH1作为基础模型,利用密度泛函理论计算生成的参考数据进行微调,涵盖结构优化与分子动力学轨迹。训练过程采用两阶段策略,初期侧重于能量预测,随后通过随机权重平均优化力场精度,并引入早停机制确保模型泛化能力。所有计算均基于高精度设置,确保了数据在原子尺度上的可靠性。
使用方法
使用MC-MLIPs数据集时,推荐通过AMLP-Analysis模块进行模拟,用户只需准备结构文件与配置文件即可便捷运行分子动力学或几何优化。在配置中指定模型路径与计算设备后,即可调用微调后的MACE计算器执行任务。数据集支持多种应用场景,包括径向分布函数分析、相变研究等,并兼容GPU加速以提升计算性能。详细的操作选项可参考相关文档,便于用户根据具体需求灵活调整模拟参数。
背景与挑战
背景概述
在计算材料科学领域,高精度分子晶体势能面的构建是理解其多晶型行为与热力学稳定性的关键。MC-MLIPs数据集由Adam Lahouari等人于2026年创建,依托纽约大学等研究机构,旨在为机器学习原子间势函数提供精细调优的基准数据。该数据集专注于多晶型分子晶体,如间苯二酚、香豆素等,通过密度泛函理论计算生成参考数据,并利用自动化机器学习管道框架进行模型训练。其核心研究问题在于解决传统第一性原理方法在模拟大尺度分子晶体体系时面临的计算成本高昂难题,从而推动药物设计与晶体工程等领域的高通量筛选与动态模拟研究。
当前挑战
MC-MLIPs数据集致力于应对分子晶体多晶型预测中的核心挑战,即准确捕捉不同堆积构型下微妙的能量差异与动态稳定性。这要求机器学习势函数在保持低能量误差的同时,精确再现原子受力与热力学性质,以避免模拟过程中的结构漂移或相变失真。在数据集构建过程中,挑战主要源于高质量训练数据的生成,包括需要覆盖从低温到高温的广泛相空间采样,以及确保密度泛函理论计算的数值一致性。此外,模型训练需平衡能量与力项的权重,并通过严格的能量守恒与热稳定性验证,以保障模拟结果的物理可靠性。
常用场景
经典使用场景
在计算材料科学领域,分子晶体的多晶型现象研究常面临原子间势能函数精度不足的挑战。MC-MLIPs数据集通过提供基于MACE架构精细调校的机器学习原子间势能模型,为经典使用场景如分子晶体的结构优化、热力学性质模拟以及相变行为预测奠定了坚实基础。该数据集涵盖了对苯二酚、香豆素等典型有机分子晶体,其低能量与力预测误差确保了在分子动力学模拟中的高保真度,使得研究人员能够高效探索晶体结构的能量景观与动力学演化。
解决学术问题
该数据集有效应对了传统密度泛函理论计算成本高昂与经典力场精度有限的学术困境。通过提供经过验证的机器学习势能模型,它使得大规模、长时间的分子动力学模拟变得可行,从而解决了分子晶体多晶型稳定性比较、缺陷形成机制解析以及温度依赖结构演化等关键科学问题。其意义在于弥合了量子力学精度与经典模拟效率之间的鸿沟,为理论计算与实验观测的桥梁构建提供了可靠工具,推动了计算化学与材料科学交叉领域的范式革新。
实际应用
在药物研发与材料设计等实际应用场景中,MC-MLIPs数据集展现出显著价值。例如,在制药行业,该数据集可用于预测活性药物成分的晶型稳定性,辅助筛选最优固态形式以提升药物生物利用度与储存期限。在功能材料领域,它支持有机半导体或光电晶体材料的性能模拟,指导具有特定热电或光学特性材料的理性设计。通过集成至自动化机器学习流程,这些模型能够加速新材料的发现周期,降低实验试错成本。
数据集最近研究
最新研究方向
在计算材料科学领域,分子晶体的多态性研究一直是理解物质相变和稳定性的核心课题。MC-MLIPs数据集作为专为机器学习原子间势函数设计的分子晶体数据库,其前沿研究聚焦于利用微调的MACE模型,实现对多态性分子晶体能量和力的高精度预测。该数据集与AMLP自动化框架紧密结合,推动了基于大语言模型辅助的数据生成与训练流程,显著提升了势函数在复杂晶体系统中的泛化能力和计算效率。相关研究热点涉及利用该数据集加速药物晶型筛选和材料设计,其影响在于为跨尺度分子动力学模拟提供了可靠工具,对促进计算化学与人工智能的深度融合具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作