MACE-Osaka24
收藏arXiv2024-12-18 更新2024-12-19 收录
下载链接:
https://github.com/qiqb-osaka/mace-osaka24
下载链接
链接失效反馈官方服务:
资源简介:
MACE-Osaka24是由大阪大学开发的开放源代码神经网络势模型,旨在统一分子和晶体系统的数据集。该数据集整合了MPtrj和OFF23两个大型数据集,涵盖了有机和无机化学系统。通过Total Energy Alignment (TEA)方法,数据集的创建过程实现了不同计算条件下数据的平滑整合,减少了数据生产的成本。MACE-Osaka24的应用领域广泛,旨在解决化学和材料科学中的多领域、多精度数据的统一建模问题,推动高精度势能面模型的开发。
MACE-Osaka24 is an open-source neural network potential model developed by Osaka University, which comes with a unified dataset for molecular and crystalline systems. This dataset integrates two large-scale datasets, MPtrj and OFF23, covering organic and inorganic chemical systems. Through the Total Energy Alignment (TEA) method, the dataset creation process enables smooth integration of data under different computational conditions, reducing the cost of data generation. MACE-Osaka24 has a wide range of application scenarios, aiming to solve the unified modeling problem of multi-domain and multi-fidelity data in chemistry and materials science, and promote the development of high-precision potential energy surface models.
提供机构:
大阪大学
创建时间:
2024-12-18
原始信息汇总
MACE-Osaka24 数据集概述
数据集简介
MACE-Osaka24 是一个多领域通用机器学习原子间势能模型(MLIPs),能够准确描述晶体和分子领域。该模型基于第一代 MACE 模型,通过“总能量对齐”技术整合了多种条件下的第一性原理计算数据集进行训练。
模型
第一代模型可在 MACE-Osaka24 中获取。
训练数据
训练模型所使用的集成无机-有机领域数据集由以下数据集组成:
- 无机 MPtrj 数据集
- 有机 SPICE、QMug、水团簇和 Tripeptides (OFF23) 数据集
引用
使用该数据集时,请引用以下文献: bib @misc{shiota2024taming, title={Taming Multi-Domain, -Fidelity Data: Towards Foundation Models for Atomistic Scale Simulations}, author={Tomoya Shiota and Kenji Ishihara and Tuan Minh Do and Toshio Mori and Wataru Mizukami}, year={2024}, eprint={2412.13088}, archivePrefix={arXiv}, primaryClass={physics.chem-ph} }
训练脚本
提供了用于训练模型的脚本,最新训练命令行可在 mace-osaka24/mace-osaka24-large.sh 中找到。
示例
示例展示了使用 MACE-Osaka24 和 Atomic Simulation Environment (ASE) 计算硅晶体和乙酸的能量。
贡献者
该项目由以下人员开发:
- Tomoya Shiota (@TShiotaSS)
- Kenji Ishihara (@kenji-ishihara-os)
- Toshio Mori (@forest1040)
- Wataru Mizukami (@wmizukami)
搜集汇总
数据集介绍

构建方式
MACE-Osaka24数据集通过Total Energy Alignment (TEA)方法构建,该方法旨在整合来自不同计算条件下的异质量子化学数据集。TEA采用两步法:首先通过Inner Core Energy Alignment (ICEA)对内核参考能量进行对齐,然后通过Atomization Energy Correction (AEC)对原子化能量进行缩放,从而实现数据集的无缝整合。通过TEA,MACE-Osaka24整合了MPtrj(无机晶体数据集)和OFF23(有机分子数据集),形成了一个统一的神经网络势能模型,覆盖了分子和晶体系统。
特点
MACE-Osaka24数据集的显著特点在于其能够处理有机分子和无机晶体的统一建模,且无需进行昂贵的重新计算。该数据集通过TEA方法整合了异质数据集,确保了不同计算条件下的数据能够被统一处理。此外,MACE-Osaka24在预测有机反应能垒和无机晶体性质方面表现出与专用模型相当的精度,展示了其在多领域应用中的强大性能。
使用方法
MACE-Osaka24数据集可用于训练和验证机器学习原子间势能模型,特别是在化学和材料科学领域。研究者可以通过该数据集训练神经网络模型,以预测分子反应能垒、晶体结构性质以及液体水的分子动力学行为。数据集的开放性使得不同计算资源的研究者都能参与高精度势能面的开发,推动基础模型的广泛应用。
背景与挑战
背景概述
MACE-Osaka24数据集由日本大阪大学的研究团队于2024年创建,旨在解决原子尺度模拟中的多领域、多保真度数据的整合问题。该数据集的核心研究目标是构建一个能够准确模拟分子和晶体系统的通用机器学习原子间势(MLIP)。通过引入Total Energy Alignment(TEA)方法,研究团队成功整合了异质量子化学数据集,无需进行昂贵的重新计算。MACE-Osaka24数据集的开发不仅推动了化学和材料科学领域的研究,还为资源有限的研究机构提供了参与高精度势能面模型开发的机会,从而加速了催化剂设计、功能材料开发等领域的发现进程。
当前挑战
MACE-Osaka24数据集的构建面临两大主要挑战。首先,整合分子和晶体系统的异质数据集是一个复杂的问题,因为这些数据集通常在计算方法、密度泛函理论(DFT)泛函选择以及基组设置上存在显著差异,导致其势能面不兼容。其次,构建过程中需要解决计算资源的限制问题,因为只有具备大量计算资源的机构才能进行昂贵的重新计算,这限制了更多研究者的参与。TEA方法通过内核能量对齐和原子化能量校正,成功解决了这些挑战,但仍需进一步优化以应对强电子相关性、带电物种和相对论效应等复杂情况。
常用场景
经典使用场景
MACE-Osaka24数据集的经典使用场景在于其能够无缝整合有机分子和晶体系统的异质数据,通过Total Energy Alignment (TEA)方法,实现了对多领域数据的统一处理。该数据集训练的神经网络模型MACE-Osaka24在预测有机反应能垒和无机晶体结构方面表现出色,尤其是在药物分子反应能垒的预测上,其精度与专用模型相当,甚至在某些情况下超越了专用模型。
解决学术问题
MACE-Osaka24数据集解决了在化学和材料科学中长期存在的多领域数据整合难题。传统上,有机分子和无机晶体的数据集由于计算方法、基组选择和密度泛函理论(DFT)泛函的不同,导致其势能面(PES)不兼容。TEA方法通过内核能量对齐和原子化能校正,成功整合了这些异质数据,使得单一模型能够同时处理有机和无机系统的模拟,极大地推动了基础模型的开发,并为化学和材料科学的研究提供了新的可能性。
衍生相关工作
MACE-Osaka24数据集的推出催生了一系列相关工作,特别是在多领域机器学习势能模型的开发上。例如,基于TEA方法的进一步研究扩展了其在不同量子化学方法中的应用,推动了更高层次的量子化学数据集的整合。此外,MACE-Osaka24的成功也激发了对神经网络架构的优化研究,如更高阶的等变神经网络(E(3)-equivariant neural networks)和多尺度图神经表示的应用,进一步提升了模型的精度和泛化能力。
以上内容由遇见数据集搜集并总结生成



