five

MP-ALOE

收藏
arXiv2025-07-08 更新2025-08-15 收录
下载链接:
https://figshare.com/articles/dataset/MP-ALOE_An_r2SCAN_dataset_for_universal_machine_learning_interatomic_potentials/29452190
下载链接
链接失效反馈
官方服务:
资源简介:
MP-ALOE数据集由劳伦斯伯克利国家实验室和加利福尼亚大学伯克利分校材料科学与工程系创建,包含近100万个DFT计算数据,覆盖了89种元素。数据集主要通过主动学习和非平衡结构生成,旨在为机器学习原子间势能提供训练数据。MP-ALOE数据集在一系列基准测试中表现出色,可用于预测平衡结构的物理化学性质、远平衡结构的力、极端静态变形下的物理稳定性以及极端温度和压力下的分子动态稳定性。

The MP-ALOE dataset was developed by the Lawrence Berkeley National Laboratory and the Department of Materials Science and Engineering, University of California, Berkeley. It contains nearly 1 million DFT calculation datasets covering 89 elements. The dataset was primarily generated via active learning and non-equilibrium structure generation, with the goal of providing training data for machine learning interatomic potentials. The MP-ALOE dataset has delivered excellent performance across a series of benchmark tests, and can be utilized to predict physicochemical properties of equilibrium structures, forces in far-from-equilibrium structures, physical stability under extreme static deformations, and molecular dynamics stability under extreme temperatures and pressures.
提供机构:
劳伦斯伯克利国家实验室,加利福尼亚大学伯克利分校材料科学与工程系
创建时间:
2025-07-08
搜集汇总
数据集介绍
main_image_url
构建方式
MP-ALOE数据集的构建采用了主动学习策略,结合查询委员会(QBC)方法,从近1亿个通过元素替换原型结构生成的候选结构中筛选出代表性样本。通过DIRECT降采样技术优化数据多样性,最终基于r2SCAN泛函完成约90万帧DFT计算。该流程特别强调对非平衡构型、高压力区域及大原子间力的覆盖,并引入材料项目数据库的平衡结构作为补充,确保数据集兼具广度和深度。
特点
作为目前规模最大的r2SCAN级别材料数据集,MP-ALOE覆盖89种元素,包含丰富的非平衡态构型和高应力环境样本。其力分布均值达1.03eV/Å,压力覆盖范围(-50至100GPa)显著超越同类数据集,且 cohesive energy分布更广(-3.65±1.55eV/原子)。通过主动学习机制,数据集有效捕获了势能面的极端变形区域,为机器学习势函数提供了更全面的训练基底。
使用方法
该数据集专为训练通用机器学习原子间势能(UMLIP)设计,支持MACE等图神经网络架构的直接训练。用户可通过能量-体积扫描、分子动力学稳定性等基准测试评估模型性能,特别适用于预测极端条件下的材料行为。数据集与MatPES完全兼容,二者联合训练可进一步提升模型在平衡态能量预测和高压模拟中的表现。所有数据遵循标准化VASP参数设置,确保计算结果的跨平台可复现性。
背景与挑战
背景概述
MP-ALOE是由劳伦斯伯克利国家实验室和加州大学伯克利分校的研究团队于2025年推出的一个大规模材料科学数据集,专注于为通用机器学习原子间势能(UMLIPs)提供高质量的训练数据。该数据集包含近100万次基于r2SCAN元广义梯度近似的密度泛函理论(DFT)计算,覆盖了89种元素,主要通过主动学习技术生成非平衡结构。MP-ALOE的创建旨在解决材料模拟中传统DFT方法计算成本高、经典力场精度不足的问题,为材料科学领域提供更高效、更准确的模拟工具。
当前挑战
MP-ALOE数据集面临的主要挑战包括:1) 领域问题挑战:如何准确预测远离平衡态的原子间作用力和极端条件下的材料性质,如高温高压下的分子动力学稳定性;2) 构建过程挑战:在生成大规模非平衡结构数据时,如何通过主动学习有效探索势能面上训练数据稀少的区域,以及如何处理元素替换产生的电荷不平衡结构和伪势核心重叠问题。此外,数据集目前主要包含小型体相晶体结构,缺乏对缺陷、位错等复杂体系的覆盖,这限制了其在更广泛材料模拟中的应用。
常用场景
经典使用场景
MP-ALOE数据集在计算材料科学领域中被广泛用于训练和评估通用机器学习原子间势(UMLIPs)。其经典使用场景包括预测平衡结构的热化学性质、远离平衡结构的力场、静态极端变形下的物理合理性,以及在极端温度和压力条件下的分子动力学稳定性。通过其包含的近100万次DFT计算,MP-ALOE为研究人员提供了一个全面且多样化的基准测试平台。
衍生相关工作
MP-ALOE数据集衍生了多项经典研究工作,包括基于其训练的MACE势能模型在多个基准测试中的优异表现。此外,MP-ALOE与MatPES数据集的结合进一步提升了模型的准确性和泛化能力。这些工作不仅推动了UMLIPs的发展,还为后续研究提供了宝贵的参考和工具。
数据集最近研究
最新研究方向
近年来,MP-ALOE数据集在材料科学领域引起了广泛关注,特别是在通用机器学习原子间势(UMLIPs)的研究中。该数据集通过主动学习技术生成了近100万次基于r2SCAN泛函的DFT计算,覆盖了89种元素,主要包含非平衡结构。研究重点包括评估MP-ALOE在预测平衡结构的热化学性质、非平衡结构的作用力、极端静水压力下的物理合理性以及极端温度和压力下的分子动力学稳定性等方面的表现。MP-ALOE在这些基准测试中表现出色,为材料模拟提供了更准确和高效的工具。此外,MP-ALOE与MatPES数据集的结合进一步提升了模型性能,显示出在材料科学模拟中的广泛应用潜力。
相关研究论文
  • 1
    MP-ALOE: An r2SCAN dataset for universal machine learning interatomic potentials劳伦斯伯克利国家实验室,加利福尼亚大学伯克利分校材料科学与工程系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作