five

MatPES

收藏
arXiv2025-03-06 更新2025-03-08 收录
下载链接:
http://matpes.ai
下载链接
链接失效反馈
官方服务:
资源简介:
MatPES数据集是一个基础性的潜在能量面数据集,由劳伦斯伯克利国家实验室等机构开发,旨在为材料科学研究提供高质量的训练数据。该数据集包含了从281百万个分子动力学快照中精心采样的约504,811个结构,覆盖了16亿个原子环境。数据集通过使用预训练的M3GNet UMLIP进行采样,并结合2DIRECT采样方法,确保了数据质量。MatPES数据集的应用领域主要是材料科学,用于训练更可靠、通用且高效的UMLIP,以支持大规模的材料发现和设计。

The MatPES dataset is a foundational potential energy surface dataset developed by institutions including Lawrence Berkeley National Laboratory, aiming to provide high-quality training data for materials science research. It contains approximately 504,811 structures carefully sampled from 281 million molecular dynamics snapshots, covering 1.6 billion atomic environments. The dataset is sampled using the pre-trained M3GNet UMLIP combined with the 2DIRECT sampling method to ensure data quality. The MatPES dataset is primarily applied in materials science, and is used to train more reliable, generalizable and efficient UMLIPs to support large-scale material discovery and design.
提供机构:
劳伦斯伯克利国家实验室
创建时间:
2025-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
MatPES 数据集的构建方式体现了对数据质量和多样性的重视。该数据集从 281 百万个分子动力学快照中精心挑选出约 40 万个结构,这些快照涵盖了 160 亿个原子环境。通过预训练的 Materials 3-body Graph Network (M3GNet) 通用机器学习原子间势能函数,对这些结构进行编码,并利用增强的两阶段降维编码聚类采样方法,确保了对配置空间的覆盖。此外,MatPES 还采用了 Perdew-Burke-Ernzerhof (PBE) 和修正的强约束正则化适当归一化 (r2SCAN) 泛函进行单点 DFT 计算,以获得准确的能量、力和应力数据。
特点
MatPES 数据集具有以下特点:1. 数据量适中,但覆盖了广泛的原子环境;2. 包含近平衡和非平衡结构,更好地模拟了真实材料的行为;3. 使用了两种不同的 DFT 泛函,提供了更全面的势能面描述;4. 数据集公开可用,促进了社区驱动的材料科学进步。
使用方法
MatPES 数据集可用于训练通用机器学习原子间势能函数,用于材料科学中的原子模拟。用户可以使用预训练的模型或自行训练模型。此外,MatPES 还提供了一个全面的 MatCalc-Bench 性能基准,用于评估不同架构和/或训练数据的 UMLIPs 的性能。
背景与挑战
背景概述
在材料科学中,精确的势能面(PES)描述对于原子尺度模拟至关重要。传统的电子结构方法如Kohn-Sham DFT提供了最精确的PES描述,但其计算成本随电子数量呈立方增长,对于模拟复杂材料或需要长时间尺度统计性质的属性时显得过于昂贵。为了克服这一局限性,研究者们提出了机器学习原子间势(MLIPs),通过机器学习模型来学习不同原子配置的DFT PES,以实现计算效率与准确性的平衡。近年来,通用机器学习原子间势(UMLIPs)在周期表上的应用得到了广泛关注,但其准确性受限于对DFT松弛数据的依赖。MatPES数据集的创建旨在解决这一挑战,它由约40万个结构组成,这些结构是从16亿个原子环境中精心采样的,并跨越了2810万个分子动力学快照。MatPES数据集的创建标志着开放科学倡议的开始,旨在开发一个基础性的PES数据集,以促进材料科学的进步。
当前挑战
MatPES数据集的构建过程中遇到了一些挑战。首先,现有的UMLIPs准确性有限,这主要是因为它们依赖于DFT松弛数据,而这些数据集往往存在噪声和不均匀的采样问题。其次,MatPES数据集的构建需要解决如何高效地覆盖整个配置空间的问题,以确保数据的多样性和代表性。此外,数据集的构建还需要考虑如何平衡数据质量和数量,以及如何确保数据集的开放性和可访问性,以便更广泛的科研社区能够利用这些数据。
常用场景
经典使用场景
MatPES数据集在材料科学领域中,被广泛应用于原子尺度模拟,尤其是在计算材料体系的势能面描述方面。该数据集通过提供精确的势能面数据,使得机器学习原子间势(UMLIPs)能够在不牺牲准确性的前提下,以比密度泛函理论(DFT)更高效的方式,对材料进行建模。MatPES数据集的构建,旨在克服现有UMLIPs在准确性上的局限,通过精心挑选的约40万个结构,涵盖了超过16亿个原子环境,为UMLIPs的训练提供了高质量的基准数据。
实际应用
MatPES数据集的实际应用场景包括结构弛豫、分子动力学模拟、以及预测基于PES的性质,如声子色散和弹性常数等。通过MatPES训练的UMLIPs在广泛的材料发现和设计中表现出色,尤其在模拟复杂材料、低对称性界面、非晶态材料等方面。MatPES数据集的开放性质使得其能够被更广泛的科研社区所利用,推动了材料科学领域的高通量计算和大规模材料发现。
衍生相关工作
MatPES数据集的发布标志着材料科学领域向更高质量、更可靠的数据集发展的重要一步。该数据集的构建和发布过程,为未来数据集的扩展提供了坚实的基础,例如通过包含更高温度/压力的MD快照、缺陷结构、假设材料等,进一步扩大MatPES的覆盖范围。MatPES数据集的发布和MatCalc基准的建立,为评估和改进UMLIPs的性能提供了全面的框架,有助于推动材料科学领域的研究向前发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作