five

matpes

收藏
Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/Materialyze/matpes
下载链接
链接失效反馈
官方服务:
资源简介:
MatPES是一个用于材料科学的势能面数据集,旨在通过静态DFT计算和严格的收敛标准提供高精度的数据。数据集采用两阶段DIRECT采样方法从大量MD结构中提取,覆盖了元素周期表中的大部分元素。MatPES包含PBE和r2SCAN泛函的计算数据,具有广泛的化学键和化学多样性描述能力。数据集初始版本v2025.1包含约40万种结构,来自30万次MD模拟。MatPES是MatML生态系统的一部分,与MatGL(材料图库)、maml(材料机器学习包)、MatPES(材料势能面数据集)和MatCalc(材料计算器)等工具协同工作。数据集适用于训练基础势能(FPs)和机器学习原子间势(MLIPs),在性能和可靠性方面表现优异。

MatPES is a potential energy surface dataset for materials science, designed to provide high-precision data through static DFT calculations and strict convergence criteria. The dataset is extracted from a large number of MD structures using a two-stage DIRECT sampling method, covering most elements in the periodic table. MatPES includes calculation data for PBE and r2SCAN functionals, with broad capabilities for describing chemical bonds and chemical diversity. The initial version v2025.1 contains approximately 400,000 structures from 300,000 MD simulations. MatPES is part of the MatML ecosystem and works in synergy with tools such as MatGL (Materials Graph Library), maml (Materials Machine Learning Package), MatPES (Materials Potential Energy Surface Dataset), and MatCalc (Materials Calculator). The dataset is suitable for training fundamental potentials (FPs) and machine learning interatomic potentials (MLIPs), demonstrating excellent performance and reliability.
创建时间:
2026-04-20
原始信息汇总

数据集概述:MatPES

  • 名称: MatPES(Materials Potential Energy Surface Dataset)
  • 链接: https://huggingface.co/datasets/Materialyze/matpes
  • 许可证: BSD-3-Clause
  • 任务类别: 图机器学习(graph-ml)
  • 语言: 英语
  • 标签: 化学、材料
  • 数据规模: 100,000 ~ 1,000,000 条数据

数据集简介

MatPES 是一个势能面(PES)数据集,旨在训练具有近完整元素周期表覆盖能力的机器学习原子间势(MLIPs,即“基础势”)。该数据集由 Materialyze 实验室和 Materials Project 共同发起,旨在解决现有 PES 数据集在材料科学中的关键缺陷。特点如下:

  1. 准确性: 使用静态 DFT 计算,并采用严格的收敛标准。
  2. 全面性: 通过两阶段 DIRECT 采样方法,从大量 MD 模拟结构中采样得到。
  3. 高质量: 包含 PBE 泛函和高保真度 r2SCAN meta-GGA 泛函的计算数据。

数据集内容与特征

数据集包含以下主要特征组:

  • 成分/化学性质: 包括原子数(nsites)、元素列表(elements)、元素数量(nelements)、原始与约化组成(composition, composition_reduced)、化学式(formula_pretty, formula_anonymous)、化学系统(chemsys)。
  • 晶胞标量: 体积(volume)、密度(density)、原子密度(density_atomic)。
  • 对称性: 晶体系统、符号、编号、点群、精度、角度容差、版本。
  • Pymatgen 结构: 包含晶格参数、位点信息(元素、占据数、分数坐标、磁矩)、电荷等。
  • DFT 标签: 能量(energy)、力(forces)、应力(stress)。
  • 标识符/衍生属性: MatPES ID、带隙(bandgap)、泛函类型(functional)、形成能/原子(formation_energy_per_atom)、内聚能/原子(cohesive_energy_per_atom)、作用力绝对值(abs_forces)、Bader 电荷(bader_charges)、Bader 磁矩(bader_magmoms)。
  • 来源: 原始 MP ID、Materials Project 版本、MD 系综类型、温度、压力、MD 步数、MLIP 名称。

数据配置与文件

数据集提供多个配置版本,对应不同的泛函和版本号:

配置名称 文件(均为 JSON 格式)
pbe MatPES-PBE-2025.2-charges.json
r2scan MatPES-R2SCAN-2025.2-charges.json
pbe-2025.2 MatPES-PBE-2025.2-charges.json
r2scan-2025.2 MatPES-R2SCAN-2025.2-charges.json
pbe-2025.1 MatPES-PBE-2025.1-charges.json
r2scan-2025.1 MatPES-R2SCAN-2025.1-charges.json
pbe-atoms MatPES-PBE-atoms.json
r2scan-atoms MatPES-R2SCAN-atoms.json

版本与规模

  • 初始发布 (v2025.1): 包含约 400,000 个结构,来源于 300K 的 MD 模拟。
  • 数据集规模: 100K ~ 1M 条数据。

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
MatPES数据集由Materialyze实验室与Materials Project联合开发,旨在构建覆盖元素周期表近完整的势能面数据集,以训练机器学习原子间势(MLIPs)。其构建基于静态密度泛函理论(DFT)计算,采用严格的收敛标准,确保数据精度。结构采样通过两阶段降维编码聚类与分层DIRECT方法实现,从大规模分子动力学(MD)模拟配置中抽取,显著提升了样本的代表性与效率。初始版本v2025.1包含约40万条结构,源自300K MD模拟,规模虽小于同类数据集,却因高质量筛选而兼具准确性与泛化能力。数据集涵盖PBE和r2SCAN两种泛函,其中r2SCAN作为高保真meta-GGA泛函,能够更精准地描述多样化的化学键合与反应体系。
使用方法
MatPES数据集可通过HuggingFace平台加载,支持PBE和r2SCAN两种配置,每个配置对应一个JSON格式的数据文件,包含训练集。用户可通过指定配置名称(如'pbe'或'r2scan')直接访问完整结构列表及对应的DFT标签。数据集与MatML生态系统深度集成,可与MatGL、maml和MatCalc等工具包协同使用,便于训练和评估原子间势模型。在使用时,建议用户参考官方基准平台(matpes.ai/benchmarks)中提供的性能指标,以选择最适合其研究需求的泛函版本。数据加载后,通过解析结构字段中的pymatgen格式信息,可轻松转换为晶体学表示,用于后续的机器学习或计算模拟任务。
背景与挑战
背景概述
MatPES(Materials Potential Energy Surface)数据集由Materialyze实验室与Materials Project于2025年联合推出,旨在为材料科学领域提供一种近乎覆盖整个元素周期表的势能面数据集。该数据集通过高精度静态密度泛函理论(DFT)计算生成,采用两阶段降维编码聚类与分层采样(DIRECT)方法从分子动力学(MD)模拟中提取结构,初始版本包含约40万条结构,规模虽小于同类数据集,却在训练基础势能模型(如机器学习原子间势)时展现出相当乃至更优的性能与可靠性。MatPES整合了PBE与高保真r2SCAN泛函数据,兼顾计算效率与对不同化学键合环境的准确描述,其发布填补了现有势能面数据集在准确性、全面性和质量上的关键缺口,为材料模拟与机器学习交叉领域树立了新基准。
当前挑战
MatPES旨在化解材料势能面数据集面临的多重挑战。首先,传统DFT计算在高通量场景下易受收敛精度不足困扰,导致预测误差累积,MatPES通过严格收敛的静态计算策略,显著提升了能量、力与应力的准确性。其次,如何从庞大构型空间高效采样出代表不同化学环境的多样结构是一大难题,该数据集引入两阶段DIRECT采样法,从扩展的MD模拟轨迹中提取关键构象,在有限样本容量下实现元素与结构覆盖度的最大化。此外,面对不同泛函间的系统偏差,MatPES同时提供PBE与r2SCAN两种功能层面数据,使得模型训练能自适应多样化成键特征,克服了单一泛函在复杂材料体系中准确性不足的局限。
常用场景
经典使用场景
在材料科学与计算化学领域,势能面数据集是训练机器学习原子间势能(MLIP)的核心基石。MatPES数据集凭借其对元素周期表近乎完备的覆盖、严格的DFT计算精度以及包含PBE与r2SCAN双泛函的丰富标签,成为训练通用型基础势能模型(Foundation Potentials)的经典资源。研究者常利用其提供的结构、能量、力、应力以及Bader电荷等物理量,构建高保真的图神经网络或等变模型,从而在复杂多组分体系中实现可靠的原子级模拟。该数据集巧妙融合了Materials Project的晶体学数据与通过DIRECT采样获得的分子动力学构象,确保了训练样本在化学空间中的广泛代表性与结构多样性。
解决学术问题
长期以来,学术界在训练通用MLIP时面临两大瓶颈:其一是数据集的化学覆盖度不足,导致模型在稀有元素或非常见化学计量比体系上的泛化能力堪忧;其二是计算精度与数据集规模之间的矛盾,大规模数据集往往牺牲了泛函的准确性。MatPES数据集通过两阶段DIRECT抽样策略结合高精度r2SCAN计算,在仅40万条结构样本的条件下,系统性地缓解了上述困境。它首次在近乎完整的元素周期表范围内,实现了密度泛函理论计算精度与数据规模的协调统一,为机器学习势能面的可迁移性和可靠性设立了新标杆,极大地推动了材料模拟从半经验力场向数据驱动模型的范式转型。
实际应用
在实际应用层面,基于MatPES训练的基础势能模型能够直接服务于高通量材料筛选、晶体结构预测以及复杂界面相互作用的研究。例如,在电池电解质开发中,模型可快速评估锂离子在多种固态电解质中的迁移能垒;在催化领域,它能够模拟催化剂表面在真实工况下的动态重构与吸附行为。此外,由于MatPES包含了Bader电荷与磁矩信息,使得模型不仅能预测力学与热力学性质,还能捕捉电子结构特征,为多尺度材料设计提供了从量子力学到连续介质模拟的无缝衔接。这些能力已在MatCalc平台中集成,让不具备深度计算背景的材料科学家也能轻松调用高精度预测工具。
数据集最近研究
最新研究方向
MatPES数据集的最新研究方向聚焦于构建覆盖元素周期表近完整范围的势能面数据集,以训练兼具高精度与强泛化能力的机器学习原子间势(MLIPs),即基础势(FPs)。该数据集的发布回应了当前材料科学领域对高质量势能面数据的迫切需求,其创新性地采用两阶段降维编码聚类分层采样(DIRECT)方法,从扩展的分子动力学(MD)模拟结构中提取约40万条代表性构型,显著缩减了数据集规模却实现了媲美甚至超越更大规模数据集的模型性能。尤为值得关注的是,MatPES同时提供了PBE泛函与高保真r2SCAN meta-GGA泛函的计算数据,覆盖了从简单金属到复杂陶瓷的多样化化学键合环境,为材料性质预测、新相发现以及动力学模拟等前沿应用奠定了坚实的数据基础。此外,该数据集与MatGL、maml等工具链深度集成,推动了基于图神经网络的材料计算生态系统的快速发展,在催化剂设计、电池材料筛选等热点领域展现出广阔的应用前景与深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作