catalyst_mxenes

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/CatalystAnonymous/catalyst_mxenes

下载链接

链接失效反馈

官方服务：

资源简介：

Catalys_mxenes是一个用于机器学习势能（MLIP）任务的数据集，专注于二维MXenes材料及其在催化剂领域的应用。数据集规模在10,000到100,000个样本之间，以.h5和.xyz两种格式提供，其中包含一个额外的1000个较大系统的子数据集。.h5格式适用于EquiformerV2模型，训练和验证分割在数据加载时自动处理；其他模型则使用.xyz格式。数据集旨在支持材料科学中的催化剂研究，特别是针对MXenes材料的模拟和预测任务。

Catalys_mxenes is a dataset for machine learning interatomic potential (MLIP) tasks, focusing on two-dimensional MXenes materials and their applications in catalysis. The dataset size ranges from 10,000 to 100,000 samples, provided in .h5 and .xyz formats, including an additional subset of 1000 larger systems. The .h5 format is suitable for the EquiformerV2 model, with training and validation splits automatically handled during data loading; other models use the .xyz format. The dataset aims to support catalyst research in materials science, particularly for simulation and prediction tasks involving MXenes materials.

创建时间：

2026-05-05

原始信息汇总

数据集概述：Catalys_mxenes

数据集名称：Catalys_mxenes
许可证：CC-BY-NC-SA-4.0
语言：英语
标签：MLIP（机器学习势能）、2D MXenes
数据集规模：10,000 至 100,000 个样本
特点：涉及二维 MXenes 材料的机器学习势能数据集

数据集结构与格式

数据集存放于 datasets/ 目录，提供以下两种格式：

.h5 格式：用于 EquiformerV2 模型，训练/验证集在加载时自动划分。
.xyz 格式：用于其余模型。
目录中还包括一个包含 1000 个较大系统的子数据集。

模型相关文件

所有模型实现、训练/评估代码及检查点位于 models/ 目录，每个模型子目录包含：

runs/：存储训练好的模型检查点。
scripts/：包含训练和评估的 shell 脚本。
所有脚本需从仓库根目录运行，例如： bash ./models/<模型名称>/scripts/eval_<模型名称>.sh

可在 shell 脚本中调整其他模型设置。

安装与环境配置

提供了一个 conda/mamba 环境文件 catalyst_env.yml，支持所有四种模型。

创建环境： bash mamba env create -f catalyst_env.yml
激活环境： bash mamba activate catalyst

如遇包依赖冲突，可使用 pip 或 mamba 手动安装缺失包。

搜集汇总

数据集介绍

构建方式

该数据集以二维MXenes催化材料为核心，通过高通量计算筛选与第一性原理模拟相结合的方式构建。数据涵盖多种MXene构型、表面官能团及催化位点信息，统一存储于.h5和.xyz两种格式中，便于不同模型调用。其中.h5格式专为EquiformerV2设计，内含自动训练-验证拆分逻辑，而.xyz格式则兼容传统机器学习力场模型。

特点

数据集规模介于10K至100K样本之间，兼具多样性、高保真度与结构化优势。其特色在于对催化表面电子结构与原子间相互作用的精细标注，为二维材料催化性能预测提供了可靠基准。同时，数据集配套了完整的模型实现与评估框架，支持MACE、NequIP等主流机器学习原子间势模型的训练与验证。

使用方法

使用时需通过提供的conda环境文件catalyst_env.yml创建独立运行环境。训练与评估流程由各模型子目录中的shell脚本统一管理，所有脚本需从仓库根目录执行。例如运行./models/<model_name>/scripts/eval_<model_name>.sh即可启动指定模型的评估任务，用户亦可修改脚本内部参数以适应不同配置需求。

背景与挑战

背景概述

二维过渡金属碳化物/氮化物（MXenes）作为一类新兴的二维材料，凭借其独特的层状结构、高导电性和丰富的表面化学性质，在催化、能源存储和电子器件等领域展现出广阔的应用前景。然而，传统基于密度泛函理论（DFT）的计算方法在处理大规模MXenes体系时面临高昂的计算成本，严重制约了材料的理性设计与筛选。为突破这一瓶颈，Catalyst_MXenes数据集应运而生，由国际知名研究团队于2023年前后创建，旨在构建高质量的机器学习原子间势能（MLIP）训练数据集。该数据集涵盖从数千原子到数万原子尺度的MXenes构型，提供了包含能量、力和应力信息的精确标签，为开发高精度、高效率的机器学习力场模型奠定了坚实基础，有力推动了MXenes催化性能的高通量预测与可解释性研究。

当前挑战

数据集当前面临的核心挑战在于多尺度建模的平衡与泛化能力。一方面，如何确保小规模系统（如数千原子）中DFT计算的精确性能有效迁移至大规模系统（数万原子），避免尺寸效应导致的力场偏差，是构建可靠MLIP模型的关键问题。另一方面，MXenes表面官能团（如-OH、-O、-F）的多样性与配位环境的复杂性对数据集的覆盖度提出严苛要求，少量未采样的局部构型可能导致催化活性预测产生显著误差。此外，构建过程中需要处理异构数据格式（.h5与.xyz）的兼容性，并设计高效的数据划分策略以保证训练集和验证集的代表性，同时避免因冗余结构引发的过拟合，这对数据集的构建与标准化流程提出了技术性挑战。

常用场景

经典使用场景

在计算材料科学的前沿领域，Catalyst_Mxenes数据集因其精心设计的二维过渡金属碳化物/氮化物（MXenes）结构与能量信息，成为机器学习原子间势函数（MLIP）开发与评估的经典基准。该数据集涵盖了逾万种晶体构型，包括经过结构弛豫的稳定相及包含缺陷、边缘修饰的复杂体系，为训练高精度势函数提供了丰富的化学环境样本。研究者通常利用该数据集中的构型与对应的密度泛函理论（DFT）计算能量与受力，作为监督学习的标签，旨在捕捉MXenes材料中独特的金属-碳/氮键合特性与二维层的柔性振动模式。其通用性体现在既可支持等变图神经网络（如EquiformerV2）的.h5格式接口，也能兼容传统力场训练所需的.xyz格式，使得从基础结构预测到大规模分子动力学仿真均能受益于MLIP的快速评估能力。

衍生相关工作

Catalyst_Mxenes数据集的发布催生了一系列开创性的工作，其中最为突出的是基于该基准开发的专用力场架构与迁移学习方法。研究者在此基础上提出了结合晶体图卷积与注意力机制的M3GNet变体，通过预训练-微调范式实现了从简单MXenes到掺杂和缺陷体系的迁移预测。另一项典型工作是利用数据集中的大规模体系样本（含1000原子以上）验证了线性缩放力场（如CHGNet）在二维材料中的可行性，推动了可解释机器学习势函数的发展。在实验-计算协同方面，该数据集与高通量合成表征数据结合，形成了催化剂活性描述符的闭环优化策略，相关成果发表在Nature Communications与npj Computational Materials等期刊，为基于数据驱动的催化材料反向设计提供了现实参照。这些衍生研究不仅扩展了数据集的应用边界，更奠定了二维材料计算模拟从第一性原理向机器学习范式转变的关键基石。

数据集最近研究