MaterialsSaddles

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/AnonymouScientist/MaterialsSaddles

下载链接

链接失效反馈

官方服务：

资源简介：

MaterialsSaddles 是一个专注于固态和表面化学中过渡态的高通量数据集，包含 34,135,597 个完全收敛的过渡态。这些数据是通过对公共材料和催化数据集进行大规模并行鞍点搜索计算得到的，使用了 SaddleMill 包和 Meta 的机器学习原子间势能。每个数据文件包含三个连续的结构条目，分别代表反应物最小值、过渡态（一阶鞍点）和产物最小值。数据集还包含了每个鞍点的本征模式（不稳定方向的原子位移场）。数据适用于训练生成模型预测过渡态、生成DFT标签以改善MLIP势垒软化问题，以及为DFT鞍点搜索提供热启动。数据集按来源（LeMat-Bulk、OC20、OC22、Materials Project电池结构）和搜索方法（Dimer或NEB-CI）分为不同子集，并提供了预定义的分层训练/验证/测试分割。

MaterialsSaddles is a high-throughput dataset focused on transition states in solid-state and surface chemistry, containing 34,135,597 fully converged transition states. These data were obtained through large-scale parallel saddle point search calculations on public materials and catalysis datasets, using the SaddleMill package and Metas machine-learned interatomic potentials. Each data file contains three consecutive structure entries, representing the reactant minimum, transition state (first-order saddle point), and product minimum, respectively. The dataset also includes the eigenmode (atomic displacement field in the unstable direction) for each saddle point. The data are suitable for training generative models to predict transition states, generating DFT labels to improve MLIP barrier softening issues, and providing hot starts for DFT saddle point searches. The dataset is divided into subsets by source (LeMat-Bulk, OC20, OC22, Materials Project battery structures) and search method (Dimer or NEB-CI), and provides predefined stratified training/validation/test splits.

创建时间：

2026-05-04

原始信息汇总

数据集概述：MaterialsSaddles

MaterialsSaddles 是一个大规模固态与表面化学完全收敛过渡态文库，包含 34,135,597 个完全收敛的过渡态。这些数据通过基于公开材料与催化数据集的大规模并行鞍点搜索计算得到，使用了 SaddleMill 包和 Meta 公司的 uma-s-1p2 机器学习原子间势。

数据集基本信息

属性	值
总过渡态数	34,135,597
文件格式	ASE-LMDB (`.aselmdb`)，共 416 个文件
数据布局	每三个连续条目构成一个过渡态事件：反应物极小值、过渡态（一阶鞍点）、产物极小值
收敛标准	端点：0.02 eV/Å（max
鞍点搜索方法	Dimer（用于lemat, oc20, oc22子集）、NEB-CI（用于mp20bat子集）
计算工具	`fairchem` 的 `uma-s-1p2` 势
许可证	CC-BY-4.0

数据集构成

数据集按来源划分为四个子集：

子集	来源	搜索方法	过渡态数量	文件数
`lemat`	LeMat-Bulk	Dimer	31,346,419	256
`oc20`	Open Catalyst 2020 (OC20)	Dimer	2,587,101	96
`oc22`	Open Catalyst 2022 (OC22)	Dimer	167,335	32
`mp20bat`	Materials Project 电池结构	NEB-CI	34,742	32

数据内容与结构

每行数据：包含原子结构和丰富元数据，存储在 row.data[info] 字典中。关键元数据包括：
- task_name 和 ms_id（所有行均有）
- side（Dimer行，-1/0/1 分别对应反应物/鞍点/产物）
- image_type（NEB行，endpoint 或 climbing）
- eigenmode（鞍点行，形状为 (N, 3) 的每原子位移场）
- curvature（Dimer鞍点，沿本征模的本征值，单位 eV/Å²）
- barrier 和 dE（NEB鞍点，反应物→TS 和反应物→产物的能量差）
- orig_info（嵌套字典，包含源数据集标识符，位置因子集而异）
文件目录结构：

. ├── lemat/ (256个 .aselmdb 文件) ├── mp20bat/ (32个 .aselmdb 文件) ├── oc20/ (96个 .aselmdb 文件) └── oc22/ (32个 .aselmdb 文件)

计划用途

训练用于过渡态预测的生成模型：利用三元组（反应物+产物作为条件，鞍点作为目标）及本征模和键变化注释。
生成 DFT 标签以对抗 MLIP 势垒软化：计算这些鞍点和端点的单点能量/力，用于校正机器学习势的势垒低估问题。
预热 DFT 鞍点搜索：ML 松弛的鞍点通常接近 DFT 极小值，可在少量力评估内收敛。

数据加载与重要提示

依赖安装：pip install "ase>=3.26.0" ase_db_backends
关键陷阱：ASE 的 aselmdb 后端不会自动恢复 atoms.info。加载数据时务必使用辅助函数： python def row_to_atoms(row): atoms = row.toatoms() atoms.info.update(row.data["info"]) return atoms

训练/验证/测试集划分

划分比例：按每个子集独立进行 90% / 5% / 5% 的分层划分。
划分粒度：以三元组为单位（同一个过渡态事件的三行始终属于同一划分）。
确定性：使用 NumPy 种子 42 从全局 ms_id 枚举生成。
文件布局：splits/ 目录下，每个子集包含 train.parquet、val.parquet、test.parquet 各一个。
具体数量：

子集	总计	训练	验证	测试
`lemat`	31,346,419	28,211,777	1,567,321	1,567,321
`oc20`	2,587,101	2,328,391	129,355	129,355
`oc22`	167,335	150,602	8,367	8,366
`mp20bat`	34,742	31,268	1,737	1,737

已知限制

使用 MLIP 而非 DFT：所有数据均使用 uma-s-1p2 势计算，可能系统性地低估活化势垒，应视为近似过渡态。
atoms.info 需手动恢复：row.toatoms() 不会自动恢复元数据。
row.key_value_pairs 查询为线性扫描：无二级索引，大范围过滤时效率较低。
多分片遍历需自定义代码：需按顺序打开各分片并根据 ms_id 路由数据。
模式因来源而异：只有 task_name 和 ms_id 在所有行中保证存在，其他元数据根据子集和搜索方法可能不同。

搜集汇总

数据集介绍

构建方式

MaterialsSaddles数据集构建于公开的材料科学与催化数据集之上，包括LeMat-Bulk、OC20、OC22以及Materials Project电池结构。研究者采用Meta开发的通用机器学习原子间势uma-s-1p2作为计算引擎，利用SaddleMill软件包，针对不同子集分别施以二聚体方法（Dimer）或爬坡弹性带方法（NEB-CI）进行高收率鞍点搜索。每个搜索收敛后的过渡态均经过双极小化验证，确保鞍点沿本征模方向的两端对应于两个不同的势能谷，而非虚假的数值产物。最终，超过三千四百万个完全收敛的过渡态被收集并组织成三重结构——反应物、鞍点与产物——形成这一大规模数据集。

特点

该数据集以其庞大规模与精细标注而著称，涵盖逾三千四百万个过渡态事件，每个事件由连续三行分别存储反应物、鞍点与产物的弛豫结构。鞍点行额外记录了本征模（即原子位移场），标示分子沿不稳定性方向的行为。数据源自四个化学性质迥异的子集，包括体相、表面与电池体系，并附有键合变化、反应能垒等丰富元信息。每个过渡态均具全局唯一标识符，便于跨文件索引。数据采用ASE-LMDB格式存储，分为416个分片，便于分布式处理与大规模机器学习训练。

使用方法

数据集可通过ASE的ase_db_backends接口直接读取，无需安装fairchem依赖。用户调用row.toatoms()后需手动从row.data['info']恢复元数据，方可获得完整原子信息。数据以三重结构组织，便于遍历反应路径。预计算的分层90/5/5训练-验证-测试划分以Parquet文件提供，按子集独立分层并保持三重结构完整性。研究者可利用该数据集训练生成式过渡态预测模型、生成DFT标签以校正机器学习势的能垒软化，或为DFT鞍点搜索提供初始猜测，加速催化与电池领域的第一性原理计算。

背景与挑战

背景概述

MaterialsSaddles数据集由研究团队基于SaddleMill软件包和Meta公司的uma-s-1p2机器学习原子间势构建，于近期发布，旨在填补固态及表面化学反应过渡态数据集的空白。该数据集整合了来自LeMat-Bulk、Open Catalyst 2020/2022和Materials Project电池结构等公开材料与催化数据集，通过大规模并行鞍点搜索计算，生成了超过3400万个完全收敛的过渡态。每个过渡态事件以反应物、鞍点和产物的三元组形式存储，并附有本征模等关键信息。这一数据集的问世为材料科学领域提供了前所未有的丰富资源，尤其对于催化、电池等研究中的反应路径分析、势能面探索以及机器学习势函数的训练与验证具有重要价值，推动了计算材料学从静态结构向动态反应过程转变的研究范式。

当前挑战

MaterialsSaddles数据集着力解决的核心领域挑战在于：传统上，固态与表面化学反应的过渡态结构获取成本极高，需要大量的DFT计算，严重阻碍了大规模反应网络的构建与机器学习势函数的训练。该数据集本身也面临多重构建挑战。首先，数据全部基于MLIP（机器学习原子间势）而非DFT计算获得，导致预测的激活能垒系统性偏低，反应路径仅为近似结构，需要后续DFT校正。其次，鞍点搜索的计算规模极其庞大——对四个公共数据集进行超大规模并行搜索，不同类型的初始位移模式和收敛标准需要精细设计，同时必须通过双重最小化验证确保每个过渡态对应真实化学反应。此外，数据集的存储与访问引入了ASE-LMDB后端，其关键值查询为线性扫描，无二级索引，在大数据规模下过滤效率低下。各子集之间存储模式差异较大，包含二聚体与弹性能带两种搜索方法产生的不同元数据字段，增加了数据处理的复杂度。自动读取流程中atoms.info无法自动还原的问题也需要使用者自行注意。

常用场景

经典使用场景

MaterialsSaddles数据集以其海量、高精度的过渡态数据，成为固态及表面化学反应动力学研究的基石。其核心使用场景在于为过渡态预测的生成模型提供训练数据，每个三重条目（反应物、过渡态、产物）天然构成了条件生成任务的目标与约束。研究者可基于该数据集训练模型，从反应物和产物结构直接预测过渡态构型及其不稳定的本征模，从而绕过耗时繁琐的传统鞍点搜索过程，极大提升催化机理探索的效率。

衍生相关工作

MaterialsSaddles的出现激发了多个前沿研究方向。其一，基于该数据集的过渡态预测生成模型（如扩散模型或等变图神经网络）成为热点，旨在直接从反应物和产物结构生成鞍点构型。其二，研究者利用其鞍点本征模和曲率信息，发展出修正MLIP能垒的系统性方法，推动了物理信息增强的势函数发展。其三，该数据集的高通量特性催生了大规模反应网络自动化构建工具，能够从海量晶体结构中自动提取复杂的反应路径图，为计算材料基因组学提供了全新的数据驱动范式。

数据集最近研究