LeMat-Traj

Name: LeMat-Traj
Creator: Entalpic, Paris, France
Published: 2025-08-28 23:06:32
License: 暂无描述

arXiv2025-08-28 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/LeMaterial/LeMat-Traj

下载链接

链接失效反馈

官方服务：

资源简介：

LeMat-Traj是一个由Entalpic公司开发的、包含超过1.2亿个原子配置的大型材料轨迹数据集，旨在解决传统实验室实验和计算方法在材料发现和设计中资源密集的问题。该数据集汇集了来自Materials Project、Alexandria和OQMD等大型数据库的数据，统一了数据格式，并筛选了高质量的配置。LeMat-Traj涵盖了从低能态到高能、高力结构的材料轨迹，补充了分子动力学和主动学习数据集。通过使用LeMat-Traj微调预训练模型，可以显著减少力预测误差。LeMat-Traj和LeMaterial-Fetcher均为开源项目，可供社区使用和扩展。

LeMat-Traj is a large-scale materials trajectory dataset developed by Entalpic Inc., containing over 120 million atomic configurations. It aims to address the resource-intensive issue of traditional laboratory experiments and computational methods in materials discovery and design. This dataset aggregates data from major databases including Materials Project, Alexandria, and OQMD, unifies data formats, and filters high-quality atomic configurations. LeMat-Traj covers material trajectories ranging from low-energy states to high-energy, high-force structures, complementing molecular dynamics and active learning datasets. Fine-tuning pre-trained models using LeMat-Traj can significantly reduce force prediction errors. Both LeMat-Traj and LeMaterial-Fetcher are open-source projects available for community use and extension.

提供机构：

Entalpic, Paris, France

创建时间：

2025-08-28

原始信息汇总

LeMat-Traj 数据集概述

数据集基本信息

数据集名称：LeMat-Traj
许可证：CC-BY-4.0
标签：materials, chemistry, trajectories
数据规模：100M<n<1B

配置信息

数据集包含五个配置子集：

compatible_pbe

训练集样本数量：112,932,152
下载大小：78,018,594,166 字节
数据集大小：185,246,915,031 字节

compatible_pbesol

训练集样本数量：7,259,866
下载大小：6,226,180,880 字节
数据集大小：14,667,401,037 字节

compatible_r2scan

训练集样本数量：497,451
下载大小：540,925,276 字节
数据集大小：1,143,577,497 字节

compatible_scan

训练集样本数量：172,366
下载大小：198,572,318 字节
数据集大小：372,665,028 字节

non_compatible

训练集样本数量：412,623
下载大小：120,752,990 字节
数据集大小：765,808,204 字节

数据特征

数据集包含以下特征字段：

结构信息特征

elements：结构中元素列表
nsites：结构中位点总数
chemical_formula_anonymous：匿名化学式
chemical_formula_reduced：约简化学式
chemical_formula_descriptive：描述性化学式
nelements：不同元素总数
dimension_types：周期性边界条件
nperiodic_dimensions：周期性维度数
lattice_vectors：晶格向量矩阵
immutable_id：材料ID
cartesian_site_positions：笛卡尔坐标位置
species：物种信息
species_at_sites：各位点化学元素
last_modified：最后修改日期
elements_ratios：元素分数组成

计算物理特征

stress_tensor：应力张量（kB单位）
energy：未校正能量（eV）
energy_corrected：校正能量（eV）
forces：各点位力（eV/A）
functional：泛函类型（pbe、pbesol或scan）
space_group_it_number：空间群国际编号
cross_compatibility：DFT计算参数兼容性
relaxation_step：弛豫步骤
relaxation_number：弛豫编号
id：帧ID

数据来源分布

compatible_pbe子集

Materials Project：3,649,785个结构
Alexandria：110,804,226个结构
OQMD：264,782个结构

compatible_pbesol子集

Materials Project：309,873个结构
Alexandria：6,099,623个结构

compatible_scan子集

Materials Project：180,528个结构

compatible_r2scan子集

Materials Project：516,576个结构

non_compatible子集

Materials Project：546,716个结构
Alexandria：95,869个结构
OQMD：128,816个结构

数据使用

python from datasets import load_dataset dataset = load_dataset(LeMaterial/LeMat-Traj, compatible_pbe)

数据筛选标准

轨迹帧与最终帧能量偏差超过1eV/原子的被丢弃
电子SCF测试未收敛的帧被排除
不包含缺失能量和力的结构
保留Materials Project中未弃用的结构优化任务的多个轨迹

搜集汇总

数据集介绍

构建方式

在材料科学领域，量子力学轨迹数据的碎片化与格式不一致问题长期制约着机器学习原子间势能模型的开发。LeMat-Traj通过整合Materials Project、Alexandria和OQMD三大权威数据库的几何优化轨迹数据，采用标准化流程进行数据清洗与格式统一。其构建过程依托LeMaterial-Fetcher开源工具链，实现了从数据获取、格式转换、质量验证到参数协调的全自动化处理，最终形成包含1.2亿原子构型的多函数数据集，涵盖PBE、PBESol、SCAN和r2SCAN等主流泛函计算数据。

特点

该数据集显著特征体现在三维度协同优势：化学空间覆盖近全周期表元素，特别强化过渡金属与轻元素表征；构型空间同时包含高能态弛豫路径与近平衡态低力结构，有效弥补传统数据集在能量极小值区域的采样不足；轨迹长度分布呈现宽谱特征，包含大量超百帧的长程优化路径，为模型提供丰富的弛豫动力学信息。此外，数据集严格遵循OPTIMADE标准，支持轨迹重构与跨数据库兼容性。

使用方法

数据集支持多层次机器学习任务：基础层面可用于训练能量-力联合预测模型，通过轨迹标识符可实现完整弛豫路径重构；进阶应用包含初始结构-弛豫结构映射（IS2RE/IS2RS）的摊销优化任务，利用弛豫步数元数据构建端到端结构预测模型；自监督学习层面，序列化轨迹数据为对比学习、掩码预测等预训练任务提供天然信号。用户可通过HuggingFace平台按泛函分类获取数据，并利用内置的化学元素分层拆分策略确保模型泛化能力。

背景与挑战

背景概述

LeMat-Traj数据集由法国Entalpic研究团队于2025年创建，旨在解决材料科学领域中机器学习原子间势能（MLIPs）训练数据碎片化的问题。该数据集整合了Materials Project、Alexandria和OQMD三大权威数据库的1.2亿个原子构型，通过统一数据格式与标准化泛函计算（包括PBE、PBESol、SCAN和r2SCAN），显著提升了跨数据集训练的可行性。其核心研究目标是通过高精度密度泛函理论（DFT）轨迹数据，推动可迁移、高精度MLIPs的发展，对计算材料学领域的标准化与规模化研究具有里程碑意义。

当前挑战

在领域问题层面，LeMat-Traj需应对材料轨迹数据异构性导致的模型泛化性受限问题，包括不同DFT参数（如泛函、赝势）与数据格式的兼容性挑战。构建过程中，团队需克服多源数据融合的技术壁垒，涉及能量-力数据完整性校验、弛豫轨迹收敛阈值标准化（如末步力阈值0.2 eV/Å），以及通过自动化流水线LeMaterial-Fetcher实现120万条轨迹的并行处理与质量过滤，确保数据同时覆盖低能平衡态与高能非平衡态构型。

常用场景

经典使用场景

在原子尺度材料建模领域，LeMat-Traj数据集通过整合Materials Project、Alexandria和OQMD等权威数据库的几何优化轨迹，为机器学习势函数（MLIPs）的训练提供了标准化、高质量的数据基础。其覆盖1200万原子构型的规模与多泛函（PBE、PBESol、SCAN、r2SCAN）分区设计，使得研究者能够针对特定理论级别或跨泛函场景开发高精度模型，尤其在几何优化和能量最小化任务中表现卓越。

衍生相关工作

该数据集催生了多项创新性研究，包括基于其多泛函分区开发的跨理论级别迁移学习框架（如MACE-MPA-0的泛函适应性微调），以及结合高力数据集OMat24的课程学习策略。衍生工具LeMaterial-Fetcher已成为社区构建扩展数据集（如LeMat-Bulk）的核心基础设施，同时启发了自监督学习方法（如DeNS对比学习、ORB扩散模型）在原子系统表示学习中的探索，推动材料信息学向标准化、可扩展范式演进。

数据集最近研究