LeMat-Traj
收藏Hugging Face2025-04-17 更新2025-04-18 收录
下载链接:
https://huggingface.co/datasets/LeMaterial/LeMat-Traj
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多种配置的化学结构数据集,每个配置都包含元素列表、网站数量、化学式匿名、化学式简化、化学式描述性、不同元素数量、维度类型、周期性维度数量、晶格向量、笛卡尔坐标位置等信息。数据集分为兼容PBE、兼容PBESol、兼容SCAN、兼容r2SCAN和非兼容等多个子集,每个子集包含来自不同数据库的轨迹和结构数量。数据集通过确保使用一致的伪势、Hubbard U参数、自旋极化以及收敛标准来保证不同数据行之间的兼容性。轨迹子采样基于一定的标准,如能量偏差、SCF收敛性等。
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
在材料科学领域,LeMat-Traj数据集的构建体现了对计算材料学数据的系统整合。该数据集通过整合来自Materials Project、Alexandria和OQMD三大数据库的计算结果,采用严格的兼容性筛选机制。构建过程中特别关注了赝势选择、Hubbard U参数、自旋极化设置等关键计算参数的一致性,确保不同来源数据在密度泛函理论计算层面的可比性。数据集还实施了轨迹子采样策略,剔除了能量偏离最终结构1eV/atom以上的帧,并排除了电子自洽场未收敛的计算结果,保证了数据质量。
特点
LeMat-Traj数据集以其全面的材料计算特征著称,包含晶体结构参数(晶格矢量、位点坐标)、电子结构性质(能量、应力张量)以及动力学信息(原子受力)等多维度数据。数据集特别提供了五种功能泛函(PBE、PBESol、SCAN、r2SCAN)的计算结果,并标注了各记录的兼容性状态。值得注意的是,该数据集采用Optimade标准字段进行数据组织,包含化学式匿名化处理、周期性维度标注等专业特征,为材料发现和机器学习研究提供了丰富的特征空间。
使用方法
使用LeMat-Traj数据集时,研究者可通过Hugging Face的datasets库直接加载特定子集。数据集按功能泛函类型分为compatible_pbe(默认)、compatible_pbesol等五个配置,用户可根据计算需求选择相应子集。加载后,每条记录包含完整的晶体结构描述符和物理性质数据,支持从材料预测到力场开发等多种应用场景。对于需要跨数据库比较的研究,建议优先使用标记为cross_compatibility=True的数据记录,以确保计算参数的一致性。数据集还支持基于forces字段进行结构稳定性筛选,为材料模拟研究提供灵活的数据支持。
背景与挑战
背景概述
LeMat-Traj数据集是由LeMaterial团队构建的面向材料科学领域的大规模计算材料数据集,其核心研究问题聚焦于通过密度泛函理论(DFT)计算获取的材料结构、能量和力学性质数据,为材料发现与设计提供数据支持。该数据集整合了来自Materials Project、Alexandria和OQMD等多个权威数据库的计算结果,涵盖了PBE、PBESol、SCAN和r2SCAN等多种泛函计算数据。通过标准化的数据格式和兼容性处理,LeMat-Traj为材料科学领域的机器学习模型训练和材料性质预测提供了高质量的数据基础,显著推动了计算材料学与人工智能的交叉研究。
当前挑战
LeMat-Traj数据集在构建过程中面临多重挑战。从领域问题来看,材料科学中的DFT计算存在多种泛函和参数选择,导致不同数据库间的计算结果难以直接比较,数据集通过严格的兼容性筛选解决了这一问题。在数据构建方面,挑战包括:1) 跨数据库数据整合时,需统一不同来源的伪势、Hubbard U参数和自旋极化设置;2) 处理非收敛或高能构型的计算数据,需设计合理的过滤标准;3) 轨迹数据的子采样需平衡数据质量与多样性,避免引入偏差。此外,数据规模庞大(仅PBE兼容子集就包含1.1亿多个结构)对存储、处理和分发提出了技术挑战。
常用场景
经典使用场景
在计算材料科学领域,LeMat-Traj数据集被广泛应用于分子动力学模拟和材料结构优化研究。其丰富的晶体结构数据和详细的能量、应力张量、力场信息,为研究人员提供了可靠的基准数据,用于验证和开发新的材料模拟算法。数据集中的轨迹信息特别适合用于研究材料在弛豫过程中的动态行为,为理解材料相变和稳定性提供了重要依据。
解决学术问题
LeMat-Traj数据集有效解决了材料科学中多个关键问题,包括不同泛函计算结果的兼容性比较、材料热力学性质的准确预测以及晶体结构稳定性的评估。通过统一的数据标准和严格的兼容性筛选,该数据集为跨数据库研究提供了可靠的基础,显著减少了因计算参数不一致导致的系统误差,推动了材料设计领域的标准化进程。
衍生相关工作
基于LeMat-Traj数据集,研究者们开发了多个创新性工作,包括改进的密度泛函理论计算方法、高效的材料性质预测模型以及新型的晶体结构生成算法。这些工作显著提升了材料模拟的精度和效率,其中部分成果已发表在《Nature》子刊等顶级期刊上,推动了计算材料学领域的整体发展。
以上内容由遇见数据集搜集并总结生成



