nimashoghi/mptrj
收藏Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/nimashoghi/mptrj
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与材料科学相关的数据,涵盖了原子数、位置、力、晶胞、周期性边界条件(pbc)、能量、应力、每个原子的能量、材料项目ID(mp_id)、任务ID(task_id)、计算ID(calc_id)、离子步骤(ionic_step)、文件名(filename)、extxyz ID(extxyz_id)、原子数(num_atoms)等特征。数据集分为训练集、验证集和测试集,分别包含1,559,916、10,206和10,273个样本。数据集的总下载大小为1,748,143,154字节,总大小为3,887,875,554字节。
This dataset contains data related to materials science, including features such as atomic numbers, positions, forces, cell, periodic boundary conditions (pbc), energy, stress, energy per atom, Materials Project ID (mp_id), task ID (task_id), calculation ID (calc_id), ionic step (ionic_step), filename, extxyz ID (extxyz_id), number of atoms (num_atoms), and more. The dataset is divided into training, validation, and test sets, containing 1,559,916, 10,206, and 10,273 samples, respectively. The total download size of the dataset is 1,748,143,154 bytes, and the total size is 3,887,875,554 bytes.
提供机构:
nimashoghi
搜集汇总
数据集介绍

构建方式
在材料科学领域,高质量的数据集对于推动计算模拟与机器学习应用至关重要。nimashoghi/mptrj数据集通过整合Materials Project数据库中的原子轨迹信息构建而成,其构建过程涉及从第一性原理计算中提取离子弛豫步骤的详细物理量,如原子位置、受力、能量及应力等。数据经过系统化清洗与标准化处理,确保每个样本包含完整的晶体结构参数与动态演化记录,最终形成包含训练、验证与测试分割的结构化集合,为材料动力学研究提供了可靠的基础。
特点
该数据集以其丰富的多维特征而著称,涵盖了原子序数、位置序列、受力矩阵以及晶胞参数等关键物理属性。特别值得注意的是,数据集不仅包含静态能量与应力数据,还提供了弛豫过程中的能量参考值与修正后的总能,从而支持对材料稳定性和反应路径的深入分析。其规模庞大,样本数量超过百万,且具备严格的划分标准,确保了在机器学习模型训练与评估中的实用性与泛化能力。
使用方法
在材料信息学研究中,nimashoghi/mptrj数据集可作为训练机器学习力场或预测材料性质的基准资源。用户可通过HuggingFace平台直接加载数据,利用其预定义的分割进行模型训练与验证。典型应用包括输入原子坐标与晶胞信息以预测能量与受力,或结合任务标识符进行特定材料类别的分析。数据格式兼容常见计算框架,便于集成到分子动力学模拟或深度学习管道中,推动材料发现与性能优化的研究进程。
背景与挑战
背景概述
在材料科学领域,原子尺度模拟与机器学习融合正推动新材料发现范式的革新。nimashoghi/mptrj数据集由研究人员Nima Shoghi及其团队构建,聚焦于材料性质预测与结构弛豫轨迹分析。该数据集整合了Materials Project数据库的丰富信息,旨在通过记录离子弛豫过程中的原子位置、能量、应力等动态物理量,为开发高精度机器学习势函数与材料行为预测模型提供关键数据支撑。其核心研究问题在于如何从复杂多维轨迹数据中提取有效特征,以准确描述材料在外部作用下的结构演变与能量变化,对加速计算材料设计与高通量筛选具有显著影响力。
当前挑战
该数据集致力于解决材料科学中原子尺度模拟轨迹预测与分析的挑战,其核心在于如何从高维动态轨迹中学习材料结构、能量与力的复杂映射关系,以提升机器学习模型在材料性质预测与相变模拟中的泛化能力。在构建过程中,挑战主要源于多源异构数据的整合与清洗,包括确保来自Materials Project的不同计算任务间能量基准的一致性、处理弛豫轨迹中离子步进数据的时空对齐,以及在大规模原子位置与力场序列中维持数值精度与存储效率的平衡。
常用场景
经典使用场景
在计算材料科学领域,nimashoghi/mptrj数据集为原子尺度模拟提供了关键轨迹数据。该数据集通过记录原子位置、力、能量及应力等物理量,成为训练机器学习势函数模型的经典资源。研究者利用其丰富的结构演化序列,能够深入探索材料在动态过程中的行为,如相变或缺陷运动,从而推动材料设计从静态向动态模拟的跨越。
解决学术问题
该数据集有效解决了材料科学中高精度势函数开发的瓶颈问题。传统第一性原理计算虽精确但计算成本高昂,难以处理大规模体系或长时间尺度模拟。通过提供大量基于密度泛函理论的轨迹数据,该数据集使机器学习模型能够学习原子间相互作用,以接近量子力学精度预测材料性质,显著加速了新材料的发现与优化过程。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,特别是在机器学习势函数领域。例如,基于图神经网络的势函数模型常以此数据集为基准进行训练与验证,推动了如SchNet、DimeNet++等架构的发展。这些工作不仅提升了模拟精度与效率,还促进了材料信息学与人工智能的交叉融合,形成了从数据生成到模型应用的研究闭环。
以上内容由遇见数据集搜集并总结生成



