Radiation Damage ML Dataset
收藏github2026-03-20 更新2026-03-22 收录
下载链接:
https://github.com/akmal523/radiation_damage_ml
下载链接
链接失效反馈官方服务:
资源简介:
一个用于预测晶体材料中辐射损伤和点缺陷形成的图神经网络训练数据集,支持W-Mo-Nb-Zr-Ti-Ta系统的高熵合金和其他耐火/不锈钢合金。数据集通过两阶段能量/力评估生成,包括快速路径(LAMMPS + ADP势能)和精确路径(MLIP — MACE-MP-0, GRACE, 或 SevenNet)。
A graph neural network training dataset for predicting radiation damage and point defect formation in crystalline materials, applicable to high-entropy alloys in the W-Mo-Nb-Zr-Ti-Ta system as well as other refractory and stainless steel alloys. The dataset is generated through a two-stage energy and force evaluation process, comprising two pathways: the fast-track pathway (LAMMPS combined with the ADP potential) and the high-precision pathway employing MLIPs including MACE-MP-0, GRACE, or SevenNet.
创建时间:
2026-03-20
原始信息汇总
数据集概述
数据集名称
Radiation Damage ML Dataset Pipeline
数据集目的
用于生成、处理和存储图神经网络训练数据集,以预测晶体材料中的辐射损伤和点缺陷形成。
支持的材料体系
- 主要支持 W-Mo-Nb-Zr-Ti-Ta 体系的高熵合金。
- 也支持其他难熔/不锈钢合金,如 Fe-Ni-Cr、Mo-Nb-Ta-W、Al-Co-Cr-Fe-Ni、Si。
数据生成流程
阶段 1:数据挖掘
- 方法:通过 Materials Project API 获取材料数据。
- 过滤条件:形成能(E_above_hull)< 0.1 eV/atom。
- 输出:CIF 和 JSON 文件,存储于
data/raw_structures/。
阶段 2:缺陷工程
- 方法:为每个体相结构构建 3×3×3 超胞,并引入缺陷。
- 缺陷类型:
- 单空位(针对每种独特元素)。
- 双空位(最近邻原子对)。
- 间隙原子(He、H 置于最大空隙处)。
- 热位移(σ=0.05 Å,生成 3 个快照)。
- 输出:extXYZ 和 JSON 文件,存储于
data/defect_structures/。
阶段 3:能量/力评估
- 评估策略:采用双层方法。
- 快速路径:当空位数(n_vac)≤ 2 时,使用 LAMMPS 和 ADP 势函数(
WMoNbZrTiTa.nist.adp.txt)。 - 精确路径:当空位数(n_vac)> 2 时,使用机器学习间势(MLIP),可选后端包括 MACE-MP-0、GRACE 或 SevenNet。
- 快速路径:当空位数(n_vac)≤ 2 时,使用 LAMMPS 和 ADP 势函数(
- 并行计算:通过 Ray(集群)或多进程实现。
- 输出:NPZ 和 JSON 文件,存储于
data/evaluated/。
阶段 4:图转换
- 节点特征:原子序数(Z)、Voronoi 体积(V_voronoi)、电负性(EN)、共价半径(r_cov)、是否为缺陷位点(is_defect_site)。
- 边特征:原子间距(r_ij)、单位向量(考虑周期性边界条件,截断半径为 6 Å)。
- 预测目标:总能量(E_total)、原子受力(F_i)、形成能(E_formation)。
- 输出:
graphs_raw.pkl文件,存储于data/graphs/。
阶段 5:云存储
- 支持格式:
- LMDB:支持随机访问,NFS 安全。
- HDF5:分块存储并使用 LZF 压缩。
- WebDataset:分片的 .tar 文件,适用于 S3/GCS 流式传输。
- 输出文件:
dataset.lmdb、dataset.h5或shards/*.tar。
关键配置参数
| 参数 | 默认值 | 描述 |
|---|---|---|
mp.chemsys_queries |
Fe-Ni-Cr, W-Mo-Nb-Zr-Ti-Ta, ... | 要下载的材料体系 |
defect.supercell_size |
[3,3,3] | 超胞倍增因子 |
defect.thermal_sigma |
0.05 Å | 热位移的均方根值 |
eval.adp_species_order |
W Mo Nb Zr Ti Ta | 必须与 ADP 文件头匹配 |
eval.mlip_complexity_threshold |
2 | 当 n_vac > N 时使用 MLIP |
eval.mlip.backend |
mace | MLIP 后端(mace / grace / sevennet) |
graph.cutoff_radius |
6.0 Å | 图边截断半径 |
storage.backend |
lmdb | 存储后端(lmdb / hdf5 / webdataset) |
训练集成
提供 pipeline/stage06_dataloader.py 模块,可获取数据加载器,支持单 GPU 和多 GPU 分布式数据并行训练。数据批次包含节点特征、原子序数、位置、受力、总能量、边索引和边属性。
势函数文件
- WMoNbZrTiTa ADP 势函数(来自 NIST IPRP)。
- MACE-MP-0(自动下载)。
- GRACE(需手动下载检查点)。
- SevenNet-0(自动下载通用模型)。
详细下载链接和配置见
potentials/README.md。
输出文件说明
详细输出文件的物理意义、单位、数组形状和加载示例见 outputs/RESULTS_DESCRIPTION.txt。
项目文件结构
radiation_damage_ml/ ├── pipeline/ # 核心处理流程各阶段脚本 ├── potentials/ # 势函数文件及说明 ├── outputs/ # 输出结果描述文档 ├── logs/ # 日志目录 ├── data/ # 生成的各级数据(Git 忽略) ├── run_pipeline.py # 主流程协调脚本 ├── setup_env.sh # 环境设置脚本 ├── requirements.txt # Python 依赖 ├── .env.example # 环境变量模板 └── README.md
搜集汇总
数据集介绍

构建方式
在材料科学领域,辐射损伤与点缺陷预测的研究对核能及航天材料的设计至关重要。本数据集通过多阶段流程构建:首先从Materials Project API中筛选出W-Mo-Nb-Zr-Ti-Ta等难熔合金体系,并基于能量稳定性标准(E_above_hull < 0.1 eV/atom)获取原始晶体结构;随后利用原子模拟环境生成3×3×3超胞,系统引入单空位、双空位、氢氦间隙原子及热位移扰动,构建缺陷结构库;最后采用双层能量评估策略,对简单缺陷使用LAMMPS结合ADP势函数进行快速计算,复杂缺陷则通过MACE-MP-0等机器学习势函数精确求解,并通过图神经网络框架将原子系统转化为包含节点特征与边属性的图数据,最终以LMDB、HDF5等多种云优化格式存储。
特点
该数据集在辐射损伤模拟领域展现出显著的技术特色。其覆盖W-Mo-Nb-Zr-Ti-Ta体系及多种不锈钢合金,提供了从完整晶体到多元缺陷的全面原子构型;采用自适应计算策略,依据缺陷复杂度动态切换经典势函数与前沿机器学习势函数,在保证精度的同时优化计算资源分配;数据结构设计上,将原子系统编码为图表示,节点融合电负性、共价半径等物理描述符,边信息则包含周期性边界条件下的空间矢量,直接支持图神经网络的端到端训练;此外,数据集提供LMDB、HDF5及WebDataset三种存储格式,兼顾本地高效存取与云端流式读取需求,为大规模机器学习研究提供了基础设施支持。
使用方法
对于希望利用该数据集开展机器学习研究的用户,可通过模块化流程快速部署。环境配置环节执行自动化脚本即可完成依赖安装与势函数部署;运行管道时支持全流程执行或从特定阶段重启,用户可通过环境变量灵活选择机器学习势函数后端与存储格式。数据加载接口封装为PyTorch Geometric兼容的数据加载器,支持单机与分布式多GPU训练,可直接获取包含原子坐标、力场、形成能等物理量的图数据批次。用户还可通过配置文件调整超胞尺寸、缺陷类型及图切割半径等参数,以适应不同精度的模拟需求,实现从数据生成到模型训练的无缝衔接。
背景与挑战
背景概述
在材料科学领域,辐射损伤与点缺陷形成机制的研究对于核能、航空航天等关键技术的材料耐久性评估至关重要。Radiation Damage ML Dataset由研究团队于近年开发,旨在构建一个针对晶体材料辐射损伤预测的图神经网络训练数据集。该数据集聚焦于W-Mo-Nb-Zr-Ti-Ta体系的高熵合金及其他难熔/不锈钢材料,通过整合Materials Project数据库的晶体结构数据,并采用LAMMPS与先进机器学习势函数(如MACE-MP-0、GRACE、SevenNet)进行能量与力评估,为材料缺陷模拟提供了标准化、可扩展的数据基础。其创新性在于将高通量计算与图表示学习相结合,推动了材料信息学在辐射损伤建模中的应用,显著提升了复杂缺陷系统模拟的精度与效率。
当前挑战
该数据集致力于解决晶体材料辐射损伤与点缺陷形成的预测问题,其核心挑战在于准确模拟多元素合金中缺陷结构的能量景观,并处理高维原子相互作用带来的计算复杂性。在构建过程中,研究团队面临多重技术难题:首先,缺陷工程阶段需在超晶胞中生成单空位、双空位及间隙原子等多种缺陷构型,同时保持晶体周期性边界条件的物理一致性;其次,能量评估需协调快速路径(基于经典势函数)与精确路径(基于机器学习势函数)之间的计算效率与精度平衡,尤其当空位数量增加时,机器学习势函数的计算资源消耗急剧上升。此外,图结构转换阶段需设计能够捕获原子局部环境特征的节点与边属性,并确保数据存储格式(如LMDB、HDF5)支持大规模分布式训练的高效流式访问。
常用场景
经典使用场景
在材料科学与核工程领域,辐射损伤与点缺陷的形成是影响材料性能的关键因素。Radiation Damage ML Dataset通过系统化的数据生成流程,为图神经网络提供了训练数据集,专门用于预测晶体材料在辐射环境下的损伤行为。该数据集涵盖了W-Mo-Nb-Zr-Ti-Ta体系的高熵合金及其他难熔或不锈钢合金,通过结合LAMMPS模拟与机器学习势函数(如MACE-MP-0、GRACE或SevenNet),实现了对单空位、双空位、间隙原子及热位移缺陷的高效能量与力评估。其经典使用场景在于为研究人员提供了一个标准化、可扩展的数据基础,以训练和验证GNN模型,从而加速新型抗辐射材料的发现与优化过程。
衍生相关工作
围绕Radiation Damage ML Dataset,已衍生出多项经典研究工作,进一步拓展了其在计算材料学中的影响力。基于该数据集构建的图神经网络模型,如结合MACE-MP-0势函数的架构,被广泛应用于预测多元合金的缺陷形成能与力学响应,相关成果发表在材料与机器学习交叉领域的顶级期刊。此外,研究人员利用数据集的标准化输出,开发了针对特定缺陷类型(如氦泡成核或位错环扩展)的专用预测工具,并与开源软件库(如ASE、PyTorch Geometric)深度集成。这些工作不仅验证了数据集的质量与泛化能力,还催生了新的算法框架,促进了材料基因工程与人工智能的深度融合。
数据集最近研究
最新研究方向
在核能材料与先进合金设计领域,辐射损伤预测是保障反应堆安全性与材料耐久性的核心挑战。Radiation Damage ML Dataset通过集成高通量材料数据挖掘与缺陷工程,构建了涵盖W-Mo-Nb-Zr-Ti-Ta等难熔合金体系的图神经网络训练数据集,推动了基于机器学习的点缺陷形成能模拟研究。当前前沿方向聚焦于多尺度建模融合,结合快速势函数与高精度机器学习势能(如MACE-MP-0、GRACE),实现从原子尺度缺陷到宏观性能的跨层次预测。该数据集支持云优化存储与分布式计算,为新型抗辐射材料的设计提供了标准化数据管道,显著加速了高性能合金在极端环境下的研发进程。
以上内容由遇见数据集搜集并总结生成



