DeFecT-FF
收藏arXiv2025-10-28 更新2025-11-04 收录
下载链接:
https://nanohub.org/tools/cadetff
下载链接
链接失效反馈官方服务:
资源简介:
DeFecT-FF是一个结合了高吞吐量密度泛函理论(DFT)计算和基于晶体图的机器学习力场(MLFF)模型的数据集。该数据集包含了从GGA-PBE和HSE06几何优化中得到的结构和能量数据,包括具有缺陷和不具有缺陷的体和合金超晶格,以及含有缺陷的界面和晶界结构。数据集通过主动学习和准确的MLFF模型逐步扩展,以预测不同电荷状态下的能量和原子力。
DeFecT-FF is a dataset that combines high-throughput density functional theory (DFT) calculations with crystal graph-based machine learning force field (MLFF) models. This dataset contains structural and energetic data derived from geometric optimizations using the GGA-PBE and HSE06 functionals, including bulk and alloy superlattices with and without defects, as well as defective interface and grain boundary structures. The dataset is iteratively expanded through active learning and accurate MLFF models to predict energies and atomic forces under various charge states.
提供机构:
普渡大学材料工程学院
创建时间:
2025-10-28
搜集汇总
数据集介绍
构建方式
在半导体缺陷物理研究领域,DeFecT-FF数据集通过高通量密度泛函理论计算与机器学习力场模型的深度融合构建而成。该数据集整合了Cd/Zn-Te/Se/S化合物体系中2×2×2与3×3×3超胞的体相结构、缺陷构型及界面/晶界体系,覆盖中性至±2电荷态的缺陷配置。通过主动学习策略系统扩展数据规模,采用ShakeNBreak协议生成对称性破缺构型,并利用M3GNet框架构建能够预测能量、原子力和应力的机器学习力场模型,最终形成包含逾2万组结构的跨尺度缺陷数据库。
特点
该数据集在硫族化合物半导体缺陷研究中展现出独特优势,其核心特征体现在多维度数据整合与高精度预测能力。数据集同时包含GGA-PBE与HSE06泛函级别的几何优化数据,覆盖二元至四元合金的体相与缺陷结构,并首次系统收录界面和晶界缺陷构型。通过晶体图神经网络实现的机器学习力场模型,在保持近DFT精度的同时将单缺陷优化时间从12-14小时缩短至1-2分钟,且对空位、间隙和置换缺陷的晶体形成能预测误差均低于9 meV/原子。
使用方法
在光伏材料缺陷工程应用中,该数据集通过nanoHUB平台提供的DeFecT-FF工具实现高效利用。用户可上传晶体学文件并选择缺陷类型,系统将自动生成缺陷构型并通过机器学习力场进行几何优化。工具内置化学势库支持不同生长条件下缺陷形成能计算,可绘制随费米能级变化的缺陷形成能图并提取电荷跃迁能级。对于关键缺陷体系,建议在MLFF优化基础上进行HSE06+SOC计算验证,以实现快速筛选与高精度预测的有机结合。
背景与挑战
背景概述
DeFecT-FF数据集于2025年由普渡大学材料工程学院的研究团队开发,聚焦于Cd/Zn-Te/Se/S化合物中点缺陷、掺杂剂及缺陷复合物的能量与基态构型预测。该数据集结合高通量密度泛函理论计算与基于晶体图的机器学习力场模型,旨在解决CdTe基太阳能电池中缺陷驱动的效率限制问题,通过加速缺陷筛选与优化,推动薄膜光伏器件的性能提升。其核心研究在于利用主动学习策略扩展数据覆盖,显著降低了传统DFT计算的高成本,对半导体材料缺陷工程领域具有重要影响力。
当前挑战
DeFecT-FF数据集致力于解决CdTe基太阳能电池中缺陷诱导的非辐射复合、载流子寿命降低及效率损失等挑战。构建过程中面临多重困难:一是缺陷构型空间庞大,涉及数千种单缺陷与复合缺陷的对称破缺与电荷态组合,导致DFT计算资源需求极高;二是需在多元合金、界面及晶界等复杂环境中保持预测精度,要求模型具备强泛化能力;三是数据质量依赖主动学习迭代,需平衡计算成本与模型准确性,确保HSE06高精度数据的有效集成。
常用场景
经典使用场景
在薄膜太阳能电池材料研究中,DeFecT-FF数据集通过结合高通量密度泛函理论计算与晶体图神经网络力场模型,为Cd/Zn-Te/Se/S化合物中的点缺陷、掺杂剂及缺陷复合体提供了系统化的能量与构型预测平台。该数据集典型应用于探索锌矿相半导体中空位、间隙原子及替代缺陷的形成机制,通过主动学习策略逐步扩充缺陷构型库,实现对复杂化学空间中缺陷行为的精准建模。
衍生相关工作
基于该数据集衍生的M3GNet机器学习力场框架催生了多项创新研究,包括开发ShakeNBreak对称性破缺缺陷采样协议、建立掺杂剂-空位复合体能级预测模型,以及构建CdTe/ZnTe异质界面缺陷迁移理论。这些工作显著推进了II-VI族半导体缺陷工程的发展,为新型光电材料的设计提供了跨尺度计算范式。
数据集最近研究
最新研究方向
在薄膜太阳能电池材料领域,DeFecT-FF数据集通过结合高通量密度泛函理论与晶体图神经网络,显著推进了Cd/Zn-Te/Se/S化合物中点缺陷、掺杂剂及缺陷复合体的研究。前沿方向聚焦于利用机器学习力场模型实现跨电荷态的多尺度缺陷几何优化,突破传统计算在界面与晶界缺陷研究中的效率瓶颈。该框架通过主动学习策略动态扩展数据集,精准预测砷-氯复合缺陷等关键结构的形成能图谱,为硒梯度调控与载流子非辐射复合机制解析提供原子级见解,推动CdTe基光伏器件向理论效率极限逼近。
相关研究论文
- 1通过普渡大学材料工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成



