five

ML_abx3_dataset

收藏
arXiv2023-12-19 更新2024-07-24 收录
下载链接:
https://github.com/chenebuah/ML_abx3_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ML_abx3_dataset是由渥太华大学机械工程系的研究人员创建的,包含16,323个ABX3无机钙钛矿结构的材料数据集。该数据集从Open Quantum Materials Database (OQMD)提取,并经过预处理,包括61个广义输入特征,描述了材料的物理化学、稳定性/几何和密度泛函理论(DFT)目标属性。数据集主要用于机器学习分析,特别是用于预测和分类确定性目标属性,如形成能、能带隙和晶体系统。该数据集的应用领域包括材料发现和工程应用,旨在通过机器学习技术优化材料性能和模型参数。

The ML_abx3_dataset was developed by researchers from the Department of Mechanical Engineering, University of Ottawa, and contains 16,323 materials with ABX3 inorganic perovskite structures. This dataset was extracted from the Open Quantum Materials Database (OQMD) and underwent preprocessing, including 61 generalized input features that characterize the physico-chemical, stability/geometric, and Density Functional Theory (DFT) target properties of the materials. The dataset is primarily designed for machine learning analyses, especially for predicting and classifying deterministic target properties such as formation energy, band gap, and crystal system. Its application scenarios include material discovery and engineering applications, with the goal of optimizing material performance and model parameters via machine learning techniques.
提供机构:
渥太华大学机械工程系
创建时间:
2023-12-19
原始信息汇总

ML_abx3_dataset

概述

ML_abx3_dataset 是一个用于机器学习的目标属性预测和分类的无机 ABX3 钙钛矿材料数据集。该数据集源自 Open Quantum Materials Database (OQMD),包含 16,323 个 ABX3 无机钙钛矿结构的样本。数据集以表格形式呈现,经过预处理,包含 61 个广义输入特征,这些特征广泛描述了与三维 ABX3 多面体中的元素离子位点相关的物理化学、稳定性和几何性质以及密度泛函理论 (DFT) 目标属性。

验证

为了验证数据集的有效性,使用了四种不同的机器学习模型来预测三种不同的目标属性:形成能、能带隙和晶体系统。实验结果显示,形成能预测的最佳平均绝对误差 (MAE) 为 0.013 eV/atom,能带隙预测的 MAE 为 0.216 eV,晶体系统多分类的 F1 分数为 85%。这些结果与先前的文献进行了比较,证实了该数据集在未来的材料分析中通过机器学习技术的实用性。

引用

如果您使用此资源,请按以下方式引用: latex @misc{chenebuah2023inorganic, title={An inorganic ABX3 perovskite materials dataset for target property prediction and classification using machine learning}, author={Ericsson Tetteh Chenebuah and David Tetteh Chenebuah}, year={2023}, eprint={2312.11335}, archivePrefix={arXiv}, primaryClass={cond-mat.mtrl-sci} }

搜集汇总
数据集介绍
main_image_url
构建方式
在无机钙钛矿材料科学领域,数据集的构建质量直接影响机器学习模型的预测可靠性。ML_abx3_dataset的构建始于从开放量子材料数据库(OQMD)中提取原始ABX3结构数据,该平台汇集了超过百万条基于密度泛函理论的计算条目以及实验结构。为确保数据集的材料类别特异性,研究团队执行了多步筛选流程:首先排除反钙钛矿结构,仅保留具有典型三维多面体构型的常见阴离子元素,包括卤素、氧族及氮磷等;随后剔除形成能或稳定性能量过高的不稳定化合物,最终获得16,323个高质量样本。特征工程方面,每个样本均通过六十一个广义输入特征进行描述,涵盖物理化学性质、稳定性/几何参数以及DFT目标属性,并通过单元胞体积确保每个样本的唯一性表征。
使用方法
该数据集专为机器学习基准分析设计,适用于回归与分类双重任务。用户可将其组织为M×N矩阵形式,其中M对应样本数量,N对应特征维度。针对形成能预测,建议采用五十八个输入特征,包含全部物理化学与稳定性特征,并利用稳定性能量的强相关性提升预测精度。对于带隙预测,则推荐五十九个特征,额外纳入形成能作为关键描述符。在晶体系统多分类任务中,需注意数据不平衡问题,可通过下采样或SMOTE过采样技术处理少数类别。数据集已通过支持向量机、随机森林、极限梯度提升与轻量梯度提升四种经典表格模型验证,在形成能、带隙预测及晶体系统分类中分别达到0.013 eV/atom MAE、0.216 eV MAE及85% F1的优异性能,为后续材料信息学领域的模型优化与比较提供了可靠基准。
背景与挑战
背景概述
无机钙钛矿材料因其丰富的成分与构型多样性,在新型能源材料探索中占据前沿地位。ML_abx3_dataset由Ericsson Tetteh Chenebuah与David Tetteh Chenebuah于近期构建,旨在为机器学习驱动的材料性质预测与分类提供标准化基准数据集。该数据集源自开放量子材料数据库,包含16,323个ABX3型无机钙钛矿结构样本,并经过预处理整合了61个广义特征,涵盖物理化学、稳定性/几何及密度泛函理论计算的目标性质。其核心研究聚焦于通过机器学习高效预测形成能、带隙及晶体系统等关键性质,以克服传统第一性原理计算与实验合成方法在广阔材料设计空间中的计算成本高、资源消耗大等局限。该数据集的发布为材料信息学领域提供了规模更大、特征更全面的基准资源,显著提升了钙钛矿材料目标性质预测的模型性能与可靠性。
当前挑战
该数据集致力于解决钙钛矿材料关键性质的高通量预测与分类问题,其核心挑战体现在性质预测的精确性与数据构建的复杂性两方面。在性质预测层面,带隙的准确预测尤为困难,源于密度泛函理论固有的带隙低估问题,以及数据集中金属性与非金属性带隙样本共存导致的分布复杂性;晶体系统多分类任务则面临立方与四方晶系因结构正交性导致的特征重叠,致使分类器难以清晰区分。在数据构建过程中,挑战主要来自原始数据的筛选与特征工程:需从海量数据库中精确筛选符合ABX3钙钛矿构型的样本,并排除反钙钛矿结构及热力学不稳定化合物;同时,需设计能够全面表征钙钛矿三维多面体离子位点物理化学与稳定性行为的描述符,并将空间群符号准确映射至晶体系统,以确保数据的代表性与机器学习模型的泛化能力。
常用场景
经典使用场景
在无机钙钛矿材料发现领域,ML_abx3_dataset 作为基准数据集,其经典应用场景在于通过机器学习模型预测ABX3型钙钛矿的关键物性参数。该数据集整合了16,323个样本的六十一维特征,涵盖物理化学、稳定性及电子性质等多维度信息,为研究者提供了标准化的训练与测试平台。在材料信息学研究中,该数据集常被用于构建回归与分类模型,以探索钙钛矿材料的结构-性能关系,成为加速新型功能材料筛选的重要计算工具。
解决学术问题
该数据集有效解决了钙钛矿材料研究中传统方法面临的若干瓶颈问题。通过提供大规模、高质量的计算数据,它克服了密度泛函理论计算成本高昂、实验合成试错周期长的局限。在学术层面,数据集支持对形成能、带隙及晶体系统等关键性质的精准预测,深化了对钙钛矿稳定性与电子结构的理解。其引入的广义特征工程框架,为材料描述符的构建提供了新范式,推动了机器学习在固态化学中的可解释性研究,显著提升了材料设计效率与理论预测的可靠性。
实际应用
在实际应用层面,ML_abx3_dataset 为光伏、催化及电子器件等工程领域提供了材料筛选与优化的数据基础。基于该数据集训练的机器学习模型,能够快速预测钙钛矿太阳能电池材料的带隙与稳定性,指导实验合成具有特定光电性能的新化合物。在工业研发中,该数据集支持高通量虚拟筛选,大幅降低新材料开发的时间与经济成本。同时,其开放获取特性促进了产学研协作,为能源材料与信息技术的交叉创新提供了关键数据支撑。
数据集最近研究
最新研究方向
在无机钙钛矿材料领域,ML_abx3_dataset的推出标志着机器学习驱动材料发现进入新阶段。该数据集整合了16,323个ABX3结构样本,涵盖61个广义特征,聚焦于形成能、带隙及晶体系统的预测与分类。前沿研究正利用该数据集优化机器学习模型,如支持向量机与梯度提升算法,以提升目标属性预测精度,其中形成能预测的MAE已达0.013 eV/atom,带隙预测达0.216 eV,晶体系统分类F1分数达85%。热点方向包括通过特征工程增强模型泛化能力,并探索深度生成模型以突破DFT计算局限,推动钙钛矿在光伏、催化等能源应用中的高效筛选与设计。
相关研究论文
  • 1
    An inorganic ABX3 perovskite materials dataset for target property prediction and classification using machine learning渥太华大学机械工程系 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作