Matbench
收藏arXiv2020-05-08 更新2024-06-21 收录
下载链接:
http://hackingmaterials.lbl.gov/automatminer/
下载链接
链接失效反馈官方服务:
资源简介:
Matbench是一个专门为无机固体材料性质预测设计的基准测试套件,由劳伦斯伯克利国家实验室创建。该数据集包含13个机器学习任务,涵盖了从312到132,752个样本的不同规模,数据来源于10个密度泛函理论衍生的和实验的源。任务包括预测光学、热学、电子、热力学、拉伸和弹性等性质。Matbench旨在通过一致的嵌套交叉验证方法评估回归和分类误差,适用于多种机械、电子和热力学材料性质。该数据集的应用领域广泛,旨在解决材料科学中的预测问题,推动材料信息学的发展。
Matbench is a benchmark suite dedicated to property prediction of inorganic solid materials, developed by Lawrence Berkeley National Laboratory. This dataset includes 13 machine learning tasks, spanning dataset sizes ranging from 312 to 132,752 samples, with data sourced from 10 density functional theory-derived and experimental sources. The tasks cover the prediction of optical, thermal, electronic, thermodynamic, tensile and elastic properties. Matbench aims to evaluate regression and classification errors through a consistent nested cross-validation method, and is suitable for a variety of mechanical, electronic and thermodynamic material properties. This dataset has broad application scenarios, aiming to solve prediction problems in materials science and promote the development of materials informatics.
提供机构:
劳伦斯伯克利国家实验室
创建时间:
2020-05-02
搜集汇总
数据集介绍

构建方式
Matbench数据集构建方式采用了从10个密度泛函理论衍生和实验来源的数据,共包含13个机器学习任务,样本量从312到132k不等。这些任务包括预测材料的光学、热学、电子、热力学、拉伸和弹性等性质,输入数据为材料的组成和/或晶体结构。Automatminer算法作为参考算法,是一种高度可扩展、全自动的机器学习流程,用于预测材料性质,无需用户干预或超参数调整。
特点
Matbench数据集的特点在于其多样性,涵盖了从传统的小型材料数据集到大型数据集的多个方面。Automatminer算法则具有自动化的特性,能够根据材料的基本信息(如组成和晶体结构)进行预测,无需用户干预或超参数调整。此外,Automatminer算法还具有高度的可扩展性,可以根据不同的计算能力、时间要求和目标进行配置。
使用方法
使用Matbench数据集的方法主要包括以下步骤:首先,从原始数据源下载Matbench v0.1的数据;然后,使用Matminer的dataset retrieval tools将数据转换为表格形式;接着,根据具体任务进行数据清洗,去除不物理的、高度不常见或不具代表性的样本;最后,使用Matbench数据集进行机器学习模型的训练和评估。Automatminer算法的使用方法包括以下步骤:首先,选择合适的Automatminer preset配置;然后,使用Matminer的featurizer library生成特征;接着,进行数据清洗和特征降维;最后,使用TPOT进行模型选择和超参数优化。
背景与挑战
背景概述
Matbench数据集是在材料科学领域的一项开创性工作,由Alexander Dunn、Qi Wang、Alex Ganose、Daniel Dopp和Anubhav Jain等研究人员于2019年在美国劳伦斯伯克利国家实验室创建。该数据集旨在通过机器学习模型来预测无机固体材料的性质,涵盖了从光学、热学、电子学、热力学、拉伸到弹性等多种性质。Matbench包含13个机器学习任务,这些任务的样本数量从312到132,752不等,数据来源包括10个密度泛函理论计算和实验数据。Automatminer是一个高度可扩展的自动化机器学习流程,用于从材料的基本特征(如成分和晶体结构)预测材料性质,无需用户干预或超参数调整。Matbench和Automatminer的发布对材料信息学领域产生了深远的影响,为材料性质预测模型提供了一个标准化的测试平台,并推动了该领域的研究进展。
当前挑战
Matbench数据集和相关研究面临着多方面的挑战。首先,该领域缺乏系统的方法来比较和选择材料机器学习模型,导致新发布的模型与现有技术难以进行有效比较。其次,材料机器学习任务的多样性导致许多模型仍然需要手动设计和调整,给研究人员带来了选择最优描述符和模型的难题。此外,Matbench测试套件目前使用嵌套交叉验证方法进行评估,虽然能够提供一致的误差估计,但可能不是所有任务的最佳选择。最后,随着材料数据的不断增长,Matbench需要不断更新和扩展,以适应新的研究趋势和技术发展。
常用场景
经典使用场景
Matbench数据集主要用于评估和比较预测无机材料属性的机器学习模型的性能。它包含13个机器学习任务,这些任务涵盖了从实验机械性能(如合金强度)到计算弹性性能、计算和实验电子性能、光学和声子性能以及晶体、二维材料和无序金属的热力学稳定性等多个方面。每个任务都是一个独立的数据集,包含单个材料原始数据(如成分或成分加晶体结构)和目标属性作为每个样本的输出。
实际应用
Matbench数据集在实际应用中可用于加速材料属性预测算法的开发。它提供了一个标准的测试平台,使得研究人员可以评估新算法的性能并将其与现有算法进行比较。此外,Matbench还可以用于自动化机器学习模型的开发,从而减少研究人员的时间和精力投入。通过使用Matbench,研究人员可以快速原型化、验证和分析新型高保真材料属性预测算法,从而推动材料信息学领域的发展。
衍生相关工作
Matbench数据集的发布推动了材料信息学领域的发展,并衍生出许多相关的经典工作。例如,Automatminer算法作为Matbench的参考算法,提供了一个高度可扩展、完全自动化的机器学习流程,用于预测材料的属性。此外,Matbench还促进了晶格图神经网络等新型算法的发展,这些算法在处理大型数据集时表现出更好的性能。这些相关工作不仅推动了材料信息学领域的技术进步,还为材料科学的发展提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



