四个晶体材料数据集
收藏arXiv2022-11-11 更新2024-06-21 收录
下载链接:
https://github.com/usccolumbia/materialsUQ
下载链接
链接失效反馈官方服务:
资源简介:
本研究涉及四个晶体材料数据集,包括形成能、吸附能、总能量和带隙等属性。这些数据集由东北大学计算机科学学院的研究团队创建,旨在通过图神经网络评估不确定性量化方法在材料属性预测中的应用。数据集涵盖多种材料属性,用于评估不同不确定性量化方法的性能。创建过程中,研究团队采用了先进的图神经网络技术,以确保数据集的高质量和适用性。这些数据集主要应用于材料科学领域,特别是在加速新材料发现和属性预测方面,为研究人员提供了一个强大的工具来评估和改进模型的不确定性估计能力。
This research includes four crystalline material datasets with properties such as formation energy, adsorption energy, total energy, and band gap. These datasets were created by the research team from the School of Computer Science, Northeastern University, aiming to evaluate the application of uncertainty quantification methods in material property prediction via graph neural networks. Covering various material properties, the datasets are used to assess the performance of different uncertainty quantification methods. During the dataset creation process, the research team adopted advanced graph neural network technologies to ensure the high quality and applicability of the datasets. These datasets are mainly applied in the field of materials science, especially in accelerating new material discovery and property prediction, providing researchers with a powerful tool to evaluate and improve the uncertainty estimation capability of models.
提供机构:
东北大学计算机科学学院
创建时间:
2022-11-04
搜集汇总
数据集介绍

构建方式
四个晶体材料数据集是由Fung等人构建的,旨在为材料化学领域提供基准数据集,用于评估图神经网络在材料性质预测方面的性能。该数据集包含了四种不同类型的晶体材料,包括体材料、合金表面、Pt簇和MOF材料的形成能、吸附能、总能量和带隙等性质。数据集的构建过程遵循严格的筛选标准,确保了数据集的质量和可靠性。
特点
四个晶体材料数据集具有以下特点:1. 数据集包含了四种不同类型的晶体材料,涵盖了从0D到3D的不同维度,能够有效地评估模型的泛化能力。2. 数据集包含了多种材料性质,包括形成能、吸附能、总能量和带隙等,能够用于评估模型在不同任务上的性能。3. 数据集的规模适中,能够满足模型训练的需求,同时又不会造成过拟合。4. 数据集的标注信息完整,包括材料的化学成分、晶体结构和性质等,方便用户进行研究和应用。
使用方法
四个晶体材料数据集的使用方法如下:1. 用户可以根据自己的研究需求选择合适的数据集,例如,如果研究目标是形成能预测,则可以选择体材料数据集。2. 用户可以使用数据集进行模型训练和测试,例如,可以使用图神经网络进行材料性质预测,并评估模型的性能。3. 用户可以使用数据集进行模型比较,例如,可以使用不同的图神经网络模型进行比较,并评估不同模型的性能。4. 用户可以使用数据集进行不确定性量化方法的研究,例如,可以使用不同的不确定性量化方法进行评估,并比较不同方法的性能。
背景与挑战
背景概述
四个晶体材料数据集是用于材料属性预测的基准研究,该研究于2022年11月发表在arXiv预印本平台上。该数据集由Daniel Varivoda、Rongzhi Dong、Sadman Sadeed Omee和Jianjun Hu等研究人员共同创建。该数据集旨在评估不确定性量化(UQ)方法在基于图神经网络(GNN)的材料属性预测中的应用效果。数据集包含四种不同类型的晶体材料属性数据,包括形成能、吸附能、总能和带隙。这些数据集来源于MaterialsProject、CatHub、文献和QMOF等数据库,涵盖了从0维到3维的不同类型无机材料,为材料科学领域的研究提供了丰富的数据基础。该数据集的创建对材料发现和材料科学领域的研究具有重要意义,推动了材料属性预测模型的鲁棒性和泛化能力的提升。
当前挑战
该数据集主要面临以下挑战:1)材料属性预测的挑战:由于材料属性的复杂性和多样性,预测模型需要能够准确捕捉材料结构和性质之间的关系,并具备良好的泛化能力。2)构建过程中所遇到的挑战:数据集的构建需要克服数据采集、清洗、标注等过程中的技术难题,并确保数据的质量和可靠性。3)不确定性量化方法的挑战:不同的UQ方法具有不同的优缺点,需要根据具体的应用场景和数据特点选择合适的UQ方法。此外,如何有效地评估UQ方法的性能也是一项挑战。
常用场景
经典使用场景
四个晶体材料数据集作为材料性质预测的不确定性量化(UQ)方法的评估基准,涵盖了形成能、吸附能、总能量和带隙等性质。该数据集在材料科学领域具有重要应用价值,可用于训练和评估基于图神经网络(GNN)的材料性质预测模型。通过该数据集,研究人员可以比较不同UQ方法的有效性,例如集成方法、归纳一致预测、证据学习和Delta度量等,并选择最适合特定预测任务的模型。此外,该数据集还可用于研究UQ方法如何反映预测误差范围或主动学习中的不确定性,从而提高材料发现过程的效率和可靠性。
衍生相关工作
该数据集衍生了与材料性质预测和不确定性量化相关的一系列经典工作。例如,研究人员基于该数据集开发了多种基于图神经网络(GNN)的材料性质预测模型,并使用不同的不确定性量化(UQ)方法对这些模型进行评估。此外,该数据集还促进了UQ方法在材料科学领域的应用,并推动了材料信息学和机器学习在材料科学中的应用研究。
数据集最近研究
最新研究方向
四个晶体材料数据集的研究方向主要集中于材料属性预测的不确定性量化(UQ)。该研究通过评估四种不同的UQ方法,包括Bootstrap Ensemble、Inductive Conformal Prediction、Evidential Learning和Delta metric,以探索它们在图神经网络(GNN)基础上进行材料属性预测的性能。研究发现,流行的集成方法并不适用于材料属性预测中的UQ,而Evidential Learning方法在多个评价指标中表现出色,成为未来UQ工作的有力候选方法。此外,Delta metric也展现出良好的性能,特别是在cNLL指标上。该研究为材料科学领域的不确定性量化提供了重要的参考和指导。
相关研究论文
- 1Materials Property Prediction with Uncertainty Quantification: A Benchmark Study东北大学计算机科学学院 · 2022年
以上内容由遇见数据集搜集并总结生成



