Matbench v0.1
收藏arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://doi.org/10.57760/sciencedb.j00213.00104
下载链接
链接失效反馈官方服务:
资源简介:
Matbench v0.1数据集包含来自Materials Project数据库的10987个材料的剪切模量和体积模量数据。该数据集用于训练晶体图卷积神经网络(CGCNN)模型,以预测无机晶体的弹性性质。数据集包含晶体结构信息,以及通过Voigt-Reuss-Hill(VRH)平均法预测的剪切模量和体积模量。数据集的创建旨在提高材料设计中的计算效率,并丰富现有的材料弹性数据资源。
The Matbench v0.1 dataset contains shear modulus and bulk modulus data for 10,987 materials sourced from the Materials Project database. This dataset is used to train Crystal Graph Convolutional Neural Networks (CGCNN) models for predicting the elastic properties of inorganic crystals. The dataset includes crystal structure information, as well as shear modulus and bulk modulus values predicted via the Voigt-Reuss-Hill (VRH) averaging method. The creation of this dataset aims to improve computational efficiency in materials design and enrich existing repositories of materials elastic property data.
提供机构:
西安交通大学材料科学与工程学院
创建时间:
2025-11-06
搜集汇总
数据集介绍

构建方式
Matbench v0.1数据集的构建依托于材料科学领域对无机晶体弹性性质的高通量预测需求。该数据集整合了来自Materials Project数据库的10987个材料条目,涵盖剪切模量与体积模量数据,并通过晶体图卷积神经网络模型进行系统性扩展。构建过程中,首先基于Matbench v0.1的弹性模量子集训练CGCNN模型,随后对来自MPED的54359个结构和NED的26305个结构进行筛选,排除带隙超出0.1-3.0 eV范围及含放射性元素的晶体,最终形成包含80664个无机晶体弹性属性的标准化数据集。
特点
该数据集的核心特点在于其广泛覆盖了七大类晶体系统与70余种化学元素,其中单斜晶系与三斜晶系占比最高,氧化物成为主导化学组成。数据分布呈现显著的长尾效应,多数材料的原胞原子数集中于较低区间,而复杂结构数量较少但具有代表性。弹性模量数据通过严格的机器学习验证,其预测结果与DFT计算值高度吻合,平均绝对误差低于13 GPa,决定系数接近1,确保了数据的可靠性与物理一致性。
使用方法
研究人员可通过Python的matminer包直接访问数据集,或从指定科学数据存储库下载完整数据文件。使用流程包括加载晶体结构信息文件,调用预训练的CGCNN模型预测剪切模量与体积模量,并基于经典物理公式进一步计算声速、泊松比与德拜温度等衍生弹性参数。该数据集支持材料高通量筛选与性能优化研究,用户可通过元素频率、晶体对称性等统计特征快速定位目标材料,为功能材料设计提供多维度数据支撑。
背景与挑战
背景概述
Matbench v0.1 数据集由西安交通大学等研究机构于2020年推出,聚焦于无机晶体材料弹性性能的机器学习预测。该数据集整合了来自Materials Project数据库的10987种材料条目,涵盖剪切模量与体积模量等关键力学参数,旨在通过晶体图卷积神经网络等先进算法突破传统实验测量方法的高成本瓶颈。作为材料信息学领域的重要基准,它不仅推动了高通量计算与数据驱动材料设计的发展,还为功能材料如热电、压电材料的性能优化提供了标准化数据支撑,显著加速了新材料的发现周期。
当前挑战
在解决材料弹性性能预测问题时,Matbench v0.1需应对晶体结构复杂性带来的特征提取挑战,例如如何准确捕捉局部化学环境与长程相互作用对模量的影响。数据集构建过程中,研究者面临高质量数据稀缺的难题,包括原始晶体结构数据的标准化处理、放射性元素的筛选以及能带间隙范围的合理界定。此外,整合多源异构数据时需保证跨数据库的兼容性与一致性,这对机器学习模型的泛化能力与计算效率提出了更高要求。
常用场景
经典使用场景
在无机晶体材料弹性性能研究中,Matbench v0.1数据集为机器学习模型提供了标准化的训练与验证平台。该数据集整合了10987种材料的剪切模量与体积模量数据,通过晶体图卷积神经网络(CGCNN)等先进算法,实现了对材料弹性常数的精准预测。其经典应用体现在构建端到端的属性预测流程,将晶体结构文件直接映射为力学性能指标,为高通量材料筛选奠定了坚实基础。
解决学术问题
该数据集有效解决了传统实验测量方法成本高昂、周期冗长的瓶颈问题,通过数据驱动方法突破了密度泛函理论计算中的效率限制。其核心意义在于建立了晶体结构与弹性性能间的复杂映射关系,为材料基因工程提供了大规模标准化数据支撑。通过预测80664种无机晶体的弹性模量,显著拓展了材料设计空间,推动了计算材料学从定性分析向定量预测的范式转变。
衍生相关工作
该数据集催生了多类图神经网络模型的创新,如轨道图卷积网络(OGCNN)和原子线图神经网络(ALIGNN)等衍生工作。基于其构建的跨数据集评估框架,系统比较了八种图神经网络在分布外测试集的性能,推动了材料机器学习领域的模型标准化进程。此外,Merchant等人通过深度融合该数据集与图神经网络,成功发现了381000种新型稳定材料,极大拓展了已知材料体系的边界。
以上内容由遇见数据集搜集并总结生成



