mpdb-prop_clean
收藏Hugging Face2025-03-10 更新2025-03-11 收录
下载链接:
https://huggingface.co/datasets/c-bone/mpdb-prop_clean
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含以下字段:数据库信息、简化公式、CIF文件、带隙值(单位为电子伏特)和标准化后的带隙值。数据集分为训练集和验证集,其中训练集包含44735个示例,验证集包含7895个示例。数据集的总大小为73846398字节,下载大小为25605263字节。
This dataset comprises the following fields: database information, simplified formulas, CIF files, band gap values (unit: electron volt) and standardized band gap values. The dataset is split into a training set and a validation set, with the training set containing 44735 samples and the validation set containing 7895 samples. The total size of the dataset is 73846398 bytes, and its download size is 25605263 bytes.
创建时间:
2025-02-26
搜集汇总
数据集介绍

构建方式
mpdb-prop_clean数据集的构建采取了对大量无机材料数据库的梳理与清洗,从中提取了具有明确化学式的材料,并进一步获取了其对应的CIF文件、简化化学式以及带隙信息。数据集涵盖了训练集与验证集,确保了模型的训练与评估的分离,保障了模型的泛化能力。
特点
该数据集的特点在于其数据质量的高纯净性,所有数据均经过严格清洗,确保了输入信息的准确无误。此外,数据集提供了包括化学式、CIF文件以及带隙等多种材料属性信息,丰富了数据维度,有助于促进材料属性预测模型的研发。
使用方法
在使用mpdb-prop_clean数据集时,用户需先通过HuggingFace的API进行数据集下载。随后,用户可以根据数据集的splits,分别加载训练集与验证集。数据集以字符串形式存储,用户需根据数据类型将其转换为适合模型输入的格式。
背景与挑战
背景概述
mpdb-prop_clean数据集,作为材料属性数据库的一个子集,是在材料科学领域内具有重要研究价值的资源。该数据集由专业研究人员于近年构建,旨在为材料研究者提供经过清洗和校验的稳定且可靠的材料属性数据。其主要包含数据库标识、简化公式、CIF文件、带隙(eV)以及标准化带隙等特征信息,这些信息对于理解材料的电子结构和性质至关重要。mpdb-prop_clean数据集的创建,不仅为材料带隙预测等研究提供了高质量的数据支持,同时也对材料信息学的发展产生了深远的影响。
当前挑战
尽管mpdb-prop_clean数据集为研究领域提供了宝贵的资源,但在实际应用中仍面临一些挑战。首先,数据集构建过程中,如何确保从原始数据库中提取的数据质量,避免错误和偏差的引入,是一大挑战。其次,数据集在解决材料带隙预测等问题的同时,还需克服数据标注的不一致性、数据覆盖范围的局限性以及模型泛化能力不足等问题。这些挑战不仅要求研究者在数据清洗和预处理方面付出更多努力,也考验着他们在模型设计与优化方面的创新能力。
常用场景
经典使用场景
在材料科学领域,mpdb-prop_clean数据集凭借其详尽的数据库信息、化学式简写、晶体学信息以及能带间隙等特性,成为研究者在进行材料属性预测时的经典资源。该数据集为研究者提供了一个可靠的基准,用以训练和验证机器学习模型,预测材料的能带间隙等关键性质。
衍生相关工作
基于mpdb-prop_clean数据集,学术界衍生了一系列相关研究工作,如材料性质预测模型的开发、材料数据库的构建与优化等。这些工作不仅推动了材料科学领域的知识积累,也为相关交叉学科的发展提供了数据基础和理论支撑。
数据集最近研究
最新研究方向
在材料科学领域,mpdb-prop_clean数据集因其包含大量纯净的化合物属性数据而备受关注。近期研究集中于利用该数据集进行机器学习模型的训练与验证,旨在预测材料的带隙等关键物理参数,推动材料发现和设计流程的自动化。该数据集为高 throughput实验提供了强有力的数据支撑,使得研究者能够聚焦于诸如数据增强、模型泛化能力提升等前沿研究方向,进而加速新材料的研究与开发,对材料科学及相关交叉领域产生了深远影响。
以上内容由遇见数据集搜集并总结生成



