xpanceo-team/materials-project

Name: xpanceo-team/materials-project
Creator: xpanceo-team
Published: 2024-04-25 15:15:01
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/xpanceo-team/materials-project

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: material_id dtype: string - name: structure dtype: string - name: deprecated dtype: bool - name: space_group_number dtype: int64 - name: crystal_system dtype: string - name: uncorrected_energy_per_atom dtype: float64 - name: energy_per_atom dtype: float64 - name: formation_energy_per_atom dtype: float64 - name: energy_above_hull dtype: float64 - name: is_stable dtype: bool - name: equilibrium_reaction_energy_per_atom dtype: float64 - name: decomposes_to dtype: string - name: xas dtype: string - name: band_gap dtype: float64 - name: cbm dtype: float64 - name: vbm dtype: float64 - name: efermi dtype: float64 - name: is_gap_direct dtype: bool - name: is_metal dtype: bool - name: es_source_calc_id dtype: string - name: bandstructure dtype: string - name: dos dtype: string - name: is_magnetic dtype: bool - name: ordering dtype: string - name: total_magnetization dtype: float64 - name: total_magnetization_normalized_vol dtype: float64 - name: total_magnetization_normalized_formula_units dtype: float64 - name: num_magnetic_sites dtype: float64 - name: num_unique_magnetic_sites dtype: float64 - name: types_of_magnetic_species dtype: string - name: bulk_modulus dtype: string - name: shear_modulus dtype: string - name: universal_anisotropy dtype: float64 - name: homogeneous_poisson dtype: float64 - name: e_total dtype: float64 - name: e_ionic dtype: float64 - name: e_electronic dtype: float64 - name: n dtype: float64 - name: e_ij_max dtype: float64 - name: possible_species sequence: string - name: theoretical dtype: bool - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 920848973 num_examples: 104868 - name: valid num_bytes: 101663904 num_examples: 11652 - name: test num_bytes: 343852159 num_examples: 38841 download_size: 429540155 dataset_size: 1366365036 configs: - config_name: default data_files: - split: train path: data/train-* - split: valid path: data/valid-* - split: test path: data/test-* ---

数据集信息： ### 特征字段 1. material_id：字符串类型，材料ID 2. structure：字符串类型，晶体结构数据 3. deprecated：布尔类型，是否已弃用 4. space_group_number：64位整数类型，空间群编号 5. crystal_system：字符串类型，晶系 6. uncorrected_energy_per_atom：64位浮点数类型，未校正单原子能量 7. energy_per_atom：64位浮点数类型，单原子能量 8. formation_energy_per_atom：64位浮点数类型，单原子形成能 9. energy_above_hull：64位浮点数类型，凸包超额能量 10. is_stable：布尔类型，是否热力学稳定 11. equilibrium_reaction_energy_per_atom：64位浮点数类型，单原子平衡反应能 12. decomposes_to：字符串类型，分解产物 13. xas：字符串类型，X射线吸收谱（X-ray Absorption Spectroscopy）数据 14. band_gap：64位浮点数类型，带隙 15. cbm：64位浮点数类型，导带底能级 16. vbm：64位浮点数类型，价带顶能级 17. efermi：64位浮点数类型，费米能级 18. is_gap_direct：布尔类型，是否为直接带隙 19. is_metal：布尔类型，是否为金属 20. es_source_calc_id：字符串类型，电子结构源计算ID 21. bandstructure：字符串类型，能带结构数据 22. dos：字符串类型，态密度（Density of States）数据 23. is_magnetic：布尔类型，是否具有磁性 24. ordering：字符串类型，原子有序性类型 25. total_magnetization：64位浮点数类型，总磁化强度 26. total_magnetization_normalized_vol：64位浮点数类型，归一化体积的总磁化强度 27. total_magnetization_normalized_formula_units：64位浮点数类型，归一化化学式单元数的总磁化强度 28. num_magnetic_sites：64位浮点数类型，磁性位点数量 29. num_unique_magnetic_sites：64位浮点数类型，唯一磁性位点数量 30. types_of_magnetic_species：字符串类型，磁性物种类型 31. bulk_modulus：字符串类型，体积模量数据 32. shear_modulus：字符串类型，剪切模量数据 33. universal_anisotropy：64位浮点数类型，各向异性指数 34. homogeneous_poisson：64位浮点数类型，均质泊松比 35. e_total：64位浮点数类型，总能量 36. e_ionic：64位浮点数类型，离子能量 37. e_electronic：64位浮点数类型，电子能量 38. n：64位浮点数类型，对应物理量（保留原字段名） 39. e_ij_max：64位浮点数类型，最大弹性分量能量 40. possible_species：字符串序列类型，可能存在的化学物种 41. theoretical：布尔类型，是否为理论计算数据 42. __index_level_0__：64位整数类型，索引层级0 ### 数据集划分 - 训练集（train）：字节数920848973，样本量104868 - 验证集（valid）：字节数101663904，样本量11652 - 测试集（test）：字节数343852159，样本量38841 整体下载大小为429540155字节，数据集总存储大小为1366365036字节。 ### 配置信息 - 默认配置（default）：数据文件路径分别为训练集"data/train-*"、验证集"data/valid-*"、测试集"data/test-*"

提供机构：

xpanceo-team

原始信息汇总

数据集概述

数据集特征

material_id: 字符串类型
structure: 字符串类型
deprecated: 布尔类型
space_group_number: 整数类型（int64）
crystal_system: 字符串类型
uncorrected_energy_per_atom: 浮点数类型（float64）
energy_per_atom: 浮点数类型（float64）
formation_energy_per_atom: 浮点数类型（float64）
energy_above_hull: 浮点数类型（float64）
is_stable: 布尔类型
equilibrium_reaction_energy_per_atom: 浮点数类型（float64）
decomposes_to: 字符串类型
xas: 字符串类型
band_gap: 浮点数类型（float64）
cbm: 浮点数类型（float64）
vbm: 浮点数类型（float64）
efermi: 浮点数类型（float64）
is_gap_direct: 布尔类型
is_metal: 布尔类型
es_source_calc_id: 字符串类型
bandstructure: 字符串类型
dos: 字符串类型
is_magnetic: 布尔类型
ordering: 字符串类型
total_magnetization: 浮点数类型（float64）
total_magnetization_normalized_vol: 浮点数类型（float64）
total_magnetization_normalized_formula_units: 浮点数类型（float64）
num_magnetic_sites: 浮点数类型（float64）
num_unique_magnetic_sites: 浮点数类型（float64）
types_of_magnetic_species: 字符串类型
bulk_modulus: 字符串类型
shear_modulus: 字符串类型
universal_anisotropy: 浮点数类型（float64）
homogeneous_poisson: 浮点数类型（float64）
e_total: 浮点数类型（float64）
e_ionic: 浮点数类型（float64）
e_electronic: 浮点数类型（float64）
n: 浮点数类型（float64）
e_ij_max: 浮点数类型（float64）
possible_species: 字符串类型
theoretical: 布尔类型
index_level_0: 整数类型（int64）

数据集分割

train: 104868个样本，大小920848973字节
valid: 11652个样本，大小101663904字节
test: 38841个样本，大小343852159字节

数据集大小

下载大小: 429540155字节
数据集总大小: 1366365036字节

搜集汇总

数据集介绍

构建方式

在材料科学领域，计算材料数据库的构建依赖于高通量密度泛函理论（DFT）工作流程。本数据集源自Materials Project数据库，通过mp-api工具从Summary端点导出，采用版本0.45.15的MPRester.materials.summary.search()方法进行数据采集。导出过程固定了字段列表，涵盖材料标识、晶体结构、对称性信息以及能量学、电子结构、磁性等多维属性，同时包含XAS、能带结构等子文档的可用性标志，确保了数据的系统性与完整性。数据以pymatgen Structure对象的JSON序列化形式存储结构信息，并于2026年1月18日完成快照，共收录210,579个条目，全部整合为单一训练分割。

特点

本数据集作为Materials Project的精选快照，其核心特点在于全面覆盖计算材料学的关键属性。数据集囊括了材料标识、化学式、空间群编号及晶体系统等基础信息，并深入提供了能量参数如形成能、稳定性标志，以及电子结构属性包括带隙、费米能级和金属性判断。磁性数据方面，收录了磁化强度、磁序类型等详细指标，辅以弹性与介电相关参数。值得注意的是，数据集通过可用性标志指示了XAS、能带结构等丰富子文档的存在，而非直接嵌入大型对象，这平衡了数据深度与存储效率。所有数值字段均忠实保留原始MP文档的精度，为材料发现与性能预测研究提供了可靠的多维度基准。

使用方法

为高效利用本数据集，用户可通过Hugging Face的datasets库直接加载，使用load_dataset函数并指定相应分割即可获取结构化数据。数据集中存储的晶体结构信息以pymatgen Structure对象的JSON字符串形式呈现，可借助pymatgen.core.Structure.from_str方法进行反序列化，从而获得可操作的材料结构对象，便于进行组成分析或几何计算。对于大规模数据处理，可将数据集转换为pandas DataFrame以支持灵活的分析操作，但需注意内存管理。在实际应用中，建议结合Materials Project官方文档理解字段定义与计算约定，并依据CC BY 4.0许可要求，在衍生工作中引用原始文献以尊重知识产权。

背景与挑战

背景概述

材料基因组计划作为加速材料发现的关键范式，催生了Materials Project这一标志性计算材料数据库。该数据库由麻省理工学院、劳伦斯伯克利国家实验室等机构的研究团队于2011年发起，核心目标是通过高通量密度泛函理论计算，系统预测无机材料的晶体结构、热力学稳定性及电子性质，从而构建一个开放共享的材料性质图谱。其影响力深远，不仅为材料科学领域提供了前所未有的数据规模，更推动了数据驱动材料设计范式的普及，成为计算材料学与人工智能交叉研究的重要基石。

当前挑战

该数据集致力于解决材料性质预测与新材料发现中的核心挑战，即如何从海量计算数据中高效识别稳定材料并准确预测其功能特性，这涉及处理高维特征空间与复杂结构-性质关联的建模难题。在构建过程中，挑战主要源于数据的一致性与完整性保障：高通量计算流程需确保不同材料体系计算参数的可比性；同时，数据库仅包含部分性质的可用性标志而非完整对象，如X射线吸收谱或能带结构数据，这限制了深度分析的广度，且数据动态更新与版本管理亦对长期研究构成持续挑战。

常用场景

经典使用场景

在计算材料科学领域，Materials Project数据集作为高通量密度泛函理论计算的结晶，为材料发现与设计提供了基石。其经典使用场景聚焦于材料性能的预测与筛选，研究人员通过该数据集丰富的结构、能量与电子属性字段，构建机器学习模型以预测新材料的形成能、带隙及稳定性。这些模型能够从数十万种已知晶体结构中学习潜在规律，从而高效识别具有特定功能特性的候选材料，大幅加速了传统试错式实验研究的进程。

解决学术问题

该数据集有效解决了材料科学中若干核心学术难题，尤其是材料稳定性预测与性能-结构关联的量化问题。通过提供精确计算的能量以上凸包、形成能及电子结构参数，研究人员能够系统评估材料的热力学稳定性，并深入探究晶体对称性、化学成分与宏观性质之间的内在联系。这为理解材料相图、揭示新颖量子现象以及设计高性能功能材料奠定了坚实的数据基础，推动了数据驱动的材料基因组研究范式的确立。

衍生相关工作

围绕Materials Project数据集，已衍生出一系列具有影响力的经典研究工作。例如，基于其数据训练的图神经网络模型，如CGCNN和MEGNet，在材料属性预测任务上取得了突破性进展。这些模型将晶体结构编码为图表示，实现了对复杂材料特性的高精度端到端学习。此外，该数据集也支撑了如Matminer等材料信息学工具包的开发，以及用于逆向材料设计的生成模型研究，共同构成了计算材料发现领域的核心生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集