xpanceo-team/materials-project
收藏Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xpanceo-team/materials-project
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: material_id
dtype: string
- name: structure
dtype: string
- name: deprecated
dtype: bool
- name: space_group_number
dtype: int64
- name: crystal_system
dtype: string
- name: uncorrected_energy_per_atom
dtype: float64
- name: energy_per_atom
dtype: float64
- name: formation_energy_per_atom
dtype: float64
- name: energy_above_hull
dtype: float64
- name: is_stable
dtype: bool
- name: equilibrium_reaction_energy_per_atom
dtype: float64
- name: decomposes_to
dtype: string
- name: xas
dtype: string
- name: band_gap
dtype: float64
- name: cbm
dtype: float64
- name: vbm
dtype: float64
- name: efermi
dtype: float64
- name: is_gap_direct
dtype: bool
- name: is_metal
dtype: bool
- name: es_source_calc_id
dtype: string
- name: bandstructure
dtype: string
- name: dos
dtype: string
- name: is_magnetic
dtype: bool
- name: ordering
dtype: string
- name: total_magnetization
dtype: float64
- name: total_magnetization_normalized_vol
dtype: float64
- name: total_magnetization_normalized_formula_units
dtype: float64
- name: num_magnetic_sites
dtype: float64
- name: num_unique_magnetic_sites
dtype: float64
- name: types_of_magnetic_species
dtype: string
- name: bulk_modulus
dtype: string
- name: shear_modulus
dtype: string
- name: universal_anisotropy
dtype: float64
- name: homogeneous_poisson
dtype: float64
- name: e_total
dtype: float64
- name: e_ionic
dtype: float64
- name: e_electronic
dtype: float64
- name: n
dtype: float64
- name: e_ij_max
dtype: float64
- name: possible_species
sequence: string
- name: theoretical
dtype: bool
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 920848973
num_examples: 104868
- name: valid
num_bytes: 101663904
num_examples: 11652
- name: test
num_bytes: 343852159
num_examples: 38841
download_size: 429540155
dataset_size: 1366365036
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: valid
path: data/valid-*
- split: test
path: data/test-*
---
数据集信息:
### 特征字段
1. material_id:字符串类型,材料ID
2. structure:字符串类型,晶体结构数据
3. deprecated:布尔类型,是否已弃用
4. space_group_number:64位整数类型,空间群编号
5. crystal_system:字符串类型,晶系
6. uncorrected_energy_per_atom:64位浮点数类型,未校正单原子能量
7. energy_per_atom:64位浮点数类型,单原子能量
8. formation_energy_per_atom:64位浮点数类型,单原子形成能
9. energy_above_hull:64位浮点数类型,凸包超额能量
10. is_stable:布尔类型,是否热力学稳定
11. equilibrium_reaction_energy_per_atom:64位浮点数类型,单原子平衡反应能
12. decomposes_to:字符串类型,分解产物
13. xas:字符串类型,X射线吸收谱(X-ray Absorption Spectroscopy)数据
14. band_gap:64位浮点数类型,带隙
15. cbm:64位浮点数类型,导带底能级
16. vbm:64位浮点数类型,价带顶能级
17. efermi:64位浮点数类型,费米能级
18. is_gap_direct:布尔类型,是否为直接带隙
19. is_metal:布尔类型,是否为金属
20. es_source_calc_id:字符串类型,电子结构源计算ID
21. bandstructure:字符串类型,能带结构数据
22. dos:字符串类型,态密度(Density of States)数据
23. is_magnetic:布尔类型,是否具有磁性
24. ordering:字符串类型,原子有序性类型
25. total_magnetization:64位浮点数类型,总磁化强度
26. total_magnetization_normalized_vol:64位浮点数类型,归一化体积的总磁化强度
27. total_magnetization_normalized_formula_units:64位浮点数类型,归一化化学式单元数的总磁化强度
28. num_magnetic_sites:64位浮点数类型,磁性位点数量
29. num_unique_magnetic_sites:64位浮点数类型,唯一磁性位点数量
30. types_of_magnetic_species:字符串类型,磁性物种类型
31. bulk_modulus:字符串类型,体积模量数据
32. shear_modulus:字符串类型,剪切模量数据
33. universal_anisotropy:64位浮点数类型,各向异性指数
34. homogeneous_poisson:64位浮点数类型,均质泊松比
35. e_total:64位浮点数类型,总能量
36. e_ionic:64位浮点数类型,离子能量
37. e_electronic:64位浮点数类型,电子能量
38. n:64位浮点数类型,对应物理量(保留原字段名)
39. e_ij_max:64位浮点数类型,最大弹性分量能量
40. possible_species:字符串序列类型,可能存在的化学物种
41. theoretical:布尔类型,是否为理论计算数据
42. __index_level_0__:64位整数类型,索引层级0
### 数据集划分
- 训练集(train):字节数920848973,样本量104868
- 验证集(valid):字节数101663904,样本量11652
- 测试集(test):字节数343852159,样本量38841
整体下载大小为429540155字节,数据集总存储大小为1366365036字节。
### 配置信息
- 默认配置(default):数据文件路径分别为训练集"data/train-*"、验证集"data/valid-*"、测试集"data/test-*"
提供机构:
xpanceo-team
原始信息汇总
数据集概述
数据集特征
- material_id: 字符串类型
- structure: 字符串类型
- deprecated: 布尔类型
- space_group_number: 整数类型(int64)
- crystal_system: 字符串类型
- uncorrected_energy_per_atom: 浮点数类型(float64)
- energy_per_atom: 浮点数类型(float64)
- formation_energy_per_atom: 浮点数类型(float64)
- energy_above_hull: 浮点数类型(float64)
- is_stable: 布尔类型
- equilibrium_reaction_energy_per_atom: 浮点数类型(float64)
- decomposes_to: 字符串类型
- xas: 字符串类型
- band_gap: 浮点数类型(float64)
- cbm: 浮点数类型(float64)
- vbm: 浮点数类型(float64)
- efermi: 浮点数类型(float64)
- is_gap_direct: 布尔类型
- is_metal: 布尔类型
- es_source_calc_id: 字符串类型
- bandstructure: 字符串类型
- dos: 字符串类型
- is_magnetic: 布尔类型
- ordering: 字符串类型
- total_magnetization: 浮点数类型(float64)
- total_magnetization_normalized_vol: 浮点数类型(float64)
- total_magnetization_normalized_formula_units: 浮点数类型(float64)
- num_magnetic_sites: 浮点数类型(float64)
- num_unique_magnetic_sites: 浮点数类型(float64)
- types_of_magnetic_species: 字符串类型
- bulk_modulus: 字符串类型
- shear_modulus: 字符串类型
- universal_anisotropy: 浮点数类型(float64)
- homogeneous_poisson: 浮点数类型(float64)
- e_total: 浮点数类型(float64)
- e_ionic: 浮点数类型(float64)
- e_electronic: 浮点数类型(float64)
- n: 浮点数类型(float64)
- e_ij_max: 浮点数类型(float64)
- possible_species: 字符串类型
- theoretical: 布尔类型
- index_level_0: 整数类型(int64)
数据集分割
- train: 104868个样本,大小920848973字节
- valid: 11652个样本,大小101663904字节
- test: 38841个样本,大小343852159字节
数据集大小
- 下载大小: 429540155字节
- 数据集总大小: 1366365036字节
搜集汇总
数据集介绍

构建方式
在材料科学领域,计算材料数据库的构建依赖于高通量密度泛函理论(DFT)工作流程。本数据集源自Materials Project数据库,通过mp-api工具从Summary端点导出,采用版本0.45.15的MPRester.materials.summary.search()方法进行数据采集。导出过程固定了字段列表,涵盖材料标识、晶体结构、对称性信息以及能量学、电子结构、磁性等多维属性,同时包含XAS、能带结构等子文档的可用性标志,确保了数据的系统性与完整性。数据以pymatgen Structure对象的JSON序列化形式存储结构信息,并于2026年1月18日完成快照,共收录210,579个条目,全部整合为单一训练分割。
特点
本数据集作为Materials Project的精选快照,其核心特点在于全面覆盖计算材料学的关键属性。数据集囊括了材料标识、化学式、空间群编号及晶体系统等基础信息,并深入提供了能量参数如形成能、稳定性标志,以及电子结构属性包括带隙、费米能级和金属性判断。磁性数据方面,收录了磁化强度、磁序类型等详细指标,辅以弹性与介电相关参数。值得注意的是,数据集通过可用性标志指示了XAS、能带结构等丰富子文档的存在,而非直接嵌入大型对象,这平衡了数据深度与存储效率。所有数值字段均忠实保留原始MP文档的精度,为材料发现与性能预测研究提供了可靠的多维度基准。
使用方法
为高效利用本数据集,用户可通过Hugging Face的datasets库直接加载,使用load_dataset函数并指定相应分割即可获取结构化数据。数据集中存储的晶体结构信息以pymatgen Structure对象的JSON字符串形式呈现,可借助pymatgen.core.Structure.from_str方法进行反序列化,从而获得可操作的材料结构对象,便于进行组成分析或几何计算。对于大规模数据处理,可将数据集转换为pandas DataFrame以支持灵活的分析操作,但需注意内存管理。在实际应用中,建议结合Materials Project官方文档理解字段定义与计算约定,并依据CC BY 4.0许可要求,在衍生工作中引用原始文献以尊重知识产权。
背景与挑战
背景概述
材料基因组计划作为加速材料发现的关键范式,催生了Materials Project这一标志性计算材料数据库。该数据库由麻省理工学院、劳伦斯伯克利国家实验室等机构的研究团队于2011年发起,核心目标是通过高通量密度泛函理论计算,系统预测无机材料的晶体结构、热力学稳定性及电子性质,从而构建一个开放共享的材料性质图谱。其影响力深远,不仅为材料科学领域提供了前所未有的数据规模,更推动了数据驱动材料设计范式的普及,成为计算材料学与人工智能交叉研究的重要基石。
当前挑战
该数据集致力于解决材料性质预测与新材料发现中的核心挑战,即如何从海量计算数据中高效识别稳定材料并准确预测其功能特性,这涉及处理高维特征空间与复杂结构-性质关联的建模难题。在构建过程中,挑战主要源于数据的一致性与完整性保障:高通量计算流程需确保不同材料体系计算参数的可比性;同时,数据库仅包含部分性质的可用性标志而非完整对象,如X射线吸收谱或能带结构数据,这限制了深度分析的广度,且数据动态更新与版本管理亦对长期研究构成持续挑战。
常用场景
经典使用场景
在计算材料科学领域,Materials Project数据集作为高通量密度泛函理论计算的结晶,为材料发现与设计提供了基石。其经典使用场景聚焦于材料性能的预测与筛选,研究人员通过该数据集丰富的结构、能量与电子属性字段,构建机器学习模型以预测新材料的形成能、带隙及稳定性。这些模型能够从数十万种已知晶体结构中学习潜在规律,从而高效识别具有特定功能特性的候选材料,大幅加速了传统试错式实验研究的进程。
解决学术问题
该数据集有效解决了材料科学中若干核心学术难题,尤其是材料稳定性预测与性能-结构关联的量化问题。通过提供精确计算的能量以上凸包、形成能及电子结构参数,研究人员能够系统评估材料的热力学稳定性,并深入探究晶体对称性、化学成分与宏观性质之间的内在联系。这为理解材料相图、揭示新颖量子现象以及设计高性能功能材料奠定了坚实的数据基础,推动了数据驱动的材料基因组研究范式的确立。
衍生相关工作
围绕Materials Project数据集,已衍生出一系列具有影响力的经典研究工作。例如,基于其数据训练的图神经网络模型,如CGCNN和MEGNet,在材料属性预测任务上取得了突破性进展。这些模型将晶体结构编码为图表示,实现了对复杂材料特性的高精度端到端学习。此外,该数据集也支撑了如Matminer等材料信息学工具包的开发,以及用于逆向材料设计的生成模型研究,共同构成了计算材料发现领域的核心生态。
以上内容由遇见数据集搜集并总结生成



