five

xpanceo-team/materials-project

收藏
Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xpanceo-team/materials-project
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: material_id dtype: string - name: structure dtype: string - name: deprecated dtype: bool - name: space_group_number dtype: int64 - name: crystal_system dtype: string - name: uncorrected_energy_per_atom dtype: float64 - name: energy_per_atom dtype: float64 - name: formation_energy_per_atom dtype: float64 - name: energy_above_hull dtype: float64 - name: is_stable dtype: bool - name: equilibrium_reaction_energy_per_atom dtype: float64 - name: decomposes_to dtype: string - name: xas dtype: string - name: band_gap dtype: float64 - name: cbm dtype: float64 - name: vbm dtype: float64 - name: efermi dtype: float64 - name: is_gap_direct dtype: bool - name: is_metal dtype: bool - name: es_source_calc_id dtype: string - name: bandstructure dtype: string - name: dos dtype: string - name: is_magnetic dtype: bool - name: ordering dtype: string - name: total_magnetization dtype: float64 - name: total_magnetization_normalized_vol dtype: float64 - name: total_magnetization_normalized_formula_units dtype: float64 - name: num_magnetic_sites dtype: float64 - name: num_unique_magnetic_sites dtype: float64 - name: types_of_magnetic_species dtype: string - name: bulk_modulus dtype: string - name: shear_modulus dtype: string - name: universal_anisotropy dtype: float64 - name: homogeneous_poisson dtype: float64 - name: e_total dtype: float64 - name: e_ionic dtype: float64 - name: e_electronic dtype: float64 - name: n dtype: float64 - name: e_ij_max dtype: float64 - name: possible_species sequence: string - name: theoretical dtype: bool - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 920848973 num_examples: 104868 - name: valid num_bytes: 101663904 num_examples: 11652 - name: test num_bytes: 343852159 num_examples: 38841 download_size: 429540155 dataset_size: 1366365036 configs: - config_name: default data_files: - split: train path: data/train-* - split: valid path: data/valid-* - split: test path: data/test-* ---

数据集信息: ### 特征字段 1. material_id:字符串类型,材料ID 2. structure:字符串类型,晶体结构数据 3. deprecated:布尔类型,是否已弃用 4. space_group_number:64位整数类型,空间群编号 5. crystal_system:字符串类型,晶系 6. uncorrected_energy_per_atom:64位浮点数类型,未校正单原子能量 7. energy_per_atom:64位浮点数类型,单原子能量 8. formation_energy_per_atom:64位浮点数类型,单原子形成能 9. energy_above_hull:64位浮点数类型,凸包超额能量 10. is_stable:布尔类型,是否热力学稳定 11. equilibrium_reaction_energy_per_atom:64位浮点数类型,单原子平衡反应能 12. decomposes_to:字符串类型,分解产物 13. xas:字符串类型,X射线吸收谱(X-ray Absorption Spectroscopy)数据 14. band_gap:64位浮点数类型,带隙 15. cbm:64位浮点数类型,导带底能级 16. vbm:64位浮点数类型,价带顶能级 17. efermi:64位浮点数类型,费米能级 18. is_gap_direct:布尔类型,是否为直接带隙 19. is_metal:布尔类型,是否为金属 20. es_source_calc_id:字符串类型,电子结构源计算ID 21. bandstructure:字符串类型,能带结构数据 22. dos:字符串类型,态密度(Density of States)数据 23. is_magnetic:布尔类型,是否具有磁性 24. ordering:字符串类型,原子有序性类型 25. total_magnetization:64位浮点数类型,总磁化强度 26. total_magnetization_normalized_vol:64位浮点数类型,归一化体积的总磁化强度 27. total_magnetization_normalized_formula_units:64位浮点数类型,归一化化学式单元数的总磁化强度 28. num_magnetic_sites:64位浮点数类型,磁性位点数量 29. num_unique_magnetic_sites:64位浮点数类型,唯一磁性位点数量 30. types_of_magnetic_species:字符串类型,磁性物种类型 31. bulk_modulus:字符串类型,体积模量数据 32. shear_modulus:字符串类型,剪切模量数据 33. universal_anisotropy:64位浮点数类型,各向异性指数 34. homogeneous_poisson:64位浮点数类型,均质泊松比 35. e_total:64位浮点数类型,总能量 36. e_ionic:64位浮点数类型,离子能量 37. e_electronic:64位浮点数类型,电子能量 38. n:64位浮点数类型,对应物理量(保留原字段名) 39. e_ij_max:64位浮点数类型,最大弹性分量能量 40. possible_species:字符串序列类型,可能存在的化学物种 41. theoretical:布尔类型,是否为理论计算数据 42. __index_level_0__:64位整数类型,索引层级0 ### 数据集划分 - 训练集(train):字节数920848973,样本量104868 - 验证集(valid):字节数101663904,样本量11652 - 测试集(test):字节数343852159,样本量38841 整体下载大小为429540155字节,数据集总存储大小为1366365036字节。 ### 配置信息 - 默认配置(default):数据文件路径分别为训练集"data/train-*"、验证集"data/valid-*"、测试集"data/test-*"
提供机构:
xpanceo-team
原始信息汇总

数据集概述

数据集特征

  • material_id: 字符串类型
  • structure: 字符串类型
  • deprecated: 布尔类型
  • space_group_number: 整数类型(int64)
  • crystal_system: 字符串类型
  • uncorrected_energy_per_atom: 浮点数类型(float64)
  • energy_per_atom: 浮点数类型(float64)
  • formation_energy_per_atom: 浮点数类型(float64)
  • energy_above_hull: 浮点数类型(float64)
  • is_stable: 布尔类型
  • equilibrium_reaction_energy_per_atom: 浮点数类型(float64)
  • decomposes_to: 字符串类型
  • xas: 字符串类型
  • band_gap: 浮点数类型(float64)
  • cbm: 浮点数类型(float64)
  • vbm: 浮点数类型(float64)
  • efermi: 浮点数类型(float64)
  • is_gap_direct: 布尔类型
  • is_metal: 布尔类型
  • es_source_calc_id: 字符串类型
  • bandstructure: 字符串类型
  • dos: 字符串类型
  • is_magnetic: 布尔类型
  • ordering: 字符串类型
  • total_magnetization: 浮点数类型(float64)
  • total_magnetization_normalized_vol: 浮点数类型(float64)
  • total_magnetization_normalized_formula_units: 浮点数类型(float64)
  • num_magnetic_sites: 浮点数类型(float64)
  • num_unique_magnetic_sites: 浮点数类型(float64)
  • types_of_magnetic_species: 字符串类型
  • bulk_modulus: 字符串类型
  • shear_modulus: 字符串类型
  • universal_anisotropy: 浮点数类型(float64)
  • homogeneous_poisson: 浮点数类型(float64)
  • e_total: 浮点数类型(float64)
  • e_ionic: 浮点数类型(float64)
  • e_electronic: 浮点数类型(float64)
  • n: 浮点数类型(float64)
  • e_ij_max: 浮点数类型(float64)
  • possible_species: 字符串类型
  • theoretical: 布尔类型
  • index_level_0: 整数类型(int64)

数据集分割

  • train: 104868个样本,大小920848973字节
  • valid: 11652个样本,大小101663904字节
  • test: 38841个样本,大小343852159字节

数据集大小

  • 下载大小: 429540155字节
  • 数据集总大小: 1366365036字节
搜集汇总
数据集介绍
main_image_url
构建方式
在材料科学领域,计算材料数据库的构建依赖于高通量密度泛函理论(DFT)工作流程。本数据集源自Materials Project数据库,通过mp-api工具从Summary端点导出,采用版本0.45.15的MPRester.materials.summary.search()方法进行数据采集。导出过程固定了字段列表,涵盖材料标识、晶体结构、对称性信息以及能量学、电子结构、磁性等多维属性,同时包含XAS、能带结构等子文档的可用性标志,确保了数据的系统性与完整性。数据以pymatgen Structure对象的JSON序列化形式存储结构信息,并于2026年1月18日完成快照,共收录210,579个条目,全部整合为单一训练分割。
特点
本数据集作为Materials Project的精选快照,其核心特点在于全面覆盖计算材料学的关键属性。数据集囊括了材料标识、化学式、空间群编号及晶体系统等基础信息,并深入提供了能量参数如形成能、稳定性标志,以及电子结构属性包括带隙、费米能级和金属性判断。磁性数据方面,收录了磁化强度、磁序类型等详细指标,辅以弹性与介电相关参数。值得注意的是,数据集通过可用性标志指示了XAS、能带结构等丰富子文档的存在,而非直接嵌入大型对象,这平衡了数据深度与存储效率。所有数值字段均忠实保留原始MP文档的精度,为材料发现与性能预测研究提供了可靠的多维度基准。
使用方法
为高效利用本数据集,用户可通过Hugging Face的datasets库直接加载,使用load_dataset函数并指定相应分割即可获取结构化数据。数据集中存储的晶体结构信息以pymatgen Structure对象的JSON字符串形式呈现,可借助pymatgen.core.Structure.from_str方法进行反序列化,从而获得可操作的材料结构对象,便于进行组成分析或几何计算。对于大规模数据处理,可将数据集转换为pandas DataFrame以支持灵活的分析操作,但需注意内存管理。在实际应用中,建议结合Materials Project官方文档理解字段定义与计算约定,并依据CC BY 4.0许可要求,在衍生工作中引用原始文献以尊重知识产权。
背景与挑战
背景概述
材料基因组计划作为加速材料发现的关键范式,催生了Materials Project这一标志性计算材料数据库。该数据库由麻省理工学院、劳伦斯伯克利国家实验室等机构的研究团队于2011年发起,核心目标是通过高通量密度泛函理论计算,系统预测无机材料的晶体结构、热力学稳定性及电子性质,从而构建一个开放共享的材料性质图谱。其影响力深远,不仅为材料科学领域提供了前所未有的数据规模,更推动了数据驱动材料设计范式的普及,成为计算材料学与人工智能交叉研究的重要基石。
当前挑战
该数据集致力于解决材料性质预测与新材料发现中的核心挑战,即如何从海量计算数据中高效识别稳定材料并准确预测其功能特性,这涉及处理高维特征空间与复杂结构-性质关联的建模难题。在构建过程中,挑战主要源于数据的一致性与完整性保障:高通量计算流程需确保不同材料体系计算参数的可比性;同时,数据库仅包含部分性质的可用性标志而非完整对象,如X射线吸收谱或能带结构数据,这限制了深度分析的广度,且数据动态更新与版本管理亦对长期研究构成持续挑战。
常用场景
经典使用场景
在计算材料科学领域,Materials Project数据集作为高通量密度泛函理论计算的结晶,为材料发现与设计提供了基石。其经典使用场景聚焦于材料性能的预测与筛选,研究人员通过该数据集丰富的结构、能量与电子属性字段,构建机器学习模型以预测新材料的形成能、带隙及稳定性。这些模型能够从数十万种已知晶体结构中学习潜在规律,从而高效识别具有特定功能特性的候选材料,大幅加速了传统试错式实验研究的进程。
解决学术问题
该数据集有效解决了材料科学中若干核心学术难题,尤其是材料稳定性预测与性能-结构关联的量化问题。通过提供精确计算的能量以上凸包、形成能及电子结构参数,研究人员能够系统评估材料的热力学稳定性,并深入探究晶体对称性、化学成分与宏观性质之间的内在联系。这为理解材料相图、揭示新颖量子现象以及设计高性能功能材料奠定了坚实的数据基础,推动了数据驱动的材料基因组研究范式的确立。
衍生相关工作
围绕Materials Project数据集,已衍生出一系列具有影响力的经典研究工作。例如,基于其数据训练的图神经网络模型,如CGCNN和MEGNet,在材料属性预测任务上取得了突破性进展。这些模型将晶体结构编码为图表示,实现了对复杂材料特性的高精度端到端学习。此外,该数据集也支撑了如Matminer等材料信息学工具包的开发,以及用于逆向材料设计的生成模型研究,共同构成了计算材料发现领域的核心生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作