five

LeMat-Bulk

收藏
Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/LeMaterial/LeMat-Bulk
下载链接
链接失效反馈
官方服务:
资源简介:
LeMatBulk数据集是一个专注于材料科学和化学的数据集,包含多个配置(如compatible_pbe、compatible_pbesol、compatible_scan、non_compatible),涵盖了化学结构的各种特征,如元素、化学式、晶格向量和能量属性。该数据集旨在支持材料科学研究,特别是在密度泛函理论(DFT)计算的背景下。它包括根据不同DFT泛函和赝势进行兼容性过滤的子集。数据集还描述了确保兼容性和条目去重的方法。该数据集采用CC-BY-4.0许可证,可通过Hugging Face数据集库下载并在Python中使用。

LeMatBulk Dataset is a dataset focused on materials science and chemistry. It includes multiple configurations such as compatible_pbe, compatible_pbesol, compatible_scan, and non_compatible, covering various characteristics of chemical structures including elements, chemical formulas, lattice vectors, and energy properties. This dataset is intended to support materials science research, especially in the context of density functional theory (DFT) calculations. It comprises subsets filtered for compatibility based on different DFT functionals and pseudopotentials. The dataset also documents methods for ensuring compatibility and deduplicating entries. It is released under the CC-BY-4.0 license, and can be downloaded via the Hugging Face Datasets Library and utilized in Python.
创建时间:
2024-12-07
原始信息汇总

LeMat-Bulk 数据集概述

数据集描述

配置信息

  • compatible_pbe:

    • 特征:
      • elements: 序列[字符串]
      • nsites: 整数
      • chemical_formula_anonymous: 字符串
      • chemical_formula_reduced: 字符串
      • chemical_formula_descriptive: 字符串
      • nelements: 整数
      • dimension_types: 序列[整数]
      • nperiodic_dimensions: 整数
      • lattice_vectors: 序列[序列[浮点数]]
      • immutable_id: 字符串
      • cartesian_site_positions: 序列[序列[浮点数]]
      • species: 字符串
      • species_at_sites: 序列[字符串]
      • last_modified: 字符串
      • elements_ratios: 序列[浮点数]
      • stress_tensor: 序列[序列[浮点数]]
      • energy: 浮点数
      • magnetic_moments: 序列[浮点数]
      • forces: 序列[序列[浮点数]]
      • total_magnetization: 浮点数
      • dos_ef: 浮点数
      • functional: 字符串
      • cross_compatibility: 布尔值
      • entalpic_fingerprint: 字符串
    • 分割:
      • train: 5335299 个样本, 8043765194 字节
    • 下载大小: 3036919717 字节
    • 数据集大小: 8043765194 字节
  • compatible_pbesol:

    • 特征: 同上
    • 分割:
      • train: 447824 个样本, 646300349 字节
    • 下载大小: 230878194 字节
    • 数据集大小: 646300349 字节
  • compatible_scan:

    • 特征: 同上
    • 分割:
      • train: 422840 个样本, 597846818 字节
    • 下载大小: 207887396 字节
    • 数据集大小: 597846818 字节
  • non_compatible:

    • 特征: 同上
    • 分割:
      • train: 519627 个样本, 818845899 字节
    • 下载大小: 268949608 字节
    • 数据集大小: 818845899 字节

数据字段

特征名称 数据类型 描述 Optimade 必需字段
elements 序列[字符串] 结构中的元素列表
nsites 整数 结构中的总站点数
chemical_formula_anonymous 字符串 匿名化学式
chemical_formula_reduced 字符串 简化化学式
chemical_formula_descriptive 字符串 描述性化学式
nelements 整数 结构中的不同元素总数
dimension_types 序列[整数] 周期性边界条件
nperiodic_dimensions 整数 周期性维度的数量
lattice_vectors 序列[序列[浮点数]] 晶格向量
immutable_id 字符串 材料ID
cartesian_site_positions 序列[序列[浮点数]] 笛卡尔坐标下的站点位置
species JSON 物种信息
species_at_sites 序列[字符串] 每个站点的化学元素
last_modified 日期/时间 最后修改日期
elements_ratios 字典 元素的分数组成
stress_tensor 序列[序列[浮点数]] 应力张量
energy 浮点数 未校正的能量
magnetic_moments 序列[浮点数] 每个站点的磁矩
forces 序列[序列[浮点数]] 每个站点的力
total_magnetization 浮点数 结构的总磁化强度
functional 字符串 计算功能
cross_compatibility 布尔值 是否与其他行兼容
entalpic_fingerprint 字符串 材料指纹

可用子集

  • Compatible, PBE (默认): 包含从DFT角度确保兼容性的行,仅包含PBE记录。
  • Compatible, PBESol: 仅包含PBESol数据。
  • Compatible, SCAN: 仅包含SCAN数据。
  • All: 包含所有记录。

数据库统计

数据库 材料数量 结构数量
Materials Project 148,453 189,403
Alexandria 4,635,066 5,459,260
OQMD 1,076,926 1,076,926
LeMaterial (All) 5,860,446 6,725,590
LeMaterial (Compatible, PBE) 5,335,299 5,335,299
LeMaterial (Compatible, PBESOL) 447,824 447,824
LeMaterial (Compatible, SCAN) 422,840 422,840

方法

兼容性合规

  • 赝势: 确保使用一致的赝势。
  • Hubbard U参数: 排除包含特定元素的记录。
  • 自旋极化: 排除非自旋极化的计算。
  • 收敛标准: 未基于这些参数排除记录。
  • 能量高于凸包: 未过滤高能量材料。

去重方法

  • 使用EconNN算法计算键。
  • 创建结构图并使用Weisfeller-Lehman算法哈希。
  • 添加对称性和组成。
  • 删除重复结构,仅保留最低能量结构。

未来更新

  • 计划发布所有材料的带隙信息。
  • 统一能量校正。
  • 发布Bader电荷。
搜集汇总
数据集介绍
main_image_url
构建方式
LeMat-Bulk数据集的构建基于多个材料数据库的整合与筛选,包括Materials Project、Alexandria和OQMD。数据集通过严格的筛选标准确保了DFT计算参数的兼容性,如一致的赝势、Hubbard U参数和自旋极化设置。此外,数据集还通过EconNN算法和Weisfeller-Lehman哈希算法对结构进行去重处理,确保了数据的唯一性和低能量结构的保留。
特点
LeMat-Bulk数据集的显著特点在于其广泛的材料覆盖范围和多样化的功能性描述。数据集包含了从元素组成到晶格向量、应力张量、能量、磁矩等多种物理化学性质的详细信息。此外,数据集还提供了不同DFT泛函(如PBE、PBESol、SCAN)的计算结果,以满足不同研究需求。
使用方法
LeMat-Bulk数据集可以通过Hugging Face的datasets库进行加载和使用。用户可以选择不同的子集(如PBE、PBESol、SCAN)进行加载,并将其转换为Pandas DataFrame格式以便进一步分析。数据集的丰富字段和详细描述使得其在材料科学研究中具有广泛的应用潜力,尤其是在材料设计和性能预测领域。
背景与挑战
背景概述
LeMat-Bulk数据集是由LeMaterial组织创建的一个大规模材料科学数据集,旨在为材料科学领域的研究提供丰富的结构和性质信息。该数据集整合了来自Materials Project、Alexandria和OQMD等多个数据库的材料数据,涵盖了超过500万种材料的结构和计算结果。其核心研究问题在于通过标准化和兼容性处理,提供一个统一的材料数据库,以支持材料发现、性质预测和理论研究。LeMat-Bulk的创建不仅极大地丰富了材料科学领域的数据资源,还为机器学习和高通量计算提供了坚实的基础。
当前挑战
LeMat-Bulk数据集在构建过程中面临了诸多挑战。首先,数据来源的多样性导致了不同数据库之间的兼容性问题,特别是在伪势、Hubbard U参数和自旋极化等方面。其次,数据的去重和质量控制也是一个复杂的过程,需要通过结构图和哈希算法等技术手段来确保数据的唯一性和准确性。此外,数据集的规模庞大,如何高效地存储、处理和分析这些数据也是一个重要的技术挑战。最后,数据集的更新和维护需要持续的投入,以确保其与最新研究进展的同步。
常用场景
经典使用场景
LeMat-Bulk数据集在材料科学领域中被广泛应用于材料性质的预测与分析。其经典使用场景包括通过机器学习模型预测材料的能量、磁性、应力张量等关键物理性质。例如,研究人员可以利用该数据集训练模型,预测不同化学成分和晶体结构的材料在特定条件下的能量分布和磁性行为。此外,该数据集还可用于构建材料的相图,帮助理解材料在不同条件下的相变行为。
实际应用
LeMat-Bulk数据集在实际应用中具有广泛的潜力。在材料设计与优化领域,研究人员可以利用该数据集快速筛选出具有特定性能的材料,从而加速新材料的研发过程。在工业生产中,该数据集可用于预测和优化材料的加工性能,提高生产效率和产品质量。此外,该数据集还可应用于能源存储与转换领域,帮助设计更高效的电池和催化剂材料。总之,LeMat-Bulk数据集为材料科学和工程领域的实际应用提供了强大的数据支持。
衍生相关工作
LeMat-Bulk数据集的发布催生了一系列相关的经典工作。首先,基于该数据集的材料性质预测模型成为了材料科学研究中的重要工具,推动了机器学习在材料科学中的应用。其次,该数据集的跨数据库兼容性方案为其他材料数据库的整合提供了参考,促进了材料数据的共享与标准化。此外,LeMat-Bulk数据集还激发了关于材料指纹和去重方法的研究,为材料数据库的去重和数据质量提升提供了新的思路。这些衍生工作不仅丰富了材料科学的研究方法,还为未来的材料数据库建设提供了宝贵的经验。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作