LeMat-BulkUnique

Hugging Face2024-12-12 更新2024-12-13 收录

下载链接：

https://huggingface.co/datasets/LeMaterial/LeMat-BulkUnique

下载链接

链接失效反馈

官方服务：

资源简介：

LeMat-BulkUnique数据集是一个独特的材料数据集合，包含多个配置如unique_pbe、unique_pbesol和unique_scan，每个配置都有特定的特征和数据字段。特征包括元素、nsites、化学式、晶格向量、能量、磁矩等。该数据集旨在通过提供使用不同功能计算的数据子集来支持多样化的社区。README还描述了确保兼容性和去重的方法，以及计划中的数据集未来更新。该数据集采用Creative Commons Attribution 4.0 License授权。

创建时间：

2024-12-10

原始信息汇总

LeMat-BulkUnique 数据集

数据集描述

LeMat-BulkUnique 数据集包含多个子集，每个子集基于不同的计算功能（PBE、PBESol、SCAN）进行分类。数据集主要用于材料科学研究，提供了材料的结构、能量、磁性等信息。

数据集配置

配置 `unique_pbe`

特征:
- elements: 元素列表，类型为字符串序列。
- nsites: 结构中的总站点数，类型为 int32。
- chemical_formula_anonymous: 匿名化学式，类型为字符串。
- chemical_formula_reduced: 简化化学式，类型为字符串。
- chemical_formula_descriptive: 描述性化学式，类型为字符串。
- nelements: 结构中的不同元素总数，类型为 int8。
- dimension_types: 周期性边界条件，类型为 int8 序列。
- nperiodic_dimensions: 周期性维度的数量，类型为 int8。
- lattice_vectors: 晶格向量，类型为 float64 序列的序列。
- immutable_id: 材料ID，类型为字符串。
- cartesian_site_positions: 站点位置的笛卡尔坐标，类型为 float64 序列的序列。
- species: 物种信息，类型为字符串。
- species_at_sites: 每个站点的物种，类型为字符串序列。
- last_modified: 最后修改时间，类型为字符串。
- elements_ratios: 元素比例，类型为 float64 序列。
- stress_tensor: 应力张量，类型为 float64 序列的序列。
- energy: 能量，类型为 float64。
- magnetic_moments: 磁矩，类型为 float64 序列。
- forces: 力，类型为 float64 序列的序列。
- total_magnetization: 总磁化强度，类型为 float64。
- dos_ef: 费米能级处的态密度，类型为 float64。
- functional: 计算功能，类型为字符串。
- cross_compatibility: 交叉兼容性，类型为布尔值。
- entalpic_fingerprint: 焓指纹，类型为字符串。
分割:
- train: 包含 5,005,017 个样本，数据大小为 7,680,710,235 字节。
下载大小: 2,957,638,360 字节。
数据集大小: 7,680,710,235 字节。

配置 `unique_pbesol`

特征: 与 unique_pbe 相同。
分割:
- train: 包含 15,753 个样本，数据大小为 29,416,200 字节。
下载大小: 14,237,019 字节。
数据集大小: 29,416,200 字节。

配置 `unique_scan`

特征: 与 unique_pbe 相同。
分割:
- train: 包含 417,666 个样本，数据大小为 590,224,379 字节。
下载大小: 207,222,014 字节。
数据集大小: 590,224,379 字节。

数据字段

特征名称	数据类型	描述	Optimade 必需字段
elements	序列[字符串]	结构中的元素列表。	✅
nsites	整数	结构中的总站点数。	✅
chemical_formula_anonymous	字符串	匿名化学式。	✅
chemical_formula_reduced	字符串	简化化学式。	✅
chemical_formula_descriptive	字符串	描述性化学式。	✅
nelements	整数	结构中的不同元素总数。	✅
dimension_types	序列[整数]	周期性边界条件。	✅
nperiodic_dimensions	整数	周期性维度的数量。	✅
lattice_vectors	序列[序列[浮点数]]	晶格向量。	✅
immutable_id	字符串	材料ID。	✅
cartesian_site_positions	序列[序列[浮点数]]	站点位置的笛卡尔坐标。	✅
species	JSON	物种信息。	✅
species_at_sites	序列[字符串]	每个站点的物种。	✅
last_modified	日期/时间	最后修改时间。	✅
elements_ratios	字典	元素比例。	✅
stress_tensor	序列[序列[浮点数]]	应力张量。
energy	浮点数	能量。
magnetic_moments	序列[浮点数]	磁矩。
forces	序列[序列[浮点数]]	力。
total_magnetization	浮点数	总磁化强度。
dos_ef	浮点数	费米能级处的态密度。
functional	字符串	计算功能。
cross_compatibility	布尔值	交叉兼容性。
entalpic_fingerprint	字符串	焓指纹。

可用子集

Unique, PBE (默认): 使用 PBE 功能计算的所有材料。
Unique, PBESol: 仅包含 PBESol 数据。
Unique, SCAN: 仅包含 SCAN 数据。

数据集大小

数据库	材料数量
LeMaterial (全部)	5,438,436
LeMaterial (Unique, PBE)	5,005,017
LeMaterial (Unique, PBESOL)	15,753
LeMaterial (Unique, SCAN)	417,666

许可证

该数据集基于 Creative Commons Attribution 4.0 License 许可。

搜集汇总

数据集介绍

构建方式

LeMat-BulkUnique数据集的构建基于多个数据库的整合，包括Materials Project、Alexandria和OQMD。通过严格的去重和兼容性检查，确保数据集中的每个材料都是唯一的。去重过程采用了基于EconNN算法和Weisfeiler-Lehman哈希算法的结构指纹技术，确保即使在小扰动下也能保持结构的唯一性。此外，数据集还通过一致的赝势和Hubbard U参数的校验，确保了不同数据库之间的计算结果具有可比性。

特点

LeMat-BulkUnique数据集的显著特点在于其高度的唯一性和兼容性。数据集包含了多种功能（如PBE、PBESol和SCAN）的计算结果，涵盖了广泛的材料类型。每个材料都附带了详细的物理和化学属性，如能量、磁矩、应力张量等，这些属性为材料科学研究提供了丰富的信息。此外，数据集还提供了材料的元素组成、晶格向量和周期性边界条件等关键信息，便于进行深入的材料分析。

使用方法

LeMat-BulkUnique数据集可以通过Hugging Face的datasets库轻松加载和使用。用户可以选择不同的子集（如PBE、PBESol或SCAN）进行加载，并将其转换为Pandas数据框以便进一步处理。数据集中的每个条目都包含了详细的材料属性，用户可以根据需要提取特定的信息进行分析。此外，数据集还提供了兼容性标志，用户可以根据此标志筛选出适合特定计算需求的材料，从而提高研究的效率和准确性。

背景与挑战

背景概述

LeMat-BulkUnique数据集是由LeMaterial团队创建，旨在为材料科学领域提供一个全面且独特的材料数据库。该数据集的核心研究问题在于通过整合来自Materials Project、Alexandria和OQMD等多个数据库的材料数据，创建一个去重且兼容性良好的材料数据库。其主要研究人员包括Martin Siron、Inel Djafar等，他们通过先进的去重算法和材料指纹技术，确保了数据集的高质量和独特性。该数据集的创建不仅为材料科学研究提供了丰富的数据资源，还为材料设计和优化提供了重要的参考依据。

当前挑战

LeMat-BulkUnique数据集在构建过程中面临了多个挑战。首先，数据集的构建需要整合来自不同数据库的材料数据，这些数据在计算方法、参数设置等方面存在差异，确保数据的兼容性是一个重要挑战。其次，去重过程需要高效的算法来识别和去除重复的材料结构，这要求算法在处理复杂结构时具有高精度和鲁棒性。此外，数据集的规模庞大，如何高效地存储和处理这些数据也是一个技术难题。最后，确保数据集的更新和扩展性，以适应未来材料科学研究的需求，也是一个持续的挑战。

常用场景

经典使用场景

LeMat-BulkUnique数据集在材料科学领域中被广泛用于研究材料的结构与性能之间的关系。其经典使用场景包括通过分析化学成分、晶格结构、能量特性等，预测材料的物理和化学性质，如磁性、力学性能和热稳定性。此外，该数据集还可用于构建和验证材料性能预测模型，特别是在密度泛函理论（DFT）计算中，帮助研究人员优化材料设计。

解决学术问题

LeMat-BulkUnique数据集解决了材料科学中多个关键的学术研究问题。首先，它通过提供大量经过去重和优化的材料数据，解决了材料数据库中重复数据和低质量数据的问题。其次，该数据集通过整合不同计算方法（如PBE、PBESol和SCAN）的结果，解决了不同计算参数对材料性能预测的影响问题。最后，它为研究材料的能量、磁性和力学性能提供了丰富的数据支持，推动了材料科学的基础研究和应用研究。

衍生相关工作

LeMat-BulkUnique数据集的发布催生了一系列相关研究工作。例如，基于该数据集的材料指纹算法被广泛应用于材料数据库的去重和优化，推动了材料信息学的发展。此外，该数据集还为多个材料性能预测模型提供了基准数据，促进了机器学习在材料科学中的应用。未来，随着更多功能（如带隙信息和Bader电荷）的加入，该数据集将继续推动材料科学领域的创新研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集