Alexandria
收藏Hugging Face2026-02-27 更新2026-02-28 收录
下载链接:
https://huggingface.co/datasets/thor1/Alexandria
下载链接
链接失效反馈官方服务:
资源简介:
Alexandria 数据集是一个经过处理和扁平化的材料数据库版本,源自德国波鸿鲁尔大学先进材料模拟跨学科中心(ICAMS)开发的 Alexandria 数据库。该数据集包含 262 万条通过密度泛函理论(DFT)计算的材料条目,涵盖 23 种属性,包括能量学、电子结构、磁性和晶体学等方面。每条记录代表一种 DFT 计算的材料,包含其化学式、组成和一系列计算属性。数据集以 CSV 格式提供,便于在机器学习流程中使用,特别适用于多任务材料属性预测。数据集适用于训练材料科学的基础模型、多目标回归/分类的基准测试、研究周期表中结构-属性关系,以及探索材料领域专业化的专家混合(MoE)架构。数据集包含 2,621,745 行,空间群编号范围为 1-230,每个结构的原子位点数范围为 1-236,形成能范围为 -6.19 至 5.35 eV/atom,带隙范围为 0 至约 18 eV。
The Alexandria Dataset is a processed and flattened version of a materials database derived from the Alexandria database developed by the Interdisciplinary Center for Advanced Materials Simulation (ICAMS), Ruhr University Bochum, Germany. This dataset contains 2,621,745 material entries calculated via Density Functional Theory (DFT), covering 23 categories of properties including energetics, electronic structure, magnetism, crystallography and other related fields. Each record represents a single DFT-calculated material, containing its chemical formula, composition and a set of computed properties. The dataset is provided in CSV format, facilitating its utilization in machine learning workflows and being particularly suitable for multi-task materials property prediction. This dataset is applicable for training foundational models in materials science, benchmarking multi-objective regression/classification tasks, investigating structure-property relationships across the periodic table, and exploring specialized Mixture-of-Experts (MoE) architectures in the materials domain. The dataset consists of 2,621,745 rows, with space group numbers ranging from 1 to 230, the number of atomic sites per structure ranging from 1 to 236, formation energies ranging from -6.19 to 5.35 eV/atom, and band gaps ranging from 0 to approximately 18 eV.
创建时间:
2026-02-24
原始信息汇总
Alexandria — 处理后的材料属性数据集概述
数据集来源
- 原始数据库:Alexandria 材料数据库,由波鸿鲁尔大学高级材料模拟跨学科中心开发。
- 处理版本:此数据集为原始 Alexandria 数据的处理和扁平化版本,格式为 CSV,便于在机器学习流程中使用。
- 参考文献:Schmidt 等人,“Machine-Learning-Assisted Determination of the Global Zero-Temperature Phase Diagram of Materials”,《Advanced Materials》(2023)。
数据集描述
- 数据内容:包含 262 万条通过密度泛函理论计算的无机晶体结构材料条目,涵盖 23 种属性。
- 属性范围:能量学、电子结构、磁性和晶体学。
数据结构
列信息
| 列名 | 类型 | 描述 |
|---|---|---|
composition |
字符串 | 元素计数字典 |
formula |
字符串 | 简化化学式 |
elements |
字符串 | 逗号分隔的元素列表 |
prototype_id |
字符串 | 原型结构标识符 |
location |
字符串 | 原始计算路径 |
spg |
整数 | 空间群编号(1–230) |
nsites |
整数 | 单胞中的原子位点数 |
energy |
浮点数 | 原始总能量(eV) |
energy_total |
浮点数 | 总能量(eV) |
energy_corrected |
浮点数 | 校正总能量(eV) |
e_form |
浮点数 | 形成能(eV/原子) |
e_above_hull |
浮点数 | 凸包上方的能量(eV/原子) |
e_phase_separation |
浮点数 | 相分离能(eV/原子) |
band_gap_ind |
浮点数 | 间接带隙(eV) |
band_gap_dir |
浮点数 | 直接带隙(eV) |
dos_ef |
浮点数 | 费米能级处的态密度 |
total_mag |
浮点数 | 总磁化强度(μ_B) |
volume |
浮点数 | 单胞体积(ų) |
stress |
字符串 | 扁平化的 3×3 应力张量(9 个值) |
lattice_params |
字符串 | 晶格参数 [a, b, c, α, β, γ](6 个值) |
lattice_matrix |
字符串 | 扁平化的 3×3 晶格矩阵(9 个值) |
decomposition |
字符串 | 分解产物 |
统计信息
- 总行数:2,621,745
- 空间群:1–230
- 位点数:每个结构 1–236 个
- 形成能范围:−6.19 至 5.35 eV/原子
- 带隙范围:0 至约 18 eV
预期用途
- 主要目的:用于基于成分或结构感知的机器学习模型进行多任务材料属性预测。
- 适用场景:
- 训练材料科学基础模型。
- 在材料数据上进行多目标回归/分类基准测试。
- 研究整个元素周期表的结构-性能关系。
- 探索用于材料领域专业化的专家混合架构。
加载方式
- 使用
datasets库加载,支持流式传输或完全加载至内存。 - 可使用
pandas通过 Hugging Face Hub 直接加载 Parquet 文件。
许可信息
- 本数据集根据 MIT 许可证发布。
引用要求
使用本数据集时,请引用原始 Alexandria 数据库的文献。
搜集汇总
数据集介绍
构建方式
在材料科学领域,大规模密度泛函理论计算为探索材料性质提供了坚实基础。Alexandria数据集源自鲁尔大学波鸿分校跨学科先进材料模拟中心开发的同名数据库,经过系统处理与扁平化转换,形成了包含262万条记录的CSV格式数据集。构建过程中,原始DFT计算数据被提取并整合了23种关键物性参数,涵盖能量学、电子结构、磁学及晶体学等多个维度,确保了数据的完整性与一致性,为机器学习模型训练提供了结构化的输入。
特点
该数据集以其广泛的覆盖范围和精细的物性标注而著称,囊括了从空间群编号到晶格参数、从形成能到带隙值的多维度特征。每条记录代表一种无机晶体材料,并包含化学成分、结构原型及计算路径等元数据,支持从组成到性质的深入关联分析。数据规模庞大且属性多样,不仅适用于多任务预测模型的训练,还为材料发现中的结构-性能关系研究提供了丰富样本,展现了其在高通量材料设计中的独特价值。
使用方法
为便于科研与工程应用,数据集可通过Hugging Face平台直接加载,推荐使用流式读取以应对其大规模数据量。用户可借助`datasets`库或`pandas`工具进行数据访问与处理,适用于训练材料科学基础模型、多目标回归分类基准测试以及专家混合架构的探索。通过整合化学成分与结构信息,该数据集能够有效支持机器学习模型在材料性质预测任务中的性能评估与优化,推动智能化材料设计的进展。
背景与挑战
背景概述
在材料科学领域,高通量计算与机器学习技术的融合正推动着新材料发现范式的革新。Alexandria数据集由德国波鸿鲁尔大学跨学科先进材料模拟中心于2023年创建,其核心研究问题在于构建一个覆盖广泛无机晶体结构的大规模密度泛函理论计算数据库,旨在通过机器学习方法辅助确定材料在绝对零度下的全局相图。该数据集包含262万条计算条目,涵盖能量学、电子结构、磁性与晶体学等23种性质,为多任务材料性质预测提供了坚实的数据基础,显著加速了材料设计与筛选进程,对计算材料学与人工智能交叉领域产生了深远影响。
当前挑战
Alexandria数据集致力于解决材料性质预测中的关键挑战,即如何从材料的化学成分与晶体结构出发,准确、高效地预测其多种物理化学性质,这一多任务学习问题因材料空间的广阔性与性质的复杂性而尤为艰巨。在构建过程中,挑战主要源于大规模密度泛函理论计算的高昂成本与数据一致性保障,以及将原始的非结构化计算输出处理为适用于机器学习流程的扁平化表格数据所需的数据清洗、格式转换与质量验证工作,这些步骤确保了数据集的可靠性与可用性。
常用场景
经典使用场景
在材料科学领域,Alexandria数据集作为大规模密度泛函理论计算数据的标准化集合,其经典使用场景聚焦于多任务材料性质预测。研究者通过整合该数据集中的能量学、电子结构、磁性和晶体学等23种性质,能够训练先进的机器学习模型,如MTEncoder等基础模型,以同时预测多种材料属性。这种多任务学习框架不仅提升了模型效率,还促进了跨性质关联性的深入探索,为高通量材料筛选和设计提供了坚实的数据基础。
解决学术问题
该数据集有效解决了材料科学中若干关键学术问题,特别是全局零温相图的机器学习辅助确定问题。通过提供超过260万条DFT计算条目,Alexandria使得研究者能够系统分析材料的结构-性质关系,跨越整个周期表范围。它支持对形成能、带隙、磁化强度等核心性质的回归与分类任务,为材料稳定性、电子特性及相变行为的研究提供了大规模、高质量的计算数据,显著推动了数据驱动材料发现范式的进展。
衍生相关工作
基于Alexandria数据集,已衍生出多项经典研究工作,其中最具代表性的是MTEncoder等材料科学基础模型的开发。这些工作利用数据集的多任务特性,构建了能够同时预测多种性质的神经网络架构。此外,该数据集还促进了材料性质基准测试平台的建立,以及结构-关系跨周期表研究的深化。相关成果发表在《Advanced Materials》等顶级期刊上,为机器学习在材料领域的应用树立了新的标杆,推动了学科交叉融合。
以上内容由遇见数据集搜集并总结生成



