Alex-MP-20_Polymorph_Split
收藏Hugging Face2025-12-11 更新2025-12-12 收录
下载链接:
https://huggingface.co/datasets/OMatG/Alex-MP-20_Polymorph_Split
下载链接
链接失效反馈官方服务:
资源简介:
Alex-MP-20-polymorph-split是一个用于晶体结构预测的新分割数据集,来源于MP-20和Alexandria数据库。该数据集确保相同组成的结构在同一分割中,包含训练集(405,073个结构)、测试集(135,116个结构)和验证集(135,015个结构)。
创建时间:
2025-12-03
原始信息汇总
Alex-MP-20-polymorph-split 数据集概述
数据集基本信息
- 数据集名称: Alex-MP-20-polymorph-split
- 官方名称: Alex-MP-20-polymorph-split
- 许可证: CC-BY-4.0
- 标签: 生成建模、材料发现、DFT
数据集来源与引用
- 来源: 本数据集是对 Alex-MP-20 数据集的新划分。Alex-MP-20 数据集包含来自 MP-20 (Jain 2013, doi: 10.1063/1.4812323) 和 Alexandria (Schmidt 2022, doi: 10.24435/materialscloud:m7-50) 的结构。
- 引用: 如果您的作品使用了此数据集,请引用 Martirossyan 等人 (https://arxiv.org/abs/2509.12178)。
数据集描述
- 核心目的: 为执行晶体结构预测而创建的新划分。
- 关键特性: 确保相同成分的结构保留在同一划分中。
- 数据文件:
- 训练集 (
train.parquet): 405,073 个结构 - 验证集 (
val.parquet): 135,015 个结构 - 测试集 (
test.parquet): 135,116 个结构
- 训练集 (
搜集汇总
数据集介绍

构建方式
在材料科学领域,数据集的构建方式直接影响其科学价值与应用潜力。Alex-MP-20-polymorph-split数据集基于Alex-MP-20数据集进行重新划分,该原始数据集整合了MP-20数据库与Alexandria数据库中的晶体结构信息。构建过程中,研究者采用了以化学组成为核心的分割策略,确保同一化学组成的结构被完整保留在同一数据子集内,从而避免了因组成分散导致的模型评估偏差。这种划分方式特别适用于晶体结构预测任务,能够有效支持生成模型在材料发现中的稳健训练与验证。
使用方法
在材料发现与生成建模的研究中,该数据集的使用方法清晰而高效。用户可直接通过HuggingFace平台加载数据,数据集已预分割为训练、验证与测试三个Parquet格式文件,便于直接用于机器学习流水线。典型应用场景包括训练晶体结构生成模型,或评估模型在未知组成结构上的预测性能。使用时需注意遵循CC-BY-4.0许可协议,并在相关研究中引用原始文献,以尊重数据贡献者的学术工作。这种即用型设计显著降低了数据预处理负担,加速了材料信息学领域的实验迭代。
背景与挑战
背景概述
在材料科学领域,晶体结构预测是加速新材料发现的核心挑战之一。Alex-MP-20_Polymorph_Split数据集由微软等机构的研究团队于2025年构建,其基础整合了MP-20和Alexandria两大权威材料数据库,旨在通过生成建模技术探索材料的多样晶体形态。该数据集的核心研究问题聚焦于如何准确预测同一化学组成下可能存在的不同晶体结构,即多晶型问题,这对于设计高性能功能材料具有深远影响,推动了计算材料学与人工智能的交叉融合。
当前挑战
该数据集致力于解决晶体结构预测中的多晶型识别难题,其挑战在于模型需从海量结构数据中学习细微的能量与几何差异,以区分稳定与亚稳态相。在构建过程中,研究人员面临数据整合的复杂性,需确保来自不同来源的结构信息在格式与精度上保持一致,同时设计合理的分割策略以避免同一组成的数据泄漏,这要求精细的化学信息处理与严格的评估框架。
常用场景
经典使用场景
在材料科学领域,晶体结构预测是探索新材料性能的关键环节。Alex-MP-20_Polymorph_Split数据集通过确保相同化学成分的结构被划分到同一数据子集中,为生成建模任务提供了标准化的评估基准。这一设计使得研究人员能够专注于多晶型结构的生成与优化,避免了数据泄露问题,从而在材料发现过程中实现更可靠的模型训练与验证。
解决学术问题
该数据集主要解决了材料信息学中晶体结构预测的泛化性挑战。传统的数据划分方法可能导致模型在测试时遇到训练集中已见的化学成分,从而高估性能。通过引入基于成分一致性的分割策略,该数据集促进了模型对未知多晶型结构的生成能力评估,推动了生成模型在材料设计中的鲁棒性研究,为高通量计算与实验验证搭建了桥梁。
实际应用
在实际应用中,该数据集支持新型功能材料的加速发现,例如在能源存储、催化或电子器件领域。研究人员利用其结构数据训练生成模型,快速筛选具有特定物理或化学性质的候选材料,从而减少实验试错成本。结合密度泛函理论计算,该数据集为工业研发提供了可靠的数字孪生基础,助力实现从理论设计到实际合成的闭环优化。
数据集最近研究
最新研究方向
在材料科学领域,晶体结构预测是加速新材料发现的核心挑战之一。Alex-MP-20_Polymorph_Split数据集通过确保相同成分的结构在训练、验证和测试集中保持完整,为生成建模提供了更严谨的评估基准。这一设计显著提升了模型对多晶型物相稳定性的预测能力,推动了基于深度学习的材料生成研究。近期,该数据集与微软MatterGen等生成框架的结合,已成为探索高温超导、储能材料等热点方向的关键工具,其开源特性进一步促进了跨学科合作,为高通量计算与实验验证搭建了桥梁。
以上内容由遇见数据集搜集并总结生成



