Massive Atomistic Diversity (MAD) dataset

Name: Massive Atomistic Diversity (MAD) dataset
Creator: 瑞士洛桑联邦理工学院计算科学与建模实验室
Published: 2025-03-18 18:35:30
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

http://arxiv.org/abs/2503.14118v1

下载链接

链接失效反馈

官方服务：

资源简介：

MAD数据集是一种新型数据集，其创建目的是推动'通用性'的极限，适用于有机和无机原子级模拟的多种系统维度。数据集覆盖了广泛的配置空间，包含随机和非平衡结构，以适应复杂的原子模拟协议。参考电子结构计算具有高度一致性和鲁棒性，确保不同结构中的结构和化学基元以相同方式处理。该数据集旨在减少训练时间成本，同时保持代表性。MAD数据集被用于训练PET-MAD模型，该模型在多种材料类别的先进原子模拟中表现出色。

The MAD dataset is a novel dataset developed to push the limits of 'generality', applicable to multiple system dimensions for both organic and inorganic atomic-scale simulations. It covers a wide configuration space, including both random and non-equilibrium structures, to accommodate complex atomic simulation protocols. The reference electronic structure calculations exhibit high consistency and robustness, ensuring that structural and chemical motifs across different structures are treated uniformly. This dataset aims to reduce training time and computational costs while maintaining representativeness. The MAD dataset has been used to train the PET-MAD model, which delivers outstanding performance in advanced atomic simulations across various material categories.

提供机构：

瑞士洛桑联邦理工学院计算科学与建模实验室

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

Massive Atomistic Diversity (MAD) 数据集的构建基于一种全新的理念，旨在通过结合无机和有机固体的稳定结构，并对其进行系统性修改，以增强原子多样性。该数据集包含85种元素的95595个结构，涵盖了从三维晶体到二维材料、纳米团簇以及分子片段的多种系统维度。为了确保数据的一致性，所有结构的能量和力均通过高度收敛的第一性原理计算获得，并采用了统一的电子结构理论水平。此外，数据集还通过随机化和非平衡结构的引入，进一步扩展了配置空间的覆盖范围，从而为机器学习模型提供了丰富的训练样本。

特点

MAD 数据集的特点在于其高度的化学和结构多样性，涵盖了从无机晶体到有机分子、表面和纳米团簇的广泛材料类别。数据集通过引入随机化和非平衡结构，显著增强了模型在复杂原子模拟中的适用性。此外，所有参考电子结构计算均采用一致的设置，确保了不同结构和化学环境下的能量映射具有高度一致性。尽管数据集规模相对较小（少于10万个结构），但其代表性足以支持广泛的材料模拟任务，并为模型的训练和优化提供了高效的计算基础。

使用方法

MAD 数据集的使用方法主要围绕其支持的机器学习原子间势（MLIP）模型 PET-MAD。该模型基于 Point Edge Transformer (PET) 图神经网络架构，能够高效地预测原子系统的能量和力。用户可以通过该模型进行热力学和量子力学波动、功能性质以及相变等复杂原子模拟。此外，PET-MAD 还支持通过低秩适应技术（LoRA）进行微调，以在特定化学系统中实现更高的精度。模型的不确定性量化功能进一步增强了其在高级模拟中的可靠性，使用户能够评估模型误差并优化模拟结果。

背景与挑战

背景概述

Massive Atomistic Diversity (MAD) 数据集由瑞士洛桑联邦理工学院（EPFL）的计算科学与建模实验室于2025年推出，旨在解决材料科学中的原子尺度模拟问题。该数据集通过结合稳定的无机和有机固体材料，系统性地增强原子多样性，为机器学习原子间势能（MLIPs）提供了高质量的训练数据。MAD数据集的核心研究问题在于如何通过高度一致的第一性原理计算，量化评估模型在整个元素周期表中的表现。该数据集的推出显著推动了材料建模领域的发展，尤其是在无机固体、分子、有机材料和表面研究中的应用，为热力学、量子力学波动、功能性质和相变等复杂模拟提供了可靠的工具。

当前挑战

MAD数据集在构建和应用过程中面临多重挑战。首先，其旨在解决的领域问题——原子尺度模拟的通用性，要求模型能够同时处理无机和有机材料的复杂原子结构，这对数据集的多样性和覆盖范围提出了极高要求。其次，在构建过程中，数据集需要确保高度一致的第一性原理计算，以避免因电子结构参考不一致而导致的模型误差。此外，MAD数据集还需克服低能构型偏差问题，通过引入随机化和非平衡结构来扩展构型空间的覆盖范围。最后，数据集的规模控制在10万结构以内，以减少训练时间和成本，同时保持其代表性，这对数据筛选和优化提出了挑战。

常用场景

经典使用场景

Massive Atomistic Diversity (MAD) 数据集在材料科学领域中被广泛应用于原子尺度模拟，尤其是在机器学习的原子间势能（MLIPs）开发中。该数据集通过结合无机和有机固体的稳定结构，并系统性地引入原子多样性，提供了高度一致的第一性原理计算数据。这使得MAD数据集能够支持广泛的材料类别和复杂的原子模拟协议，涵盖从体相晶体到表面、纳米团簇以及分子系统的多种结构。

解决学术问题

MAD数据集解决了机器学习原子间势能在跨周期表元素应用中的准确性和通用性问题。传统的MLIPs往往偏向于低能构型，而MAD通过引入高度多样化的原子结构，确保了模型在广泛的化学和结构空间中的表现。该数据集还通过一致的第一性原理计算设置，消除了模型评估中的电子结构参考不一致问题，从而为跨周期表的定量性能评估提供了可靠的基础。

衍生相关工作

MAD数据集衍生了许多相关的研究工作，尤其是在通用机器学习原子间势能的开发和应用方面。基于MAD的PET-MAD模型在多个基准测试中表现出色，推动了无机和有机材料模拟的进一步发展。此外，MAD数据集的设计理念也启发了其他通用模型的数据集构建，强调了内部一致性和结构多样性的重要性。相关研究还包括对高熵合金、分子晶体以及铁电材料的深入探索，进一步扩展了MAD数据集在材料科学中的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集