Revised-Entropy Maximized (Rev-EM) dataset

Name: Revised-Entropy Maximized (Rev-EM) dataset
Creator: 理论部门T-1，洛斯阿拉莫斯国家实验室
Published: 2024-07-15 07:41:26
License: 暂无描述

arXiv2024-07-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.10361v1

下载链接

链接失效反馈

官方服务：

资源简介：

Revised-Entropy Maximized (Rev-EM)数据集由理论部门T-1，洛斯阿拉莫斯国家实验室创建，包含30,349个结构，总计179,367个原子。该数据集通过最大化特征分布的信息熵来生成，旨在广泛覆盖配置空间，不依赖于特定目标材料的属性。数据集内容包括多种晶体和准晶体结构，以及纳米结构，适用于极端条件下的材料行为研究。创建过程涉及基于信息熵的优化方法，确保数据集的多样性和广泛适用性。该数据集主要用于训练机器学习原子间势能模型，以解决极端条件下材料模拟的准确性和稳定性问题。

The Revised-Entropy Maximized (Rev-EM) dataset was created by Theoretical Division T-1, Los Alamos National Laboratory, comprising 30,349 structures with a total of 179,367 atoms. Generated by maximizing the information entropy of the feature distribution, this dataset aims to comprehensively cover the configuration space without relying on the properties of specific target materials. It contains various crystalline, quasicrystalline and nanostructured systems, and is applicable to research on material behavior under extreme conditions. The dataset's creation involves information entropy-based optimization methods to ensure its diversity and broad applicability. This dataset is primarily used for training machine learning interatomic potential models to address the accuracy and stability issues of material simulations under extreme conditions.

提供机构：

理论部门T-1，洛斯阿拉莫斯国家实验室

创建时间：

2024-07-15

搜集汇总

数据集介绍

构建方式

Rev-EM数据集的构建基于最大化特征分布的信息熵，旨在实现配置空间的极广覆盖，且对特定目标材料的属性保持不可知。构建过程中，首先将数据集的优化问题转化为以信息熵为目标的优化过程，其中信息熵被定义为特征空间中特征向量的概率分布函数。通过迭代的方式，候选配置被添加到数据集中，直到信息熵达到局部最大值。为了防止产生不物理的配置，引入了核心排斥项来惩罚原子之间的近距离接触。此外，数据集的构建过程中采用了两种模式：原子模式和配置模式，分别最大化单个原子和整个配置的特征熵，以生成内部多样性和有序的配置。

特点

Rev-EM数据集的特点在于其高度的多样性和不可知性。数据集包含了超过30,000个结构，共计超过179,000个原子，涵盖了广泛的配置空间。数据集的结构多样性包括简单立方、十二面体、石墨烯等多种晶体和非晶体结构，以及纳米结构如FCC/HCP堆叠错位、自由表面、晶界等。此外，Rev-EM数据集的构建不依赖于任何材料特定的信息，使得数据集可以应用于训练适用于各种材料的通用MLIAPs。

使用方法

Rev-EM数据集的使用方法涉及将数据集划分为训练集和测试集，并使用机器学习模型进行训练和验证。在训练过程中，可以根据需要调整模型的复杂性和超参数，以平衡模型的准确性和泛化能力。为了提高模型在低能量结构上的准确性，可以采用能量重加权策略，将更多的权重分配给低能量配置。此外，Rev-EM数据集可以与其他数据集结合使用，例如与主动学习方法相结合，以进一步优化模型的性能。

背景与挑战

背景概述

Revised-Entropy Maximized (Rev-EM) 数据集是在Los Alamos National Laboratory由Aparna P. A. Subramanyam和Danny Perez领导的团队创建的。该数据集的核心研究问题是提高机器学习原子间势（MLIAPs）的泛化能力和鲁棒性，特别是在极端条件下。MLIAPs相较于经验势能，在广泛的配置空间中具有接近量子的精度，但由于其通用功能形式和极端灵活性，它们可能无法捕捉到新颖的、样本外的配置属性。Rev-EM数据集通过最大化特征分布的信息熵，旨在实现配置空间的极广泛覆盖，并且与特定目标材料的属性无关。该数据集已证明能够捕捉一系列单质材料的独特属性，包括面心立方结构（如Al）、体心立方结构（如W）、六方密排结构（如Be、Re和Os）和石墨（C）的基态。使用该数据集训练的MLIAPs在广泛的与实际应用相关的指标上表现出色，并且在非常广泛的配置空间中表现出极强的鲁棒性，即使在未进行数据集微调或超参数优化的情况下也是如此。

当前挑战

Rev-EM数据集面临的主要挑战包括：1) 如何在保持高准确性的同时，提高数据集对低能量结构的描述能力；2) 如何有效地生成具有广泛覆盖性和多样性的数据集，以避免在能量表面中难以达到的区域出现；3) 如何在数据集生成过程中避免产生不物理的配置，例如重叠原子等。此外，由于Rev-EM数据集的极端多样性，MLIAPs在捕捉其扩展特征空间时面临挑战。为了解决这些问题，研究者们提出了重加权策略、超参数优化和增加MLIAPs复杂性的方法，以实现准确性和泛化能力之间的最佳平衡。

常用场景

经典使用场景

Rev-EM数据集是针对机器学习原子间势（MLIAPs）的训练而设计的，其经典使用场景在于生成具有广泛配置空间覆盖的、与特定材料属性无关的训练数据集。Rev-EM数据集通过最大化特征分布的信息熵，确保了训练数据的多样性和广泛性，这对于开发能够在极端条件下模拟材料行为的通用型MLIAPs至关重要。

衍生相关工作

Rev-EM数据集的提出和验证，促进了机器学习原子间势在材料科学中的应用和发展。其衍生出的相关工作包括对数据集多样性的量化评估、对训练数据重加权策略的研究，以及对不同类型MLIAPs在Rev-EM数据集上的性能比较。这些工作进一步证实了Rev-EM数据集在提高MLIAPs的准确性和鲁棒性方面的价值，并为未来的材料模拟研究提供了重要的参考和指导。

数据集最近研究