非局部热力学平衡原子物理数据集
收藏arXiv2024-12-05 更新2024-12-06 收录
下载链接:
http://arxiv.org/abs/2412.03497v1
下载链接
链接失效反馈官方服务:
资源简介:
非局部热力学平衡原子物理数据集是由伊利诺伊大学厄巴纳-香槟分校和劳伦斯利弗莫尔国家实验室创建的,用于模拟原子物理和辐射传输计算。该数据集包含电子密度、温度和辐射光谱等输入数据,以及吸收光谱等输出数据。数据集的创建过程涉及在Cretin代码中运行大量惯性约束聚变模拟,并手动划分训练、验证和评估数据。该数据集主要用于检测机器学习模型在非训练数据上的预测可靠性,旨在提高科学预测的准确性和可信度。
The Non-Local Thermodynamic Equilibrium (NLTE) Atomic Physics Dataset was developed by the University of Illinois Urbana-Champaign and Lawrence Livermore National Laboratory to support atomic physics and radiative transfer simulations and calculations. The dataset contains input data such as electron density, temperature, and radiation spectra, alongside output data including absorption spectra. Its creation involved running a large volume of inertial confinement fusion simulations using the Cretin code, followed by manual splitting of the dataset into training, validation, and evaluation subsets. This dataset is primarily used to assess the prediction reliability of machine learning models on out-of-training-distribution data, with the objective of improving the accuracy and credibility of scientific predictions.
提供机构:
伊利诺伊大学厄巴纳-香槟分校,劳伦斯利弗莫尔国家实验室
创建时间:
2024-12-05
搜集汇总
数据集介绍

构建方式
非局部热力学平衡原子物理数据集的构建基于复杂的物理模拟,通过运行大量的ICF(惯性约束聚变)模拟,生成包含电子密度、温度和辐射谱的数据点。这些数据点随后被划分为训练集、验证集和用于评估的分布外(OOD)数据集。数据集的构建过程中,特别关注了高维输入和输出空间的特性,确保数据点在物理上具有代表性,同时通过人工划分确保OOD数据集的真实性和挑战性。
特点
该数据集的显著特点在于其高维度和物理复杂性,涵盖了87维的输入空间和85维的输出空间。此外,数据集的构建过程中引入了软校验和(soft checksum)机制,这是一种新颖的技术,用于区分训练分布内(ID)和分布外(OOD)数据点的预测可信度。通过在神经网络的输出层添加校验节点,模型能够学习并应用校验和函数,从而有效识别和标记不可信的预测。
使用方法
使用该数据集时,研究人员可以训练神经网络模型来预测吸收谱,并通过校验和机制评估预测的可靠性。具体操作包括在模型训练过程中引入校验和输出,并根据校验和误差来区分ID和OOD数据点。通过调整损失函数,研究人员可以进一步优化模型的OOD检测能力,确保在科学回归应用中,模型能够有效识别并避免不可信的预测,从而提高整体模拟的可靠性和准确性。
背景与挑战
背景概述
非局部热力学平衡原子物理数据集由Casey Lauer、Robert C. Blake和Jonathan B. Freund等研究人员于2024年创建,主要用于解决在原子物理模拟中使用机器学习代理模型时可能遇到的不信任预测问题。该数据集的核心研究问题是如何区分训练数据分布内的可信预测与分布外的不可信预测。通过引入软校验和方法,研究人员旨在提供一种通用且高效的工具,以识别和标记那些可能超出模型有效域的预测。这一研究对原子物理和辐射传输等领域的模拟计算具有重要影响,特别是在惯性约束聚变和磁聚变等应用中,能够显著提升模拟结果的可靠性和效率。
当前挑战
非局部热力学平衡原子物理数据集在构建和应用过程中面临多项挑战。首先,如何准确区分训练数据分布内外的数据点是一个复杂的问题,尤其是在回归任务中,所有预测都具有非零误差,这使得二元评估变得困难。其次,数据集的构建需要从可信的模拟或实验中收集数据,这在高维空间中可能导致数据分布不均匀,形成潜在的数据间隙。此外,将软校验和方法应用于高维和物理复杂的非局部热力学平衡数据集,需要克服模型在处理超出训练数据分布外的数据时的不确定性。最后,尽管软校验和方法在计算成本上具有优势,但其有效性和与其他最先进方法的比较仍需进一步验证和优化。
常用场景
经典使用场景
非局部热力学平衡原子物理数据集在机器学习领域中被广泛用于训练神经网络模型,以替代高成本的物理模拟计算。该数据集通过引入软校验和(soft checksums)技术,能够有效区分训练数据分布内(ID)和分布外(OOD)的预测结果,从而提高模型在未知数据上的预测可靠性。
实际应用
在实际应用中,非局部热力学平衡原子物理数据集被用于加速原子动力学和辐射传输计算,特别是在惯性约束聚变(ICF)、磁聚变、X射线激光和激光产生等离子体等领域。通过使用机器学习代理模型,研究人员能够在保证计算精度的同时,大幅减少计算时间和资源消耗。
衍生相关工作
基于该数据集的研究衍生出了一系列相关工作,包括物理启发的神经网络(PINNs)、异常暴露技术(Outlier Exposure)以及改进的损失函数设计。这些工作不仅提升了模型的泛化能力,还为其他领域的分布外检测问题提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



