alanine dipeptide benchmark system

Name: alanine dipeptide benchmark system
Creator: 麻省理工学院材料科学与工程系
Published: 2024-02-06 14:42:51
License: 暂无描述

arXiv2024-02-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.03753v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用的数据集为丙氨酸二肽基准系统，由麻省理工学院材料科学与工程系创建，用于验证基于不确定性的集体变量（CV）的增强采样方法。数据集涵盖了丙氨酸二肽的复杂内部运动，是增强采样技术的典型测试案例。通过使用高斯混合模型（GMM）不确定性度量作为CV，研究展示了该方法在克服能量障碍和探索未见能量最小值方面的有效性，从而在主动学习框架中增强了数据集。该数据集的应用领域主要集中在提高机器学习原子间势（MLIP）的鲁棒性和泛化能力，特别是在训练数据稀疏的外推区域。

The dataset used in this study is the alanine dipeptide benchmark system, which was created by the Department of Materials Science and Engineering, Massachusetts Institute of Technology (MIT) to validate enhanced sampling methods based on uncertainty-aware collective variables (CVs). This dataset covers the complex internal motions of alanine dipeptide, serving as a canonical test case for enhanced sampling techniques. By leveraging the uncertainty metric derived from Gaussian Mixture Models (GMMs) as the CV, the study demonstrated the efficacy of this method in overcoming energy barriers and exploring unvisited energy minima, thereby augmenting the dataset within the active learning framework. The primary application scenarios of this dataset center on improving the robustness and generalization capability of machine learning interatomic potentials (MLIPs), particularly in extrapolation regions where training data is sparsely distributed.

提供机构：

麻省理工学院材料科学与工程系

创建时间：

2024-02-06

搜集汇总

数据集介绍

构建方式

在分子模拟领域，构建具有广泛构象空间覆盖度的数据集对于机器学习原子间势的稳健性至关重要。本研究提出了一种创新方法，通过将机器学习模型预测的不确定性作为集体变量，引导增强采样分子动力学模拟，从而主动探索构型空间中的高不确定性区域。该方法结合了扩展系统自适应偏置力与高斯加速分子动力学技术，利用基于高斯混合模型的单模型不确定性度量，在活性学习框架中迭代地采集化学相关数据点，有效克服能垒并探索未见的能量极小值，显著提升了数据集的代表性和多样性。

特点

该数据集以丙氨酸二肽这一经典基准分子系统为核心，其构象变化通常通过主链二面角φ和ψ进行表征，同时亦关注肽键二面角ω1和ω2的重要影响。数据集的特点在于通过不确定性引导的增强采样，系统性地覆盖了包括C7eq、C5、C7ax、αR及αL在内的多个稳定构象区域，并成功探索了非平面的ω二面角构型。相较于传统基于热力学概率的采样方法，本数据集显著拓展了对稀有事件及高能过渡态的采样，确保了机器学习势能在整个构象空间中的预测鲁棒性和外推能力。

使用方法

该数据集主要用于训练和验证机器学习原子间势模型，特别是神经网路原子间势。在使用时，首先利用初始的小规模训练集训练一个基础模型，并计算其基于高斯混合模型的不确定性。随后，将此不确定性作为集体变量，驱动eABF-GaMD增强采样模拟，在300K和500K下进行探索性运行。模拟过程中，通过设定不确定性阈值筛选高不确定性构型，并应用层次聚类于其潜在特征以确保所选构型的多样性。这些新采集的构型经过第一性原理计算获得精确能量和力后，被加入训练集以迭代更新模型。此活性学习循环持续进行，直至模型在独立测试集上的预测误差收敛，并能准确复现目标分子的势能均值力剖面。

背景与挑战

背景概述

在计算化学与材料科学领域，构建能够准确描述分子系统势能面的机器学习原子间势能（MLIP）模型，依赖于具有广泛构象空间覆盖度的训练数据集。丙氨酸二肽基准系统作为分子构象采样的经典模型，因其复杂的分子内运动而常被用于评估增强采样方法的有效性。2024年，麻省理工学院材料科学与工程系的Aik Rui Tan等人提出了一种基于不确定性的集体变量方法，旨在通过主动学习框架高效生成涵盖分子系统可及构象空间的稳健数据集。该研究聚焦于克服传统采样方法在捕获稀有但信息丰富的构象方面的局限性，通过将神经网络原子间势能模型预测的不确定性作为集体变量，引导分子动力学模拟偏向于构型空间中模型预测最不确定的区域，从而提升数据集的代表性和MLIP模型的泛化能力。

当前挑战

该数据集构建过程中面临的核心挑战在于分子系统势能面的复杂性，其具有众多局部极小值和能量壁垒，使得传统随机采样或穷举探索方法难以高效捕获稀有构象。具体挑战包括：在领域问题层面，机器学习原子间势能模型作为高级插值方案，其稳健性严重依赖于训练数据的质量和广度，特别是在训练数据稀疏的外推区域，模型容易产生不可靠的预测；在构建过程层面，传统基于经典分子动力学模拟生成的数据集往往倾向于采样热力学概率较高的构象，主要集中在能量极小值附近，而忽略了对于罕见事件至关重要的构象，导致模型在模拟中可能被非物理地困于极小值中，无法准确描述高能态结构。此外，如何设计一种无需预定义反应坐标的采样策略，以全面探索所有自由度，并避免因模式崩溃而产生过于扭曲或相似的构象，亦是数据集构建中的关键难题。

常用场景

经典使用场景

在计算化学与分子模拟领域，丙氨酸二肽基准系统因其结构简单却蕴含复杂的分子内运动模式，常被用作评估增强采样算法和机器学习原子间势能（MLIP）性能的经典测试平台。该数据集通过结合不确定性引导的增强采样方法，如扩展系统自适应偏置力与高斯加速分子动力学，系统性地探索分子构象空间，尤其聚焦于传统热力学采样难以触及的高能垒区域和罕见构型。其经典应用场景在于为MLIP的训练提供覆盖广泛且化学相关的构型数据，确保模型在预测复杂势能面时具备优异的鲁棒性和泛化能力。

解决学术问题

该数据集有效应对了机器学习原子间势能在训练数据代表性不足方面的核心挑战。传统分子动力学采样往往局限于势能面极小值附近的构型，难以捕捉对反应动力学至关重要的高能过渡态和罕见事件。通过将模型预测的不确定性作为集体变量，该工作引导采样过程主动探索MLIP预测置信度较低的区域，从而系统性地扩充数据集，覆盖更多元化的分子构象。此举显著提升了MLIP在势能面外推区域的预测可靠性，解决了模型因训练数据偏差而导致的泛化能力弱、模拟结果易陷入局部极小值等关键学术问题。

衍生相关工作

该研究衍生并推动了多个相关领域的前沿工作。其核心思想——利用模型不确定性指导采样——与Kulichenko等人及Van Der Oord等人将不确定性直接作为偏置势能的方法形成了对比与补充。此外，该方法与Schwalbe-Koda等人提出的结合对抗性攻击的采样策略，共同丰富了主动学习在分子模拟中的应用范式。基于高斯混合模型的单模型不确定性量化技术，也为Zhu等人发展高效不确定性估计方法提供了验证场景。这些工作共同深化了对于如何构建鲁棒、高效且数据经济的MLIP训练集的理解，促进了不确定性量化、主动学习与增强采样技术在计算化学中的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集