MLIP Arena

Name: MLIP Arena
Creator: 加州大学伯克利分校（UC Berkeley）
Published: 2025-09-25 08:02:35
License: 暂无描述

arXiv2025-09-25 更新2025-09-27 收录

下载链接：

https://github.com/atomind-ai/mlip-arena

下载链接

链接失效反馈

官方服务：

资源简介：

MLIP Arena是一个公开的、可访问的基准平台，用于评估机器学习原子间势（MLIP）的性能。该数据集包含了1000种不同的晶体结构，用于评估MLIP在非平衡条件下的渐近行为、极端条件下的稳定性和反应性、分布偏移下的鲁棒性以及预测热力学性质和物理现象的能力。该数据集旨在解决现有基准数据集存在的问题，例如数据泄露、可迁移性有限以及过度依赖与特定密度泛函理论（DFT）参考相关的基于误差的指标。MLIP Arena通过超越静态DFT参考并提供一个可重复的框架，以指导下一代MLIP开发朝着提高预测精度和运行时效率的方向发展，同时保持物理一致性。

MLIP Arena is an open and accessible benchmark platform for evaluating the performance of machine learning interatomic potentials (MLIPs). This dataset includes 1,000 distinct crystal structures, designed to assess MLIPs' capabilities across multiple dimensions: asymptotic behavior under non-equilibrium conditions, stability and reactivity under extreme conditions, robustness against distribution shifts, as well as the capacity to predict thermodynamic properties and physical phenomena. This dataset aims to address the limitations of existing benchmark datasets, such as data leakage, limited transferability, and over-reliance on error-based metrics tied to specific density functional theory (DFT) references. MLIP Arena goes beyond static DFT references and provides a reproducible framework to guide the development of next-generation MLIPs toward improved prediction accuracy and runtime efficiency while maintaining physical consistency.

提供机构：

加州大学伯克利分校（UC Berkeley）

创建时间：

2025-09-25

原始信息汇总

MLIP Arena 数据集概述

数据集简介

MLIP Arena是一个统一的基准测试平台，用于评估基础机器学习原子间势（MLIP）的性能，超越传统的误差指标。该平台专注于揭示MLIP学习的物理合理性，并评估其效用性能，与底层模型架构和训练数据集无关。

核心目标

超越静态密度泛函理论（DFT）参考
揭示当前基础MLIP在真实场景中的重要故障模式
提供可复现的框架，指导下一代MLIP开发，提高预测准确性和运行时效率，同时保持物理一致性

技术特点

利用现代Python工作流编排器Prefect实现高级任务/流程链和缓存
提供模块化任务接口，包括结构优化、状态方程、分子动力学、声子计算等
支持并行化基准测试扩展

安装方式

PyPI安装：pip install mlip-arena（仅包含Prefect工作流，无预训练模型）
源码安装：支持集成预训练模型，提供Linux和Mac安装脚本

主要功能模块

OPT：结构优化
EOS：状态方程（能量-体积扫描）
MD：分子动力学（支持NVE、NVT、NPT等系综）
PHONON：声子计算
NEB：推弹性能带
ELASTICITY：弹性张量计算

开发贡献

支持通过PR贡献新任务
支持添加新的MLIP模型（支持外部ASE Calculator和Hugging Face Model两种方式）
提供详细的开发指南和贡献模板

引用信息

bibtex @inproceedings{ chiang2025mlip, title={{MLIP} Arena: Advancing Fairness and Transparency in Machine Learning Interatomic Potentials through an Open and Accessible Benchmark Platform}, author={Yuan Chiang and Tobias Kreiman and Elizabeth Weaver and Ishan Amin and Matthew Kuner and Christine Zhang and Aaron Kaplan and Daryl Chrzan and Samuel M Blau and Aditi S. Krishnapriyan and Mark Asta}, booktitle={AI for Accelerated Materials Design - ICLR 2025}, year={2025}, url={https://openreview.net/forum?id=ysKfIavYQE} }

搜集汇总

数据集介绍

构建方式

在机器学习势函数领域，传统基准测试常受数据泄露和静态密度泛函理论参考的局限。MLIP Arena通过设计四个核心评估维度构建基准平台：采用渐进行为分析评估势能曲线的平滑性与短程排斥特性，通过分子动力学模拟测试极端条件下的稳定性与化学反应性，利用微分熵量化分布偏移下的鲁棒性，并基于热力学性质与现象学案例考察实际应用能力。该平台采用Prefect工作流引擎实现任务编排，结合原子模拟环境数据库确保计算过程的可复现性。

使用方法

研究者可通过Python软件包接入基准测试流程，利用预定义的Prefect工作流执行四大类任务。对于渐进行为分析，用户需准备晶体结构与双原子分子数据集，工作流将自动执行体积应变扫描与势能曲线采样。分子动力学测试支持自定义温度压力调度策略，并集成Nose-Hoover热浴与压浴控制器。分布偏移评估模块提供QUESTS描述符计算接口，可量化任意原子结构的微分熵。热力学性质模块包含爬坡弹性能带法与维德姆插入法等标准流程，用户可通过Hugging Face空间访问实时排行榜对比模型表现。

背景与挑战

背景概述

机器学习原子间势能（MLIPs）作为分子与材料建模领域的重要工具，近年来通过替代传统密度泛函理论计算显著提升了计算效率。在此背景下，MLIP Arena于2025年由加州大学伯克利分校、劳伦斯伯克利国家实验室、帝国理工学院及韩国科学技术院等机构联合推出，旨在构建一个超越静态DFT参考的基准平台。该数据集聚焦于评估MLIPs在物理一致性、化学反应性、极端条件稳定性及热力学性质预测等方面的能力，推动下一代MLIPs在保持物理规律的同时提升预测精度与计算效率。

当前挑战

MLIP Arena着力应对三大核心挑战：在领域问题层面，传统基准存在数据泄露风险，导致模型在远离训练分布的化学空间与应变构型中泛化能力不足；静态数据集基准难以适应快速演进的MLIP领域，易因新数据集的出现而迅速过时；过度依赖误差指标忽视了物理先验，造成模型预测与实验观测间的脱节。在构建过程中，需设计物理意义明确的评估指标以替代单纯回归误差，开发可复现的工作流框架以支持复杂模拟任务，并确保基准平台能兼容多样化的模型架构与不断扩展的化学空间。

常用场景

经典使用场景

在分子与材料建模领域，MLIP Arena通过评估机器学习势函数在物理感知、化学反应性、极端条件稳定性以及热力学性质预测等方面的表现，为势函数质量提供了全面基准测试。该平台特别关注势能面的渐近行为分析，例如通过Birch-Murnaghan状态方程曲线和双原子势能曲线来检验模型在非平衡条件下的预测合理性。这种评估方式超越了传统基于密度泛函理论参考的误差指标，能够有效揭示势函数在远离训练数据区域的物理一致性。

解决学术问题

该数据集致力于解决机器学习势函数领域存在的三大核心问题：静态基准测试导致的数据泄露问题、过度依赖特定密度泛函理论参考的局限性，以及传统误差指标与实际应用效用的脱节。通过设计物理原理驱动的评估任务，MLIP Arena能够有效检测势函数在能量守恒、旋转等变性等基本物理规律方面的遵守程度。这种评估框架为开发具有更好外推能力和物理一致性的新一代势函数提供了明确指导，推动了从单纯数值精度向物理合理性的范式转变。

实际应用

在实际应用层面，MLIP Arena的评估结果直接关联到材料发现和性能预测的关键场景。例如通过空位形成与迁移能的计算来评估势函数在缺陷工程中的可靠性，利用二氧化碳吸附模拟验证金属有机框架材料的筛选准确性，以及通过二维材料动力学稳定性预测来支撑新型低维材料的开发。这些应用场景充分体现了该基准平台在能源技术、环境治理和功能材料设计等领域的实用价值，为实验研究提供了可靠的计算支撑。

数据集最近研究