five

GAIA-Bench

收藏
Hugging Face2025-11-11 更新2025-11-12 收录
下载链接:
https://huggingface.co/datasets/aixsim/GAIA-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
GAIA-Bench是一个用于评估机器学习原子间相互作用潜力(MLIP)模型预测物理性质能力的数据集。它包含11种元素(C, H, N, O, Ag, Au, Cu, Pd, Pt, Rh, Ru),分为四个基准任务:分子间相互作用(mol2mol)、总体能量-体积关系(bulk)、表面晶面稳定性(slab)以及分子-表面吸附能(mol2surf)。每个任务都提供了两个.extxyz文件,分别用于能量和力的评估。
创建时间:
2025-11-10
原始信息汇总

GAIA-Bench数据集概述

数据集基本信息

  • 许可证:CC-BY-4.0
  • 标签:MLIP、MLFF
  • 数据规模:10万到100万之间

数据集用途

用于评估机器学习原子间势能(MLIP)模型预测物理性质的能力

元素覆盖范围

包含11种元素:C、H、N、O、Ag、Au、Cu、Pd、Pt、Rh、Ru

基准测试任务

  • 分子间相互作用(mol2mol)
  • 体相能量-体积关系(bulk)
  • 表面晶面稳定性(slab)
  • 分子-表面吸附能量学(mol2surf)

数据文件格式

每个任务提供两个.extxyz文件,分别用于能量和力的评估

相关资源

  • 论文地址:https://arxiv.org/abs/2509.25798
  • 代码仓库:https://github.com/samsungDS-PoCs/GAIA

引用信息

bibtex @article{gaia2025, title={Scalable Reactive Atomistic Dynamics with GAIA}, author={Song, Suhwan and Kim, Heejae and Jang, Jaehee and Cho, Hyuntae and Kim, Gunhee and Kim, Geonu}, journal={arXiv preprint arXiv:2509.25798}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习势函数领域,GAIA-Bench通过系统整合11种关键元素(包括轻元素C、H、N、O和过渡金属Ag、Au等)构建了多维评估体系。该数据集采用第一性原理计算生成基准数据,每个任务分别提供能量与力评估专用的.extxyz文件,其构建过程严格遵循材料科学中的物理规律验证流程,确保数据在原子尺度相互作用的准确性。
特点
该数据集最显著的特征在于覆盖了分子间相互作用、体相能量体积关系、表面晶面稳定性及分子-表面吸附能四大关键物理场景。通过多元素跨尺度建模,既能评估模型对简单分子体系的预测能力,又能验证复杂金属表面的模拟精度。其模块化设计允许研究者针对特定物理属性开展定向评估,为机器学习势函数提供了全面而细致的性能检验标准。
使用方法
研究者可通过官方代码库获取标准评估流程,分别对能量和力预测任务进行量化分析。使用时应按照四大基准任务分别加载对应的.extxyz数据文件,通过对比模型预测值与第一性原理参考值来评估性能。该基准支持跨元素泛化能力测试,建议在相同预处理条件下比较不同模型的表现,以确保评估结果的可复现性与科学性。
背景与挑战
背景概述
在材料科学领域,精确预测原子尺度相互作用对新型材料设计具有关键意义。GAIA-Bench由三星研究团队于2025年构建,聚焦机器学习势函数模型的物理性质预测能力评估。该数据集涵盖碳、氢、氮、氧及七种贵金属元素,通过分子间相互作用、体相能量体积关系、表面晶面稳定性与分子表面吸附能四类基准任务,为材料多尺度模拟提供了标准化验证框架。其创新性设计显著推进了计算材料学中反应性原子动力学的可扩展性研究。
当前挑战
材料多尺度建模领域长期面临跨尺度物理量统一描述的挑战,GAIA-Bench需解决从量子力学精度到宏观性质的衔接难题。数据集构建过程中需克服多元组分体系的数据采集障碍,特别是在贵金属表面吸附等复杂场景中,第一性原理计算的数据生成成本极高。同时保持不同任务间数据格式的统一性,以及能量与力预测指标的同步验证,都对基准集的科学严谨性提出严格要求。
常用场景
经典使用场景
在计算材料科学领域,GAIA-Bench数据集被广泛应用于评估机器学习原子间势(MLIP)模型的预测能力。该数据集通过涵盖11种关键元素和四类基准任务——分子间相互作用、体相能量-体积关系、表面晶面稳定性及分子-表面吸附能,为研究者提供了系统验证模型在复杂多元素体系中能量与力场预测精度的标准化平台。其结构化的.extxyz文件格式支持能量与力的独立评估,成为开发下一代高精度分子动力学模拟工具的核心测试基准。
衍生相关工作
围绕该数据集衍生的经典研究包括三星DS-PoCs团队开发的GAIA评估框架,其开源代码库已成为MLIP模型性能对比的基准工具。多项后续工作通过扩展该数据集的元素覆盖范围与任务类型,进一步推动了如金属-有机界面反应动力学、多元合金相图预测等方向的发展。这些衍生研究共同构建起跨尺度材料模拟的标准化评估体系,促进了机器学习势函数在复杂材料系统中应用范式的统一。
数据集最近研究
最新研究方向
在机器学习势函数领域,GAIA-Bench作为评估模型预测物理性质能力的重要工具,正推动着多元素体系反应动力学的深入研究。当前前沿工作聚焦于利用该基准测试的四个核心任务——分子间相互作用、体相能量-体积关系、表面晶面稳定性及分子-表面吸附能,来优化模型在复杂化学反应中的泛化性能。随着绿色能源和催化材料设计的兴起,该数据集通过覆盖碳、氢、贵金属等11种关键元素,为高通量筛选高效催化剂和模拟界面反应机制提供了可靠验证平台,显著加速了原子尺度模拟技术在工业应用中的落地进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作