five

Landscape17

收藏
arXiv2025-08-22 更新2025-08-26 收录
下载链接:
http://arxiv.org/abs/2508.16425v1
下载链接
链接失效反馈
官方服务:
资源简介:
Landscape17数据集是一个用于评估机器学习分子势能模型(MLIPs)的基准数据集。它包含MD17数据集中六个具有多个不同局部最小结构的分子的完整动力学过渡网络(KTNs),这些网络是通过混合级密度泛函理论计算得出的。每个KTN都包含最小值、过渡态和近似最陡下降路径,以及在这些驻点处的能量、力和Hessian特征谱。Landscape17数据集为评估MLIPs在动力学应用中的能力提供了一个简单但要求很高的测试,只需要几个小时的计算时间。
提供机构:
Xyme,UK; Yusuf Hamied Department of Chemistry,University of Cambridge,UK; IBM Research Europe,Daresbury,UK
创建时间:
2025-08-22
原始信息汇总

Landscape17 数据集概述

数据集基本信息

  • 标题:Global properties of the energy landscape: a testing and training arena for machine learned potentials
  • arXiv标识符:arXiv:2508.16425v1
  • 提交日期:2025年8月22日
  • 学科分类:Chemical Physics (physics.chem-ph)
  • DOI:https://doi.org/10.48550/arXiv.2508.16425

作者信息

  • Vlad Cărare
  • Fabian L. Thiemann
  • Joe Morrow
  • David J. Wales
  • Edward O. Pyzer-Knapp
  • Luke Dicks

数据集描述

Landscape17是一个包含完整动力学过渡网络(KTNs)的数据集,基于MD17数据集的分子,采用混合级别密度泛函理论计算。每个KTN包含极小值、过渡态和近似最速下降路径,以及在驻点处的能量、力和Hessian特征谱。

主要用途

  • 评估机器学习原子间势(MLIPs)在再现参考势能景观方面的能力。
  • 为针对反应发现和速率预测的下一代MLIPs提供验证测试。
  • 数据增强与路径配置可改善DFT势能面的再现,显著提升全局动力学性能。

基准测试特点

  • 提供直接但要求严格的MLIPs测试,仅需最多几小时的计算时间。
  • 揭示当前MLIPs的局限性:所有考虑的模型均遗漏超过一半的DFT过渡态,并在势能面上生成稳定的非物理结构。
  • 当前MLIP架构在捕捉分子势能面拓扑方面面临基础挑战。

相关资源

  • 论文PDF:http://arxiv.org/pdf/2508.16425v1
  • HTML版本:http://arxiv.org/html/2508.16425v1
  • TeX源码:http://arxiv.org/src/2508.16425v1
  • 其他格式:http://arxiv.org/format/2508.16425v1

附加信息

  • 论文包含30页正文和6幅图表,附录附于正文后。
  • 提供BibTeX引用格式。
搜集汇总
数据集介绍
main_image_url
构建方式
Landscape17数据集通过扩展rMD17基准构建,专注于六种具有多个异构体的有机分子。采用混合泛函密度泛函理论计算完整的动力学跃迁网络,涵盖局部极小点、过渡态及近似最速下降路径。构建过程结合盆地跳跃全局优化和离散路径采样技术,确保对势能面关键区域的系统探索。所有结构均经过严格的梯度收敛验证和Hessian本征谱分析,保证 stationary points 的物理正确性。
使用方法
Landscape17专为评估机器学习势函数在 kinetics 应用中的可靠性设计。用户可通过比较MLIP生成的KTN与参考DFT网络,系统分析模型在 stationary points 重现度、非物理结构生成以及平均首次通过时间预测等方面的表现。数据集支持两种验证模式:精确匹配分析要求MLIP与DFT结构在0.3埃RMSD阈值内对齐;最近邻匹配则评估能量和几何相似性,适用于过渡态识别不足的场景。
背景与挑战
背景概述
Landscape17数据集由剑桥大学与IBM研究院欧洲分部的研究团队于2025年创建,旨在解决分子动力学模拟中机器学习势函数(MLIPs)在动力学性质预测方面的局限性。该数据集扩展了经典的rMD17基准,通过混合密度泛函理论计算了乙醇、丙二醛等六种分子的完整动力学过渡网络(KTNs),包含局部极小点、过渡态及近似最速下降路径的精确能量、力和Hessian谱数据。其核心研究问题聚焦于评估MLIPs在重现全局势能面拓扑结构方面的能力,为反应速率计算和分子动力学模拟提供了关键基准,显著推动了计算化学领域对机器学习势函数可靠性的验证范式转变。
当前挑战
该数据集主要面临两类挑战:在领域问题层面,需解决MLIPs对过渡态预测的系统性偏差(当前模型漏报超半数DFT过渡态)及虚假稳定结构的生成问题,这直接影响了化学反应动力学的准确性;在构建过程中,需克服混合泛函DFT计算超过10^5 CPU小时的高成本挑战,以及通过离散路径采样技术精确识别势能面鞍点时面临的收敛性控制和异构体去重算法复杂性。此外,需确保过渡态连接的极小点路径在拓扑结构上的完整性,避免因采样缺失导致动力学网络断裂。
常用场景
经典使用场景
在分子动力学与计算化学领域,Landscape17数据集通过提供完整的动力学过渡网络(KTNs),为机器学习势函数(MLIPs)的全局能量景观再现能力评估奠定了基准。该数据集涵盖了乙醇、丙二醛、水杨酸等六种分子的所有极小点和过渡态结构,包括能量、力和Hessian特征谱数据,使得研究者能够系统检验MLIPs在临界区域(如鞍点)的预测精度。
解决学术问题
Landscape17解决了当前MLIPs在重现分子动力学关键路径方面的局限性,尤其是过渡态预测不足和虚假稳定结构生成的问题。通过结合混合泛函密度泛函理论计算的参考数据,该数据集为评估势函数拓扑结构的准确性提供了标准,推动了下一代MLIPs在反应发现和速率预测方面的验证框架发展。
实际应用
该数据集在药物设计和材料科学中具有重要应用价值,例如通过精确模拟分子构象变化和反应路径,加速候选药物的筛选过程。实际应用中,Landscape17可用于优化MLIPs在高温或低温条件下的动力学采样,提高化学反应模拟的可靠性,并为实验难以观测的过渡态提供计算支持。
数据集最近研究
最新研究方向
Landscape17数据集作为分子能量景观研究的重要基准,聚焦于评估机器学习势函数(MLIPs)在再现全局动力学特性方面的能力。该数据集通过提供完整的动力学跃迁网络(KTNs),包括极小值、过渡态及近似最速下降路径,为MLIPs在反应速率计算和分子动力学模拟中的可靠性提供了严格测试框架。前沿研究揭示当前MLIPs在过渡态预测方面存在显著局限性,超过半数的DFT过渡态未被准确捕捉,且普遍存在非物理稳定结构。通过路径构型的数据增强策略,虽能改善势能面再现精度并提升全局动力学性能,但模型仍面临拓扑结构捕获的根本性挑战。这一研究方向正推动下一代MLIPs架构的发展,致力于提升其在反应发现和速率预测中的适用性,对计算化学和材料科学领域具有深远影响。
相关研究论文
  • 1
    Global properties of the energy landscape: a testing and training arena for machine learned potentialsXyme,UK; Yusuf Hamied Department of Chemistry,University of Cambridge,UK; IBM Research Europe,Daresbury,UK · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作