five

Guarateed Non Local Cumulene Dataset

收藏
github2024-03-14 更新2024-05-31 收录
下载链接:
https://github.com/LarsSchaaf/Guaranteed-Non-Local-Molecular-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在为机器学习力场提供全面的挑战,专注于从3D分子结构回归能量和力的任务。数据集包含的累积烯由于其电子结构而表现出非局部效应,这对传统的机器学习力场构成了挑战,包括基于注意力和消息传递的神经网络。

This dataset is designed to provide a comprehensive challenge for machine learning force fields, focusing on the task of regressing energies and forces from 3D molecular structures. The dataset includes cumulative alkenes, which exhibit non-local effects due to their electronic structures, posing a challenge to traditional machine learning force fields, including attention-based and message-passing neural networks.
创建时间:
2024-03-14
原始信息汇总

数据集概述

名称: Guaranteed Non Local Cumulene Dataset

目的: 该数据集旨在为机器学习力场提供一个全面的挑战,专注于从3D分子结构回归能量和力的任务。

特点:

  • 数据集包含的cumulenes由于其电子结构,表现出非局部效应,这对传统机器学习力场构成挑战。
  • 数据集与Matrix Function Network论文一同发布,该论文介绍了一种新型架构,旨在捕捉非局部效应。

数据集内容

训练集:

  • 包含几何优化的cumulenes,碳原子数为3-10及13, 14。
  • 经过摇动和旋转处理,角度各异。

测试集:

  • 包含与训练集相似处理的cumulenes,碳原子数相同(域内)。
  • 包含未见过的长度cumulenes(域外,碳原子数为11,12和15,16)。

数据格式

数据以扩展的xyz文件格式存储,包含位置、化学元素、力和能量信息。

使用方法

建议使用Atomic Simulation Environment包读取数据,该包可通过pip安装。

引用信息

使用本数据集时,请引用以下论文:

@inproceedings{batatia2023equivariant, title={Equivariant Matrix Function Neural Networks}, author={Batatia, Ilyes and Schaaf, Lars L and Chen, Huajie and Cs{a}nyi, G{a}bor and Ortner, Christoph and Faber, Felix A}, booktitle={International Conference on Learning Representations (ICLR) 2024}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
Guaranteed Non Local Cumulene Dataset(GNL数据集)的构建旨在为机器学习力场提供一个全面的挑战,专注于从三维分子结构中回归能量和力的任务。该数据集由累积烯烃组成,由于其电子结构表现出非局部效应,这对包括基于注意力和消息传递神经网络在内的传统机器学习力场构成了挑战。训练集包含经过几何优化的3至10、13和14个碳原子的累积烯烃,随后在不同角度下进行抖动和旋转。测试集则包含以类似方式创建的相同碳原子数的累积烯烃(域内)以及数据集中未见的长度(域外11、12和15、16个碳原子)。
特点
GNL数据集的特点在于其专注于累积烯烃的非局部效应,这些分子由于强电子离域性而表现出显著的非局部行为。数据集中的累积烯烃由双键连接的碳原子链组成,两端各有两个氢原子。链长度和末端氢原子相对角度的微小变化会导致系统能量的显著变化,这为评估模型的非局部性提供了直接可观测的挑战。数据集的设计使得即使在局部模型(如MACE)的接收场之外,也能观察到其局限性,从而为研究非局部效应提供了理想的测试平台。
使用方法
GNL数据集以扩展的`xyz`文件格式存储,包含位置、化学元素、力和能量等信息。用户可以使用`Atomic Simulation Environment`包读取这些文件,该包可通过pip安装。数据集的使用方法包括读取`xyz`文件并提取相关信息,以便进行机器学习模型的训练和评估。使用该数据集时,请引用原始论文,以确保学术规范的遵守。
背景与挑战
背景概述
Guarateed Non Local Cumulene Dataset(GNL数据集)由Ilyes Batatia等研究人员于2023年发布,旨在为机器学习力场提供全面的挑战。该数据集聚焦于从三维分子结构中回归能量和力的任务,特别关注累积烯分子。累积烯因其电子结构表现出非局域效应,这对传统的机器学习力场(包括基于注意力机制和消息传递的神经网络)提出了挑战。该数据集与《Equivariant Matrix Function Neural Networks》论文一同发布,该论文提出了一种新颖的架构,旨在捕捉非局域效应。GNL数据集的发布为分子动力学和量子化学领域的研究提供了重要的基准,推动了非局域效应建模的发展。
当前挑战
GNL数据集的核心挑战在于如何准确捕捉累积烯分子中的非局域效应。传统的局部模型在处理这类分子时往往表现出意外的准确性,这使得评估模型的非局域性变得复杂。累积烯分子中的强电子离域性导致其能量和力对分子结构的微小变化极为敏感,这对模型的泛化能力提出了严峻考验。此外,数据集的构建过程中,研究人员需要精确控制累积烯分子的链长和终止氢原子的相对角度,以确保数据的多样性和代表性。这些挑战不仅体现在模型的训练和评估上,也反映在数据生成和处理的复杂性中。
常用场景
经典使用场景
在机器学习力场的研究中,Guarateed Non Local Cumulene Dataset(GNL数据集)被广泛用于回归三维分子结构的能量和力。该数据集特别关注累积烯分子,由于其电子结构表现出非局部效应,为传统的机器学习力场模型提供了挑战。通过该数据集,研究者能够评估和优化模型在处理非局部效应时的性能。
解决学术问题
GNL数据集解决了机器学习力场在处理非局部效应时的局限性问题。累积烯分子的强电子离域性导致其能量和力对分子结构的微小变化极为敏感,传统局部模型难以准确捕捉这些变化。该数据集通过提供包含不同长度和角度的累积烯分子,帮助研究者开发能够有效处理非局部效应的新型模型,如等变矩阵函数神经网络。
衍生相关工作
GNL数据集的发布推动了等变矩阵函数神经网络等新型架构的发展。这些架构专门设计用于捕捉非局部效应,并在处理累积烯分子时表现出色。此外,该数据集还激发了更多关于非局部效应建模的研究,促进了机器学习力场领域的创新和进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作