UnconvBench
收藏arXiv2024-07-23 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.16131v1
下载链接
链接失效反馈官方服务:
资源简介:
UnconvBench是由香港城市大学化学系等机构创建的一个综合数据集,旨在评估模型在非传统晶体材料上的预测性能。该数据集包含11个子数据集,涵盖了2D晶体、金属有机框架(MOF)、缺陷晶体等多种非传统晶体材料。数据集的创建过程涉及从Materials Project和JARVIS等数据库收集原始数据,并通过精心设计的数据处理步骤生成。UnconvBench主要应用于材料科学领域,特别是用于预测和发现新型非传统晶体材料的物理和化学性质。
UnconvBench is a comprehensive dataset developed by the Department of Chemistry at City University of Hong Kong and other institutions, aiming to evaluate the predictive performance of models on unconventional crystalline materials. This dataset includes 11 sub-datasets, covering a variety of unconventional crystalline materials such as 2D crystals, metal-organic frameworks (MOFs), defective crystals and others. The creation of UnconvBench involves collecting raw data from databases including Materials Project and JARVIS, and generating the final dataset through meticulously designed data processing procedures. UnconvBench is mainly applied in the field of materials science, particularly for predicting and discovering the physical and chemical properties of novel unconventional crystalline materials.
提供机构:
香港城市大学化学系,中国人民大学数学学院,香港科技大学(广州)数据科学与分析领域,广西中医药大学药学院,字节跳动公司,香港理工大学应用生物与化学技术系
创建时间:
2024-07-23
搜集汇总
数据集介绍

构建方式
UnconvBench数据集的构建基于晶体结构的图表示,包括原子作为节点和键作为边。通过k最近邻方法识别节点之间的边,并使用球坐标表示节点位置的变化来计算边特征。此外,还构建了线图来显式地模拟晶体中的连通性和三体相互作用。为了捕捉长程相互作用,引入了基于拉普拉斯算子和随机游走过程的原子位置编码。CrysToGraph模型由边缘参与的Transformer图卷积块和图级Transformer块组成,分别用于模拟短程和长程相互作用。模型输入为直接图和线图,输出为晶体的特定属性。
特点
UnconvBench数据集的特点在于其多样性,涵盖了各种非常规晶体材料,包括二维晶体、金属有机框架和缺陷晶体。数据集包含11个数据集,用于评估模型在预测非常规晶体材料属性方面的性能。CrysToGraph模型在多个任务中表现出色,并在非常规晶体和传统晶体数据集上取得了最先进的成果。
使用方法
UnconvBench数据集可用于评估和比较机器学习模型在预测非常规晶体材料属性方面的性能。使用CrysToGraph模型,可以有效地捕捉晶体中的短程和长程相互作用,并预测晶体的特定属性。模型使用直接图和线图作为输入,并通过边缘参与的Transformer图卷积块和图级Transformer块进行特征更新。最终,使用前馈神经网络进行属性预测。用户可以通过调整模型结构和超参数来优化模型的性能。
背景与挑战
背景概述
在材料科学领域,对晶体物理和化学性质进行准确的预测至关重要,尤其是在低维材料、金属有机框架和缺陷晶体等非常规晶体材料方面。这些材料因其独特的晶格结构或异常的物理性质而具有特殊的研究价值。然而,现有的图神经网络(GNN)模型在捕捉晶体的长程有序性方面存在局限性,因为它们通常专注于局部环境,而难以有效捕捉更远距离的相互作用。为了解决这个问题,王宏毅等人提出了CrysToGraph,这是一种基于变压器的几何图网络,专门设计用于非常规晶体系统。同时,他们还创建了UnconvBench,这是一个全面的基准,用于评估模型在非常规晶体材料上的预测性能。CrysToGraph通过结合基于变压器的图卷积块和图级变压块,有效地捕捉了短程和长程相互作用,并在多个任务中证明了其有效性。
当前挑战
UnconvBench数据集和相关研究面临的主要挑战包括:1) 如何有效捕捉非常规晶体材料中的长程有序性,特别是在大尺寸晶体和缺陷晶体中;2) 如何构建一个全面的基准,以评估模型在多种非常规晶体材料上的预测性能。此外,还有其他一些挑战,例如如何有效地更新节点和边缘特征,以及如何处理不同尺寸和维度的晶体。
常用场景
经典使用场景
UnconvBench数据集在材料科学领域被广泛使用,特别是对于预测非常规晶体材料的物理和化学性质。它包含了多种类型的非常规晶体材料,包括二维晶体、金属有机框架和缺陷晶体。UnconvBench数据集的设计旨在评估模型对非常规晶体材料的预测性能,并为材料科学的研究提供有力的支持。
解决学术问题
UnconvBench数据集解决了材料科学中一个非常关键的问题,即如何准确预测非常规晶体材料的物理和化学性质。传统的晶体材料预测方法主要关注局部环境,而UnconvBench数据集则通过引入长程有序的概念,有效地捕捉了晶体中的长程相互作用,从而提高了预测的准确性。此外,UnconvBench数据集还包含了多种类型的非常规晶体材料,为材料科学的研究提供了更加全面的数据支持。
衍生相关工作
UnconvBench数据集的提出,推动了材料科学领域机器学习模型的发展。基于UnconvBench数据集,研究人员提出了许多新的模型,如CrysToGraph、eTGC和GwT等,这些模型在预测非常规晶体材料的性质方面取得了显著的成果。此外,UnconvBench数据集还为材料科学的研究提供了更加全面的数据支持,从而推动了材料科学领域的研究进展。
以上内容由遇见数据集搜集并总结生成



