Open Catalyst 2020 (OC20) Dataset

arXiv2021-09-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2010.09990v5

下载链接

链接失效反馈

官方服务：

资源简介：

OC20数据集包含1,281,040个密度泛函理论(DFT)松弛计算，涵盖广泛的材料、表面和吸附物（氮、碳和氧化学）。该数据集还补充了随机扰动结构、短时间分子动力学和电子结构分析。数据集包含三个核心任务，反映了日常催化剂建模的需求，并提供了预定义的训练/验证/测试分割，以促进与未来模型开发工作的直接比较。

The OC20 dataset contains 1,281,040 density functional theory (DFT) relaxation calculations, covering a wide range of materials, surfaces, and adsorbates related to nitrogen, carbon, and oxygen chemistries. This dataset is also supplemented with randomly perturbed atomic structures, short-time molecular dynamics simulations, and electronic structure analyses. The dataset includes three core tasks that reflect the practical needs of routine catalyst modeling, and provides pre-defined training/validation/test splits to facilitate direct comparison with future model development efforts.

创建时间：

2020-10-20

搜集汇总

数据集介绍

构建方式

在催化材料科学领域，构建大规模、高质量的计算数据集对于推动机器学习模型的发展至关重要。Open Catalyst 2020 (OC20) 数据集的构建采用了系统化的多阶段流程。首先，从82种与可再生能源应用相关的小分子中随机选择吸附物，涵盖氧/氢、C1、C2及含氮分子。随后，基于Materials Project数据库，从55种元素中随机选择稳定的体材料，并通过枚举米勒指数不大于2的对称性独特表面来构建催化剂表面。初始结构通过CatKit和原子模拟环境（ASE）工具生成，将吸附物随机放置在表面原子上。最后，利用维也纳从头算模拟软件包（VASP）进行密度泛函理论（DFT）弛豫计算，直至原子力收敛于0.03 eV/Å阈值内。整个过程还补充了随机扰动结构、短时标分子动力学模拟以及Bader电荷和LOBSTER电子结构分析，以增强数据的多样性和物理深度。

特点

OC20数据集在催化计算领域展现出若干显著特征。其规模空前宏大，包含超过128万次DFT弛豫计算，涉及约2.65亿个单点能量评估，覆盖了广泛的材料、表面和吸附物化学空间。数据多样性突出，涵盖了55种元素构成的单质、二元和三元材料表面，以及82种吸附物，包括与燃料电池、可持续农业和可再生能源化学相关的关键分子。数据集设计注重任务导向性，专门针对催化建模中的三个核心任务：结构到能量与力的预测（S2EF）、初始结构到弛豫结构的预测（IS2RS）以及初始结构到弛豫能量的预测（IS2RE）。此外，数据集提供了精心划分的训练、验证和测试子集，包括域内分布以及针对未见吸附物、未见催化剂成分或两者兼具的域外分布，以系统评估模型的泛化能力。

使用方法

OC20数据集的使用旨在推动高效催化模拟机器学习模型的发展。研究人员可通过官方提供的开源软件仓库获取数据加载器、训练脚本及基线模型（如CGCNN、SchNet、DimeNet++）。针对S2EF任务，模型以原子位置为输入，直接预测体系的能量和原子受力。对于IS2RS任务，可利用训练好的S2EF模型通过迭代优化（如L-BFGS算法）从初始结构预测弛豫后的原子构型，或探索直接预测弛豫结构的端到端方法。IS2RE任务则可通过直接回归初始结构得到弛豫能量，或结合S2EF与IS2RS进行间接计算。数据集附带的公开排行榜允许研究者在标准测试集上评估模型性能，确保比较的公平性。电子结构分析数据（如Bader电荷）为模型提供了可解释的物理洞察。通过利用这些资源，社区可开发能够加速催化剂发现与优化的下一代计算工具。

背景与挑战

背景概述

在应对全球气候变化与能源短缺的紧迫背景下，可再生能源技术的革新成为关键。催化科学作为提升反应效率、实现燃料合成与化肥生产等过程的核心，其材料发现与优化却长期受制于传统密度泛函理论（DFT）计算的高昂成本与有限规模。为突破这一瓶颈，由Facebook人工智能研究院、卡内基梅隆大学等机构的研究团队于2020年联合创建了Open Catalyst 2020（OC20）数据集。该数据集涵盖了超过128万次DFT弛豫计算，涉及82种吸附物与55种元素构成的催化剂表面，旨在为机器学习模型提供大规模、多样化的训练资源，以加速高效催化剂的虚拟筛选与设计，推动计算催化领域向数据驱动范式转型。

当前挑战

OC20数据集致力于解决催化领域中吸附能预测与结构弛豫的复杂挑战，其核心在于构建能够泛化至未知催化剂组成与吸附物身份的机器学习模型。然而，当前模型在跨域泛化能力上仍显不足，例如在‘域外吸附物’或‘域外催化剂’任务中，预测精度显著下降，表明模型尚未学习到普适的物理表征。在数据集构建过程中，研究团队面临多重挑战：一是计算规模极大，需协调数千次DFT计算并确保数值收敛的一致性；二是化学空间的高度稀疏性，尽管数据量空前，但仅覆盖了可能组合的极小部分；三是初始结构生成的启发性方法可能引入偏差，而弛豫过程中固定次表层原子的简化处理虽提升了计算可行性，却可能与真实催化环境存在差距。

常用场景

经典使用场景

在催化材料科学领域，Open Catalyst 2020 (OC20) 数据集为机器学习模型提供了前所未有的训练与评估平台。该数据集通过涵盖超过120万次密度泛函理论（DFT）弛豫计算，覆盖了广泛的材料表面与吸附物组合，为研究者构建和验证原子尺度模拟模型奠定了坚实基础。其经典应用场景集中于催化剂的吸附能预测、结构弛豫模拟以及力场构建，为高效筛选高性能催化剂提供了关键数据支持。

解决学术问题

OC20数据集有效应对了催化研究中数据稀缺与模型泛化能力不足的核心挑战。传统DFT计算成本高昂，难以大规模探索催化剂组合空间，而该数据集通过系统生成海量吸附结构及其能量与力信息，使得机器学习模型能够学习复杂的表面-吸附物相互作用规律。这显著加速了催化剂活性与选择性的预测进程，并为开发跨元素组成与吸附物类型的通用力场模型提供了可能，推动了计算催化领域向数据驱动范式转型。

衍生相关工作

OC20数据集的发布催生了一系列重要的衍生研究工作，特别是在图神经网络（GNN）架构的优化与应用拓展方面。以CGCNN、SchNet和DimeNet++等基线模型为起点，后续研究提出了如ForceNet、SpinConv等改进模型，以更好地处理周期性边界条件与复杂电子相互作用。此外，该数据集还启发了针对催化剂发现的多任务学习框架、主动学习策略以及结合电子结构特征（如Bader电荷）的混合建模方法，持续推动着原子模拟机器学习前沿的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集