Open-Catalyst-Dataset

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/Open-Catalyst-Project/Open-Catalyst-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库托管了Open Catalyst项目中使用的吸附物-催化剂输入生成工作流程。数据集用于生成和分析吸附物-催化剂的配置，支持多种初始化和配置方式，包括随机选择和特定参数设置。

This repository hosts the adsorbate-catalyst input generation workflow used in the Open Catalyst project. The dataset is utilized for generating and analyzing adsorbate-catalyst configurations, supporting various initialization and configuration methods, including random selection and specific parameter settings.

创建时间：

2020-03-05

原始信息汇总

数据集概述

数据集名称

Open-Catalyst-Dataset

数据集用途

该数据集用于存储Open Catalyst Project中的吸附质-催化剂输入生成工作流程。

安装指南

使用conda安装依赖。
创建并激活环境：conda create -n ocp python=3.9 和 conda activate ocp。
安装特定版本的Pymatgen和ASE：pip install pymatgen==2023.5.10 ase==3.22.1。
克隆仓库并安装：pip install -e .。

工作流程

初始化：通过提供原子对象、bulk_id、数据库索引或随机选择初始化基底。
初始化吸附质：通过提供原子对象、SMILES字符串、数据库索引或随机选择初始化吸附质。
生成板层：使用pymatgen.core.surface.SlabGenerator生成板层。
吸附质放置：通过识别板层上的结合位点并定向吸附质，然后放置吸附质。支持heuristic、random和random_site_heuristic_placement模式。

使用示例

示例展示了如何使用ocdata工作流程将CO放置在Cu(1,1,1)上。

结构生成器API

提供StructureGenerator类，用于创建bulk/slab/adsorbate对象，并生成VASP输入文件和元数据。

数据库

基底数据库：位于ocdata/databases/pkls/bulks.pkl。
吸附质数据库：位于ocdata/databases/pkls/adsorbates.pkl。

许可证

数据集ocdata根据MIT许可证发布。

搜集汇总

数据集介绍

构建方式

在构建Open-Catalyst-Dataset时，研究团队采用了多步骤的生成流程，以确保数据集的多样性和准确性。首先，通过提供原子对象、数据库中的标识符或随机选择的方式初始化催化剂和吸附物。随后，利用`pymatgen.core.surface.SlabGenerator`生成不同米勒指数的表面，并在这些表面上放置吸附物。这一过程包括识别吸附位点和调整吸附物的方向，采用启发式、随机和混合模式进行优化，确保吸附物在表面上的合理分布。

特点

Open-Catalyst-Dataset的显著特点在于其高度定制化的生成流程，能够灵活处理不同类型的催化剂和吸附物。数据集不仅涵盖了从已知数据库中提取的材料，还支持用户自定义的材料输入。此外，通过多种放置模式（如启发式、随机和混合模式），数据集能够模拟真实催化反应中的复杂情况，为研究者提供丰富的实验数据。

使用方法

使用Open-Catalyst-Dataset时，用户可以通过Python脚本或命令行接口进行操作。首先，用户需安装必要的依赖包，并通过提供的API初始化催化剂和吸附物。随后，可以选择特定的米勒指数生成表面，并根据需求选择不同的吸附物放置模式。最终，生成的数据可以用于VASP等计算软件的输入文件，或直接用于机器学习模型的训练和验证。

背景与挑战

背景概述

Open-Catalyst-Dataset（OCD）是由Open Catalyst Project团队开发的一个专注于催化剂材料研究的数据集。该数据集的核心研究问题在于通过模拟和分析吸附物与催化剂之间的相互作用，以优化催化过程的效率。OCD的创建旨在为化学和材料科学领域的研究人员提供一个全面的工具，以加速新型催化剂的设计和开发。该数据集的构建基于Materials Project等现有数据库，并通过一致的RPBE设置进行材料松弛。OCD的发布标志着催化剂研究领域的一个重要里程碑，为全球科研人员提供了一个共享和协作的平台。

当前挑战

Open-Catalyst-Dataset在构建过程中面临了多个挑战。首先，数据集需要整合来自不同数据库的材料信息，确保数据的一致性和准确性。其次，生成吸附物-催化剂输入配置的过程复杂，涉及多个步骤，包括初始化材料、枚举表面、放置吸附物等，每一步都需要精确的算法支持。此外，数据集的规模和多样性要求高效的计算资源和优化的算法设计。最后，为了确保数据集的广泛适用性，研究人员需要不断更新和扩展数据库，以涵盖更多类型的材料和吸附物。这些挑战共同推动了数据集的持续改进和优化。

常用场景

经典使用场景

在催化剂研究领域，Open-Catalyst-Dataset（OCD）数据集的经典使用场景主要集中在吸附物与催化剂表面的相互作用模拟。通过该数据集，研究人员能够生成吸附物在不同催化剂表面上的配置，从而深入研究催化反应的机理和优化催化剂设计。例如，通过指定特定的吸附物和催化剂，研究人员可以模拟CO在Cu(1,1,1)表面上的吸附行为，进而分析其对反应速率和选择性的影响。

解决学术问题

Open-Catalyst-Dataset在学术研究中解决了催化剂设计与优化中的关键问题。它通过提供大量的吸附物-催化剂配置，使得研究人员能够系统地探索不同材料组合的催化性能，从而加速新型高效催化剂的发现。此外，该数据集还支持多尺度模拟，从原子级别到宏观反应条件，为理解复杂催化过程提供了坚实的基础。

衍生相关工作

Open-Catalyst-Dataset的发布催生了多项相关研究工作，特别是在机器学习和数据驱动的催化剂设计领域。例如，基于该数据集，研究人员开发了多种预测模型，用于快速筛选潜在的高效催化剂。此外，该数据集还促进了多学科交叉研究，如结合量子化学计算和机器学习方法，以提高催化剂设计的精度和效率。这些衍生工作不仅扩展了数据集的应用范围，也为催化科学的发展提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集