five

Open-Catalyst-Dataset|催化剂研究数据集|材料科学数据集

收藏
github2024-05-23 更新2024-05-31 收录
催化剂研究
材料科学
下载链接:
https://github.com/Open-Catalyst-Project/Open-Catalyst-Dataset
下载链接
链接失效反馈
资源简介:
该仓库托管了Open Catalyst项目中使用的吸附物-催化剂输入生成工作流程。数据集用于生成和分析吸附物-催化剂的配置,支持多种初始化和配置方式,包括随机选择和特定参数设置。

This repository hosts the adsorbate-catalyst input generation workflow used in the Open Catalyst project. The dataset is utilized for generating and analyzing adsorbate-catalyst configurations, supporting various initialization and configuration methods, including random selection and specific parameter settings.
创建时间:
2020-03-05
原始信息汇总

数据集概述

数据集名称

  • Open-Catalyst-Dataset

数据集用途

安装指南

  • 使用conda安装依赖。
  • 创建并激活环境:conda create -n ocp python=3.9conda activate ocp
  • 安装特定版本的Pymatgen和ASE:pip install pymatgen==2023.5.10 ase==3.22.1
  • 克隆仓库并安装:pip install -e .

工作流程

  • 初始化:通过提供原子对象、bulk_id、数据库索引或随机选择初始化基底。
  • 初始化吸附质:通过提供原子对象、SMILES字符串、数据库索引或随机选择初始化吸附质。
  • 生成板层:使用pymatgen.core.surface.SlabGenerator生成板层。
  • 吸附质放置:通过识别板层上的结合位点并定向吸附质,然后放置吸附质。支持heuristicrandomrandom_site_heuristic_placement模式。

使用示例

  • 示例展示了如何使用ocdata工作流程将CO放置在Cu(1,1,1)上。

结构生成器API

  • 提供StructureGenerator类,用于创建bulk/slab/adsorbate对象,并生成VASP输入文件和元数据。

数据库

  • 基底数据库:位于ocdata/databases/pkls/bulks.pkl
  • 吸附质数据库:位于ocdata/databases/pkls/adsorbates.pkl

许可证

  • 数据集ocdata根据MIT许可证发布。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Open-Catalyst-Dataset时,研究团队采用了多步骤的生成流程,以确保数据集的多样性和准确性。首先,通过提供原子对象、数据库中的标识符或随机选择的方式初始化催化剂和吸附物。随后,利用`pymatgen.core.surface.SlabGenerator`生成不同米勒指数的表面,并在这些表面上放置吸附物。这一过程包括识别吸附位点和调整吸附物的方向,采用启发式、随机和混合模式进行优化,确保吸附物在表面上的合理分布。
特点
Open-Catalyst-Dataset的显著特点在于其高度定制化的生成流程,能够灵活处理不同类型的催化剂和吸附物。数据集不仅涵盖了从已知数据库中提取的材料,还支持用户自定义的材料输入。此外,通过多种放置模式(如启发式、随机和混合模式),数据集能够模拟真实催化反应中的复杂情况,为研究者提供丰富的实验数据。
使用方法
使用Open-Catalyst-Dataset时,用户可以通过Python脚本或命令行接口进行操作。首先,用户需安装必要的依赖包,并通过提供的API初始化催化剂和吸附物。随后,可以选择特定的米勒指数生成表面,并根据需求选择不同的吸附物放置模式。最终,生成的数据可以用于VASP等计算软件的输入文件,或直接用于机器学习模型的训练和验证。
背景与挑战
背景概述
Open-Catalyst-Dataset(OCD)是由Open Catalyst Project团队开发的一个专注于催化剂材料研究的数据集。该数据集的核心研究问题在于通过模拟和分析吸附物与催化剂之间的相互作用,以优化催化过程的效率。OCD的创建旨在为化学和材料科学领域的研究人员提供一个全面的工具,以加速新型催化剂的设计和开发。该数据集的构建基于Materials Project等现有数据库,并通过一致的RPBE设置进行材料松弛。OCD的发布标志着催化剂研究领域的一个重要里程碑,为全球科研人员提供了一个共享和协作的平台。
当前挑战
Open-Catalyst-Dataset在构建过程中面临了多个挑战。首先,数据集需要整合来自不同数据库的材料信息,确保数据的一致性和准确性。其次,生成吸附物-催化剂输入配置的过程复杂,涉及多个步骤,包括初始化材料、枚举表面、放置吸附物等,每一步都需要精确的算法支持。此外,数据集的规模和多样性要求高效的计算资源和优化的算法设计。最后,为了确保数据集的广泛适用性,研究人员需要不断更新和扩展数据库,以涵盖更多类型的材料和吸附物。这些挑战共同推动了数据集的持续改进和优化。
常用场景
经典使用场景
在催化剂研究领域,Open-Catalyst-Dataset(OCD)数据集的经典使用场景主要集中在吸附物与催化剂表面的相互作用模拟。通过该数据集,研究人员能够生成吸附物在不同催化剂表面上的配置,从而深入研究催化反应的机理和优化催化剂设计。例如,通过指定特定的吸附物和催化剂,研究人员可以模拟CO在Cu(1,1,1)表面上的吸附行为,进而分析其对反应速率和选择性的影响。
解决学术问题
Open-Catalyst-Dataset在学术研究中解决了催化剂设计与优化中的关键问题。它通过提供大量的吸附物-催化剂配置,使得研究人员能够系统地探索不同材料组合的催化性能,从而加速新型高效催化剂的发现。此外,该数据集还支持多尺度模拟,从原子级别到宏观反应条件,为理解复杂催化过程提供了坚实的基础。
衍生相关工作
Open-Catalyst-Dataset的发布催生了多项相关研究工作,特别是在机器学习和数据驱动的催化剂设计领域。例如,基于该数据集,研究人员开发了多种预测模型,用于快速筛选潜在的高效催化剂。此外,该数据集还促进了多学科交叉研究,如结合量子化学计算和机器学习方法,以提高催化剂设计的精度和效率。这些衍生工作不仅扩展了数据集的应用范围,也为催化科学的发展提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录