five

LeMat-Cat-OC20

收藏
Hugging Face2025-09-09 更新2025-09-10 收录
下载链接:
https://huggingface.co/datasets/Entalpic/LeMat-Cat-OC20
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含化学反应相关结构信息和能量信息的数据库,包括反应物和产物的slab和分子结构,以及相关的能量数据。
创建时间:
2025-09-01
原始信息汇总

LeMat-Cat-OC20 数据集概述

数据集基本信息

  • 数据集名称:LeMat-Cat-OC20
  • 数据来源:https://huggingface.co/datasets/Entalpic/LeMat-Cat-OC20
  • 总样本数:770,010
  • 训练集划分:770,010 个样本
  • 数据集大小:5,046,169,182 字节
  • 下载大小:1,987,134,183 字节

数据结构与特征

数据集包含以下主要字段:

反应物信息

  • 反应物表面结构 (reactant_slab):包含晶体结构信息,如晶格矢量、元素组成、位点坐标等
  • 反应物分子结构 (reactant_molecule):包含分子结构信息,如化学式、元素组成、位点坐标等
  • 反应物表面能量 (reactant_slab_energy):浮点数序列
  • 反应物分子能量 (reactant_molecule_energy):空值序列

产物信息

  • 产物吸附表面结构 (product_adslab):包含完整的表面吸附结构信息
  • 产物吸附表面能量 (product_adslab_energy):浮点数序列
  • 产物表面结构 (product_slab):空值序列
  • 产物表面能量 (product_slab_energy):空值序列
  • 产物分子结构 (product_molecule):空值序列
  • 产物分子能量 (product_molecule_energy):空值序列

其他结构信息

  • 其他结构 (other_structure):空值序列
  • 其他结构能量 (other_structure_energy):空值序列
  • 反应物其他结构 (reactant_other):空值序列
  • 反应物其他结构能量 (reactant_other_energy):空值序列
  • 产物其他结构 (product_other):空值序列
  • 产物其他结构能量 (product_other_energy):空值序列

反应信息

  • 反应方程式 (equation):字符串类型
  • 反应能量 (reaction_energy):空值
  • 米勒指数 (miller_index):整数序列
  • 位点信息 (sites):包含位移、位点坐标和顶部标识的结构体

元数据

  • 出版物信息 (publication):字符串类型
  • 唯一标识符 (immutable_id):字符串类型

数据格式说明

所有结构数据均采用统一的原子结构表示格式,包含:

  • 笛卡尔坐标位置
  • 化学式(匿名、描述性、简化形式)
  • 元素组成和比例
  • 晶格矢量
  • 维度类型
  • 位点数量和元素种类
  • 物种信息(化学符号、浓度、名称等)
搜集汇总
数据集介绍
main_image_url
构建方式
在催化材料研究领域,LeMat-Cat-OC20数据集通过系统整合来自科学文献的催化反应数据构建而成。其核心方法涉及收集并规范化大量表面催化反应的能量和结构信息,包括反应物与产物的 slab 结构、分子构型及吸附态能量数据。每个样本均标注了详细的晶体学参数、化学组成及反应方程式,并采用标准化格式存储以确保数据的一致性与可重用性。
使用方法
研究人员可通过加载该数据集的标准化格式文件,直接访问反应能量、结构坐标及化学配方等关键字段。典型应用包括训练神经网络模型以预测催化反应能垒,或结合第一性原理计算验证理论假设。数据已划分为训练集,支持批量读取与并行处理,适用于催化材料设计、反应路径优化及高通量计算等场景。
背景与挑战
背景概述
LeMat-Cat-OC20数据集诞生于计算催化研究蓬勃发展的时代,由材料科学与人工智能交叉领域的研究团队构建,旨在推动表面催化反应机制的精确模拟与预测。该数据集聚焦于异相催化过程中分子在晶体表面的吸附与反应能垒计算,通过系统整合反应物、产物及过渡态的结构与能量信息,为机器学习模型提供高质量的训练资源。其核心研究问题在于解决传统密度泛函理论计算的高成本瓶颈,通过大规模数据驱动方法加速催化剂设计与筛选进程,对计算化学与材料 informatics 领域产生深远影响。
当前挑战
该数据集致力于攻克表面催化反应能垒预测的复杂性挑战,包括反应路径的多重性、吸附构型的异构化以及电子结构计算的收敛性问题。在构建过程中,面临晶体表面模型的可扩展性约束,需平衡计算精度与体系规模;同时需处理跨尺度数据的一致性整合,确保反应物、产物及中间态能量的物理合理性。此外,非平衡态反应坐标的定义与标准化,以及大规模并行计算中的数值稳定性控制,均是数据生成阶段亟待解决的技术难题。
常用场景
经典使用场景
在催化材料研究领域,LeMat-Cat-OC20数据集被广泛应用于表面催化反应的能量计算与机理分析。该数据集通过提供反应物、产物及吸附态的精确结构信息与能量数据,为研究人员构建催化反应能量剖面提供了关键支撑。其典型应用场景包括催化剂的活性位点识别、反应路径优化以及过渡态能量预测,这些工作对于理解多相催化过程中的表面相互作用机制具有重要价值。
解决学术问题
该数据集有效解决了催化研究中反应能量数据稀缺与标准化不足的学术难题。通过系统收录超过77万个催化反应样本,它为标准化的催化剂性能评估提供了数据基础,显著促进了催化反应热力学与动力学研究的可比性与可重复性。这一资源使得研究人员能够更准确地预测催化剂的活性与选择性,推动了基于数据的催化剂设计范式的建立。
实际应用
在实际工业催化领域,LeMat-Cat-OC20数据集为新型催化剂开发提供了重要的数据支撑。其包含的丰富表面反应能量数据可用于优化工业催化过程,如合成氨、燃料电池中的氧还原反应以及废气处理中的催化转化等。通过机器学习模型与数据集结合,能够加速高性能催化材料的筛选与设计,降低实验成本并提高研发效率。
数据集最近研究
最新研究方向
在催化材料科学领域,LeMat-Cat-OC20数据集正推动表面反应机理与能垒计算的深度学习建模研究。当前前沿聚焦于结合图神经网络与密度泛函理论,预测分子在催化剂表面的吸附构型及反应路径。随着绿色能源技术对高效催化剂需求的增长,该数据集为探索二氧化碳还原、氮气固定等关键反应提供了高精度计算基础,显著加速了新型催化材料的设计与优化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作