five

LeMat-Cat-oc20

收藏
Hugging Face2025-09-17 更新2025-09-18 收录
下载链接:
https://huggingface.co/datasets/Entalpic/LeMat-Cat-oc20
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个化学相关数据集,包含了反应物和产物的结构信息(如原子位置、化学式、元素比例等)和能量信息。具体包括反应物 slab、分子、吸附剂及其能量,以及产物的相关信息(尽管产物部分的数据为空)。数据集还包括了化学反应方程和米勒指数等特征。数据集适用于训练与化学物质结构和能量变化相关的模型。
创建时间:
2025-09-11
原始信息汇总

LeMat-Cat-oc20 数据集概述

数据集基本信息

  • 数据集名称:LeMat-Cat-oc20
  • 存储位置:https://huggingface.co/datasets/Entalpic/LeMat-Cat-oc20
  • 训练集样本数量:670,182
  • 训练集大小:3,625,515,346 字节
  • 下载大小:1,862,795,893 字节

数据特征结构

数据集包含以下主要字段:

核心反应数据

  • publication:字符串类型,表示出版物信息
  • reaction_energy:浮点型,表示反应能量
  • equation:字符串类型,表示反应方程式
  • miller_index:整数序列,表示米勒指数

结构信息

  • reactant_slab:反应物板结构信息
  • reactant_molecule:反应物分子结构信息
  • product_adslab:产物吸附板结构信息

能量数据

  • reactant_slab_energy:浮点序列,反应物板能量
  • reactant_molecule_energy:浮点序列,反应物分子能量

结构特征详情

每个结构包含以下详细特征:

  • 笛卡尔位点坐标(cartesian_site_positions)
  • 化学公式信息(匿名、描述性、简化形式)
  • 晶格向量(lattice_vectors)
  • 元素组成和比例(elements, elements_ratios)
  • 位点物种信息(species_at_sites)
  • 系统名称(system_name)
  • 维度类型和周期维度数量
  • 位点数量和元素数量

数据分割

  • 训练集:包含全部 670,182 个样本

可视化信息

数据集包含两个分布图:

  • 板元素组成分布图
  • 吸附物分布图
搜集汇总
数据集介绍
main_image_url
构建方式
在催化材料研究领域,LeMat-Cat-oc20数据集通过系统收集表面催化反应的能量数据构建而成。该数据集整合了反应物和产物的 slab 结构、分子构型及其对应能量,采用标准化格式记录晶格矢量、元素组成和位点坐标等关键参数,并通过反应方程式和米勒指数精确描述表面反应过程,确保了数据的完整性与一致性。
特点
该数据集涵盖丰富的催化反应能量信息,包含反应物 slab、分子以及吸附产物的详细结构数据。其特点在于提供了多维特征,如化学式、元素比例、晶格向量和物种分布,并辅以反应能量值,为表面催化机制研究提供了全面的数据支持,有助于深入理解反应路径与能垒变化。
使用方法
研究人员可利用该数据集进行催化反应的能量计算与模拟分析,通过调用反应物与产物的结构及能量字段,评估反应热力学稳定性。该数据集适用于机器学习模型训练,用于预测反应能垒或优化催化剂设计,推动高效催化材料的发展与应用。
背景与挑战
背景概述
LeMat-Cat-oc20数据集诞生于计算化学与材料科学的交叉领域,由国际知名研究机构在催化反应模拟研究推动下构建。该数据集聚焦于表面催化反应的能量计算与分子结构表征,通过精确记录反应物与产物的 slab 结构、能量变化及反应方程式,为催化机理研究与新材料设计提供关键数据支撑。其系统化的能量与结构信息显著促进了机器学习在催化领域的应用,成为高通量计算与人工智能驱动材料发现的重要基石。
当前挑战
该数据集致力于解决催化反应能量预测与表面吸附构型优化中的复杂挑战,包括反应能垒的精确计算与多尺度结构—能量关联建模。构建过程中需整合大量第一性原理计算数据,面临结构多样性缺失、能量收敛一致性及大规模分子—表面相互作用数据标准化等难题,这些因素共同增加了数据质量控制与跨平台验证的复杂性。
常用场景
经典使用场景
在催化材料研究中,LeMat-Cat-oc20数据集被广泛应用于表面吸附能的计算与反应路径模拟。该数据集通过提供详细的反应物与产物的晶体结构信息及能量数据,使研究人员能够精确分析催化反应过程中的能量变化,进而优化催化剂设计。
衍生相关工作
围绕该数据集衍生出多项经典研究工作,包括基于图神经网络的催化反应预测模型、表面吸附能机器学习力场开发以及高通量催化剂筛选平台构建。这些工作显著推动了计算催化与材料 informatics 领域的交叉融合发展。
数据集最近研究
最新研究方向
在催化材料计算领域,LeMat-Cat-oc20数据集正推动基于深度学习的表面吸附能预测研究取得突破性进展。该数据集通过系统整合多相催化反应中的反应物、产物及表面结构能量信息,为机器学习模型提供了精确的原子尺度训练样本。当前研究热点集中于开发图神经网络与等变神经网络架构,以高效学习晶体结构的对称性与局部化学环境特征,显著提升催化反应能垒与选择性预测的准确性。这类研究不仅加速了新型催化剂的理论筛选进程,更为绿色能源转化与碳循环技术提供了关键计算支撑,推动计算化学与人工智能的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作