five

Open Catalyst 2025 (OC25)

收藏
arXiv2025-09-22 更新2025-09-24 收录
下载链接:
https://huggingface.co/facebook/OC25
下载链接
链接失效反馈
官方服务:
资源简介:
Open Catalyst 2025 (OC25) 数据集由 Meta FAIR 构建,是目前最大的固液界面数据集,包含 7801261 个计算,覆盖 1511270 个独特的显式溶剂环境。数据集涵盖了 88 种元素、常用的溶剂/离子、不同的溶剂层和非平衡采样。OC25 数据集旨在促进固液界面催化转化的长尺度和大时间尺度模拟,推动对功能界面的分子级见解,并促进下一代储能和转换技术的发现。

Open Catalyst 2025 (OC25) dataset, developed by Meta FAIR, is currently the largest solid-liquid interface dataset to date. It contains 7,801,261 calculations, covering 1,511,270 unique explicit solvent environments. The dataset encompasses 88 elements, common solvents and ions, diverse solvent layers, and non-equilibrium sampling. The OC25 dataset aims to facilitate long-scale and large-timescale simulations of solid-liquid interface catalytic transformations, advance molecular-level insights into functional interfaces, and promote the discovery of next-generation energy storage and conversion technologies.
提供机构:
FAIR at Meta
创建时间:
2025-09-22
搜集汇总
数据集介绍
main_image_url
构建方式
在固液界面催化研究领域,OC25数据集的构建采用了多阶段生成流程。该流程始于从材料计划数据库中随机选取39,821种体相材料,通过枚举米勒指数≤3的对称性独特表面并选择随机表面进行构建。随后在表面随机放置1-5个吸附物,这些吸附物源自OC20的吸附物集合,并扩展至包含反应中间体。固液界面的构建通过随机选择八种常用溶剂和九种阴阳离子组合完成,利用Packmol工具将溶剂分子随机堆积在吸附物-表面结构上方。最终通过密度泛函理论进行弛豫或从头算分子动力学计算,所有计算均采用RPBE泛函并辅以D3校正,平面波截断能设置为400eV,以确保计算精度与效率的平衡。
使用方法
该数据集为固液界面催化研究提供了系统的应用框架。研究人员可通过公开的代码库获取数据生成和模型训练的全套工具,利用训练集进行机器学习势函数的开发。验证集和测试集采用更严格的收敛标准确保评估准确性,同时设置了多种分布外划分来检验模型的泛化能力。特别设计的溶剂化能计算模块支持研究溶剂对吸附能的影响,通过比较真空和溶剂化环境下的能量差来评估溶剂效应。数据集还提供了力收敛分析工具,帮助用户理解训练数据质量对模型性能的影响,为长时空尺度模拟固液界面催化过程奠定基础。
背景与挑战
背景概述
固体-液体界面催化在能源存储和可持续化学生产技术发展中占据核心地位。由Meta FAIR等机构于2025年联合推出的Open Catalyst 2025(OC25)数据集,旨在填补先前OC20/OC22数据集在固气界面模拟中的局限性,首次系统性地引入显式溶剂和电解质环境。该数据集包含1,511,270个独特的显式溶剂环境下的7,801,261个密度泛函理论计算,覆盖88种元素、多种常用溶剂/离子及非平衡采样配置,成为当前规模最大、化学多样性最丰富的固液界面数据集。OC25的建立为机器学习势函数在电催化、电池等领域的应用提供了关键数据支撑,推动了分子尺度界面模拟向真实反应环境的跨越。
当前挑战
OC25数据集致力于解决固液界面催化中溶剂与电解质效应的量化难题,其核心挑战在于准确捕捉界面处长程电荷相互作用、溶剂化能变化及双电层结构动态演化。构建过程中面临多重技术瓶颈:首先,显式溶剂模型的引入使体系原子数激增(平均144原子),显著增加计算成本;其次,高温分子动力学采样虽提升结构多样性,却导致力分布偏离平衡态,对力标签一致性提出更高要求;此外,自洽场收敛阈值(EDIFF=10⁻⁴ eV)与力漂移校正的平衡需精细调控,以确保训练数据的物理可靠性。数据集还受限于单元尺寸(最大溶剂层厚度10Å)和离子浓度(最低0.38M),未能完全复现实验条件下的体相溶剂效应。
常用场景
经典使用场景
在固液界面催化研究领域,OC25数据集为机器学习势函数开发提供了关键支撑。该数据集通过780万次密度泛函理论计算,构建了涵盖88种元素、8种常用溶剂和9种离子的复杂界面环境,成为训练通用机器学习势函数的基础资源。研究人员利用OC25进行大规模分子动力学模拟,能够准确预测溶剂化能、界面吸附能和反应动力学参数,为理解溶剂分子在催化过程中的稳定化作用提供了原子尺度视角。
解决学术问题
OC25数据集有效解决了固液界面催化研究中溶剂效应量化难的学术瓶颈。传统气固相催化数据集无法捕捉溶剂分子对反应中间体的稳定化作用及双电层结构的影响,而OC25通过显式溶剂模型填补了这一空白。该数据集使得研究人员能够系统研究离子特异性吸附、溶剂重组能等关键物理化学参数,为电催化反应机理的分子层面理解提供了数据基础,推动了基于物理信息的催化设计框架向液相体系扩展。
实际应用
在能源存储与转化技术开发中,OC25数据集支撑了高效电催化剂的设计优化。通过机器学习势函数对固液界面的精确模拟,可加速锂离子电池电极材料、燃料电池催化剂等系统的研发进程。该数据集特别适用于预测溶剂化效应对反应路径的影响,如在二氧化碳还原、氮气还原等电催化反应中,能够准确评估溶剂分子对产物选择性的调控作用,为实验研究提供理论指导。
数据集最近研究
最新研究方向
在能源存储与可持续化学合成领域,固液界面催化机制的研究正成为前沿焦点。Open Catalyst 2025(OC25)数据集的发布填补了传统固气界面模拟的空白,首次大规模引入显式溶剂与电解质环境,涵盖88种元素、多样化溶剂层及非平衡构型采样。当前研究聚焦于机器学习势函数在电化学界面中的泛化能力提升,通过能量守恒模型与直接力预测模型的对比,探索溶剂化能误差控制与长程电荷相互作用建模。该数据集推动了界面功函数预测、恒电位模拟等新方向的发展,为下一代催化剂设计提供了原子尺度动态模拟的基础。
相关研究论文
  • 1
    The Open Catalyst 2025 (OC25) Dataset and Models for Solid-Liquid InterfacesFAIR at Meta · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作