Open DAC 2023 (ODAC23)
收藏arXiv2023-11-27 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2311.00341v2
下载链接
链接失效反馈官方服务:
资源简介:
包含超过3800万次密度泛函理论(DFT)计算,涉及超过8400种含有吸附的二氧化碳和/或水分子金属有机框架(MOF)材料。是目前为止最大的MOF吸附计算数据集,具有DFT级别的准确性。
Contains over 38 million density functional theory (DFT) calculations, involving more than 8400 metal-organic framework (MOF) materials with adsorbed carbon dioxide and/or water molecules. This is the largest MOF adsorption calculation dataset to date, with DFT-level accuracy.
创建时间:
2023-11-01
搜集汇总
数据集介绍

构建方式
在直接空气碳捕集领域,金属有机框架材料因其高度可调性而备受关注。ODAC23数据集的构建以实验合成的CoRE MOF 2019数据库为基础,筛选出8,803个原子数少于1000且孔径大于3.3 Å的MOF结构。采用密度泛函理论进行系统计算,使用PBE-D3泛函并考虑自旋极化,完成了超过3800万次单点计算。通过经典力场与蒙特卡洛采样相结合的方法,在MOF中放置CO2、H2O及其混合吸附质,最终生成包含约17.6万个收敛吸附能的数据集。该流程涵盖了完整结构弛豫轨迹,并系统引入了缺失连接体缺陷,形成了包含4,942个原始MOF和3,470个缺陷MOF的完整体系。
特点
作为目前规模最大的DFT精度MOF吸附计算数据集,ODAC23的核心特征体现在其前所未有的数据广度与深度。数据集包含超过8,400种MOF材料在CO2和H2O吸附过程中的量子力学描述,首次大规模涵盖了双组分竞争吸附场景。其独特价值在于同时提供原始结构与缺陷结构的对比数据,缺陷浓度范围覆盖1%至16%,为研究缺陷工程对吸附性能的影响提供了宝贵资源。数据组织形式借鉴开放催化剂项目,明确划分结构到能量力、初始结构到弛豫能量、初始结构到弛豫结构三类机器学习任务,并精心设计了包含拓扑结构和连接体化学变化的域外测试集,为模型泛化能力评估建立了严谨基准。
使用方法
该数据集为机器学习驱动的吸附剂发现提供了标准化研究平台。研究人员可利用其训练图神经网络模型,实现从初始结构到弛豫能量的高效预测,替代传统计算成本高昂的DFT计算。数据集采用分层任务设计,支持S2EF、IS2RE和IS2RS三种典型应用场景:S2EF任务可直接预测体系能量与原子受力,IS2RE任务可从初始构型预测弛豫后吸附能,IS2RS任务则可实现全原子几何优化。用户可通过开源平台获取预训练模型,快速筛选具有高CO2选择性的MOF材料。特别设计的域外测试集能够有效评估模型对未见拓扑和连接体化学的泛化能力,为开发下一代碳捕集材料计算工具提供关键验证数据。
背景与挑战
背景概述
Open DAC 2023(ODAC23)数据集于2023年由Meta AI基础研究团队与佐治亚理工学院、橡树岭国家实验室等机构联合创建,旨在应对全球气候变化背景下直接空气捕集(DAC)技术中吸附剂发现的迫切需求。该数据集聚焦于金属有机框架(MOFs)材料在湿度和温度变化条件下对二氧化碳(CO2)和水(H2O)的吸附性能,通过密度泛函理论(DFT)计算生成了超过3800万次单点计算,涵盖8400多种MOF材料,成为目前精度最高、规模最大的MOF吸附计算数据集。其核心研究问题在于解决传统力场模型在描述MOF化学吸附及竞争吸附中的局限性,为机器学习模型训练提供高质量基准,推动高效、选择性CO2吸附材料的计算筛选与实验验证,对碳捕集与存储领域的研究具有里程碑式的推动作用。
当前挑战
ODAC23数据集面临的挑战主要体现在两个方面:在领域问题层面,直接空气捕集技术需在低浓度CO2和高湿度环境中实现高效选择性吸附,传统力场模型难以准确模拟MOF中开放金属位点或缺陷处的化学吸附及CO2/H2O竞争吸附行为,导致材料筛选偏差;在构建过程中,数据集生成需克服大规模DFT计算的高昂计算成本与时间消耗,同时确保MOF结构(包括缺陷体系)的化学多样性与实验可合成性,并处理吸附位点采样、结构弛豫及多组分吸附配置的复杂性,以保障数据的一致性与可靠性。
常用场景
经典使用场景
在直接空气捕获(DAC)领域,金属有机框架(MOFs)因其高度可调的结构和优异的吸附性能被视为极具潜力的吸附剂材料。ODAC23数据集通过密度泛函理论(DFT)计算,提供了超过8400种MOF材料中CO₂和H₂O的吸附能量数据,涵盖了单组分及混合吸附场景。该数据集最经典的使用场景在于为机器学习模型提供高质量的训练数据,以预测MOF在潮湿环境下的CO₂吸附性能,从而加速高性能吸附剂的发现与筛选过程。
实际应用
在实际应用中,ODAC23数据集为开发高效DAC技术提供了关键支持。基于该数据集训练的机器学习模型能够快速预测MOF在真实大气条件(含湿气)下的CO₂吸附性能,显著降低实验与计算成本。这些模型已用于筛选出多种在潮湿环境中仍保持高选择性的MOF候选材料,例如含开放金属位点的铜基框架。此外,数据集揭示的缺陷工程效应指导了通过结构调整优化吸附剂性能,推动DAC系统向低能耗、高稳定性方向发展。
衍生相关工作
ODAC23数据集衍生出一系列经典研究工作,主要集中在机器学习力场开发与材料筛选算法优化。例如,基于该数据集的图神经网络模型(如EquiformerV2、GemNet-OC)被训练用于预测吸附能量和原子力,其精度显著超越传统力场。这些模型进一步应用于高通量筛选CoRE MOF数据库,发现了数百种在潮湿条件下具有高CO₂选择性的MOF结构。同时,数据集启发了对缺陷MOF的系统研究,推动了‘缺陷工程’在吸附剂设计中的应用,相关成果为多组分吸附模拟提供了新范式。
以上内容由遇见数据集搜集并总结生成



