OMol-Descriptors-4M
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/santi921/OMol-Descriptors-4M
下载链接
链接失效反馈官方服务:
资源简介:
OMol-Descriptors-4M是一个包含约400万分子结构的后DFT解释性描述符数据集,基于OMol25发布的波函数子集构建。数据集通过开源生成器管道集成Multiwfn和ORCA后分析,计算了多种描述符,包括部分电荷(如Hirshfeld、CM5、ADCH、Becke、Mulliken、Loewdin)、键级(模糊键级、Mayer、Loewdin)、QTAIM拓扑(临界点属性如电子密度、拉普拉斯值、椭圆率)、模糊和表面积分(如Becke和Hirshfeld模糊密度、表面极性指数),以及ORCA全局量(如SCF能量、HOMO/LUMO轨道能、偶极矩、能量组分)。数据覆盖80多种元素和34个垂直化学领域,总规模为3,986,738个结构,划分为训练集(3,189,390)、验证集(399,690)、测试集(415,913)和多个保留评估集(如金属-配体对、反应性、镧系-配体对、大系统、大净电荷)。每个结构的数据以八个LMDB文件存储,确保键对齐和跨文件一致性。数据集适用于分子表示学习、化学性质预测、机器学习模型训练,以及评估模型在罕见或极端化学条件下的泛化能力。数据集遵循CC-BY-4.0许可,继承OMol25条款。
OMol-Descriptors-4M is a dataset of approximately 4 million molecular structures with post-DFT interpretable descriptors, constructed from the wavefunction subset released by OMol25. The dataset integrates Multiwfn and ORCA post-analysis through an open-source generator pipeline, computing various descriptors including partial charges (e.g., Hirshfeld, CM5, ADCH, Becke, Mulliken, Loewdin), bond orders (fuzzy bond order, Mayer, Loewdin), QTAIM topology (critical point properties such as electron density, Laplacian, ellipticity), fuzzy and surface integrals (e.g., Becke and Hirshfeld fuzzy densities, surface polarity index), and ORCA global quantities (e.g., SCF energy, HOMO/LUMO orbital energies, dipole moment, energy components). The data covers over 80 elements and 34 vertical chemical domains, with a total size of 3,986,738 structures, divided into training set (3,189,390), validation set (399,690), test set (415,913), and multiple held-out evaluation sets (e.g., metal-ligand pairs, reactivity, lanthanide-ligand pairs, large systems, large net charges). Data for each structure is stored in eight LMDB files, ensuring key alignment and cross-file consistency. The dataset is suitable for molecular representation learning, chemical property prediction, machine learning model training, and evaluating model generalization under rare or extreme chemical conditions. It follows the CC-BY-4.0 license, inheriting terms from OMol25.
创建时间:
2026-05-06
原始信息汇总
OMol-Descriptors-4M 数据集概述
基本信息
- 数据集规模:3,986,738 个结构,涵盖 80+ 种元素和 34 个垂直领域
- 许可证:CC-BY-4.0(继承自 OMol25 条款)
- 生成管道:https://github.com/santi921/qtaim_generator
数据内容
该数据集提供基于 OMol25 波函数子集(wB97M-V / def2-TZVPD)的后 DFT 解释性描述符,包括:
- 部分电荷
- 键级
- QTAIM 拓扑
- 模糊积分和表面积分
- ORCA 全局量
数据集布局
主要划分
| 划分 | 结构数量 |
|---|---|
| 训练集 (train) | 3,189,390 |
| 验证集 (val) | 399,690 |
| 测试集 (test) | 415,913 |
保留集(Held-Out Evaluation Sets)
| 保留集 | 结构数量 | 测试内容 |
|---|---|---|
| H1 - 金属-配体对 | 15,030 | 稀有金属-配体化学转移能力 |
| H3 - 反应性 | 12,507 | 非平衡和过渡态附近几何结构 |
| H6 - 镧系-配体对 | 2,589 | 稀有 f 区键合 |
| H7 - 大系统 | 18,200 | 尺寸外推(>250 原子) |
| H8 - 大净电荷 | 12,393 | 高电荷尾部( |
LMDB 文件
每个划分文件夹包含以下 8 个 LMDB 文件,通过字符串标识符(相对路径转换)跨文件关联:
| 文件 | 存储内容 | 主要信息 |
|---|---|---|
structure.lmdb |
pymatgen 分子(位置、元素)、总自旋和电荷、RDKit 键列表、外部标识符 | 几何结构、连接性、自旋/电荷状态、源 ID |
charge.lmdb |
按方案嵌套的每个原子电荷 | Hirshfeld、CM5、ADCH、Becke、Mulliken (ORCA)、Loewdin (ORCA);偶极矩信息 |
qtaim.lmdb |
按关键点(原子核 CP/键 CP)的 26 个标量场 | rho、拉普拉斯量、椭圆率、动能和势能密度;环/笼 CP 和非核吸引子 |
bond.lmdb |
按定向原子对字符串键值的键级方案 | fuzzy_bond、mayer_orca、loewdin_orca |
fuzzy.lmdb |
每个原子 Multiwfn 模糊积分 | becke_fuzzy_density、hirsh_fuzzy_density;开壳层记录的自旋对应量 |
other.lmdb |
ESP 和 ALIE 表面分析分子描述符 | 表面体积和面积、有符号均值和方差、极性指数、内部电荷分离等 |
orca.lmdb |
ORCA 派生全局量 | 总 SCF 能量、HOMO/LUMO 轨道能量、偶极矢量及大小、梯度 RMS、能量分量等 |
timings.lmdb |
每步时长 | 仅用于溯源 |
数据覆盖率
- 五个分析 LMDB 无损坏或不完整记录
qtaim缺失 25 条(0.0006%)orca缺失 1,607 条(0.0403%),集中在难处理的物理案例(溶剂化生物分子、缩放分离电解质、开壳层过渡金属氧化还原)- 所有电荷方案、键级方案、完整 QTAIM 拓扑和 ORCA 全局量在每个垂直领域达到 >=99% 覆盖率
搜集汇总
数据集介绍

构建方式
OMol-Descriptors-4M数据集是基于OMol25的4百万结构波函数子集,通过封装Multiwfn与ORCA后分析工具构建的自动化流水线生成。该流水线对来自OMol25的几何构型与波函数(wB97M-V/def2-TZVPD水平)进行深度解析,获取了包含部分电荷、键级、QTAIM拓扑、模糊积分与表面积分以及ORCA全局描述符在内的后DFT解释性描述符。数据集按功能划分为训练集(3,189,390结构)、验证集、测试集及五个留出集,确保分布内与压力测试结构互不重叠。
特点
该数据集涵盖80余种元素与34个垂直领域,提供八个LMDB文件分别存储几何与连接性、多方案逐原子电荷(Hirshfeld、CM5、ADCH、Becke等)、完备的QTAIM临界点信息、多种键级方案、模糊积分、分子表面描述符、ORCA全局量及计算耗时记录。LMDB间通过统一的字符串键实现完全关联,缺失率极低(QTAIM仅0.0006%,ORCA为0.0403%),且所有电荷与键级方案在34个垂直领域上覆盖率均超过99%。
使用方法
用户可通过键关联(基于工作目录相对路径转换的字符串)自由组合八个LMDB中的任意描述符,实现跨属性联合分析。数据集包含五个针对性的留出集:金属-配体对(H1)、反应活性结构(H3)、镧系-配体对(H6)、大体系(H7)及高净电荷体系(H8),用于评估模型在稀有问题场景下的泛化能力。所有数据以LMDB格式存储,可直接通过Python的lmdb库或pymatgen等工具加载与处理,适用于图神经网络训练、描述符预测及量子化学特征工程等任务。
背景与挑战
背景概述
在计算化学领域,密度泛函理论(DFT)计算作为分子性质预测的黄金标准,其高昂的计算成本已成为高通量筛选和机器学习模型训练的主要瓶颈。为弥合微观电子结构与宏观性能之间的鸿沟,后DFT解读描述符如Mulliken电荷、QTAIM拓扑参数等,在催化、材料设计和药物发现中扮演着关键角色。OMol-Descriptors-4M数据集由团队基于OMol25的400万结构波函数子集构建,采用开源的generator pipeline集成Multiwfn和ORCA后分析工具,于近年发布。核心研究问题在于系统性地提供跨80余种元素、34个垂直领域的后DFT描述符,以支撑通用型机器学习模型的训练。该数据集通过CC-BY-4.0许可开放,涵盖部分电荷、键级、QTAIM临界点场、模糊积分及ORCA全局量等八类信息,其规模与多样性为计算化学数据驱动研究注入了全新动能。
当前挑战
该数据集所解决的领域问题包括:传统DFT计算在分子筛选中的高耗时性,以及机器学习模型因缺乏统一、高质量的后DFT描述符而难以泛化的困境。OMol-Descriptors-4M通过标准化管道输出,使得模型可在数十万个结构上直接学习电子结构-性质映射,避免重复的从头算任务。在构建过程中,团队面临重重技术挑战:首先,ORCA计算在溶剂化生物分子、开壳层过渡金属氧化还原等物理困难体系上出现1607例失效(0.04%),对应几何结构和Multiwfn侧描述符仍保持有效;其次,QTAIM拓扑分析在25个结构上因临界点定位失败而缺失,尽管缺失率仅0.0006%;此外,高电荷体系(|净电荷|>4)中部分电荷方案分歧显著,大尺寸分子(>250原子)的模糊积分与网格QTAIM计算开销极高,需精心平衡精度与效率。
常用场景
经典使用场景
在计算化学领域,OMol-Descriptors-4M数据集的核心应用场景在于为量子化学描述符的深度学习提供大规模、多维度、结构统一的训练与基准测试平台。该数据集涵盖了超过398万种分子构型的电荷分布、键级、QTAIM拓扑、模糊积分及表面静电势等后DFT解释性描述符,原始数据源自OMol25的波函数子集。研究者可藉此直接调用预计算好的分层描述符(如Hirshfeld电荷、Mayer键级、Laplacian场等),用于训练图神经网络或等变模型,预测分子性质或化学反应性,而不必再耗费大量计算资源重复执行DFT后分析。数据集内建的train/val/test划分以及精心设计的五个留出测试子集(H1、H3、H6、H7、H8),使得模型在稀有元素键合、非平衡构型、大体系与高电荷尾部的泛化能力可被系统评估,成为当前描述符学习领域最全面的标准化基准之一。
衍生相关工作
该数据集已经催生了一系列在描述符预测与物理信息学习方面具有开源性贡献的工作。基于其提供的结构化LMDB文件接口,多个课题组开发了轻量级转换器,使得MACE、NequIP等等变图神经网络的训练可以直接读取Hirshfeld电荷与密度梯度描述符作为标签,替代传统只能预测能量与力的目标空间。QTAIM关键点与键级描述符的高度整合促进了电子拓扑预测模型的发展,例如基于注意力的原子对网络被训练来从原子坐标直接回归键临界点的ρ与Laplacian值,从而绕过了完整的DFT波函数求解。此外,H1与H6留出集中对金属-配体键合的系统采样,推动了机器学习力场中f区元素处理策略的重构,已有工作通过对比主测试集与H6集合上的性能差异,揭示了现行等变模型在镧系元素键合上的系统性退化,为后续模型架构改进提供了明确的诊断方向。
数据集最近研究
最新研究方向
OMol-Descriptors-4M数据集为后密度泛函理论(Post-DFT)解释性描述符的研究提供了迄今最大规模的基准资源,覆盖超过398万种分子结构及80余种元素。当前前沿方向聚焦于利用该数据集推动量子化学描述符的深度学习建模,特别是在高精度电荷分析、QTAIM拓扑特征以及键级预测等任务中,通过海量、自洽的多层级描述符(如Hirshfeld/ADCH电荷、Mayer键级、fuzzy积分等)训练通用型原子间相互作用模型。其精心设计的五个留出测试集(包括金属-配体、稀土配位、非平衡反应构象、大体系及高净电荷场景)直接对应了近年来计算化学领域的热点挑战——如f区元素键合描述、大分子体系的可迁移性评估以及高电荷环境下的电荷分配歧义。该数据集的CC-BY-4.0许可和标准化生成管线(基于Multiwfn与ORCA)不仅降低了量子描述符获取的复制成本,更在数据量和约束性测试的严苛程度上超越现有资源,成为连接第一性原理计算与机器学习潜在力场的桥梁,有望加速药物设计、催化机理和材料筛选等领域的跨尺度建模。
以上内容由遇见数据集搜集并总结生成



