symqm3k
收藏Hugging Face2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/taradutt007/symqm3k
下载链接
链接失效反馈官方服务:
资源简介:
SymQM-3k 是一个包含 3,967 个小有机分子的量子化学数据集,具有 DFT 验证的点群对称性和对称性分辨的分子轨道光谱。这是首个分子机器学习数据集,其中轨道不可约表示(irrep)标签是量子化学计算的主要输出,而非事后标注。数据集包含分子摘要、原子细节和轨道剖面等主要文件,以及补充文件如 Mayer 键序和分子元数据。数据来源于 QM9 数据集,通过三阶段流程构建:拓扑过滤、结构点群分析和 DFT 计算。数据集适用于分子机器学习任务,特别是涉及对称性分辨性质的任务。数据集规模为 3,967 个分子,73,528 个原子,548,384 个轨道条目,涵盖 21 种点群和 20 种独特的 irrep 标记。主要文件包括 'target_summary_final.csv'、'atom_details_final.csv' 和 'orbital_profile_final.csv'。数据集还提供了预训练的 SymMACE 模型权重,用于复现论文结果。
创建时间:
2026-04-12
原始信息汇总
SymQM-3k 数据集概述
基本信息
- 数据集名称:SymQM-3k
- 简介:SymQM-3k 是一个包含 3,967 个小有机分子的数据集,具有经过密度泛函理论验证的点群对称性和对称性分辨的分子轨道谱。它是首个分子机器学习数据集,其中轨道不可约表示标签是量子化学计算的主要输出,而非事后标注。
- 许可证:CC BY 4.0
- 主要任务类别:图机器学习
- 语言:英语
- 数据规模:1K<n<10K
- 源数据集:QM9
数据集构成
- 分子数量:3,967
- 总原子数:73,528
- 总轨道条目数:548,384
- 点群数量:21
- 唯一不可约表示标记数量:20
- 原子类型:H, C, N, O, F
- 理论水平:B3LYP/6-31G*
- 计算软件:ORCA 5.0.4
- 数据划分:训练集 3,172 / 验证集 395 / 测试集 400
文件说明
主要文件
-
target_summary_final.csv(3,967 行)- 每行代表一个分子。
- 包含信息:最高占据分子轨道/最低未占分子轨道能量(eV)、不可约表示标签、不可约表示索引、点群、总自洽场能量(Eh)、偶极矩(德拜)。
-
atom_details_final.csv(73,528 行)- 每行代表一个原子。
- 包含信息:三维坐标(ORCA 对称性框架)、元素、马利肯电荷。
-
orbital_profile_final.csv(548,384 行)- 每行代表一个轨道。
- 包含信息:能量(eV)、占据数、不可约表示标签、连续不可约表示索引、是否为最高占据分子轨道和是否为最低未占分子轨道的标志。
-
splits.csv(3,967 行)- 固定的训练/验证/测试集划分,按点群分层。
补充文件
-
mayer_bond_orders.csv(75,123 行)- 原子对之间的迈耶键级(阈值 > 0.1)。
-
mayer_valence.csv(73,528 行)- 每个原子的迈耶价组分 VA 和 BVA。
-
molecule_metadata.csv(3,967 行)- 转动常数(MHz)、不对称单元索引、自洽场迭代次数、不对称单元分数。
模型权重
symmace_best.pt:预训练的 SymMACE 模型权重,用于复现论文结果。
点群分布
| 点群 | 数量 | 百分比 |
|---|---|---|
| Cs | 2,657 | 66.98% |
| C2 | 430 | 10.84% |
| C2v | 399 | 10.06% |
| C1 | 297 | 7.49% |
| C3v | 57 | 1.44% |
| C2h | 45 | 1.13% |
| 其他 | 82 | 2.07% |
已知限制
- 297 个分子(7.49%)尽管具有非平凡的结构对称性,但电子点群为 C1,这些分子的不可约表示字段为 NaN。
- 高对称性群(Td, Oh, D6h)的分子数量极少(各 1-5 个),针对这些群的统计数据不可靠。
is_homo总和为 4,025,is_lumo总和为 3,995(而非 3,967),这是由于高对称性分子中存在简并的前线轨道,这在物理上是正确的。- ORCA 使用 C2v 的约化子群进行轨道标记,不可约表示标签对应的是约化子群,而非名义点群。
mayer_valence.csv中的自由价对所有原子均为零,因为数据集中仅包含闭壳层分子。
构建流程
数据集从 QM9 通过三阶段流程构建:
- 拓扑过滤(RDKit):基于规范原子排序对称性比率 < 0.7,从 133,885 个 QM9 分子中保留 18,830 个候选分子。
- 结构点群分析(Pymatgen):使用 PointGroupAnalyzer(容差 0.3 Å),识别出 3,983 个非 C1 候选分子。
- 密度泛函理论计算(ORCA 5.0.4):使用 RKS B3LYP / 6-31G* 方法,设置 TightSCF, UseSym, SymThresh 1e-2 Bohr。最终 3,967 个分子成功收敛并具有非平凡的电子点群。
复现结果
使用提供的模型权重 symmace_best.pt 运行评估脚本,预期输出如下:
- 最高占据分子轨道平均绝对误差:0.1528 eV
- 最低未占分子轨道平均绝对误差:0.1393 eV
- 最高占据分子轨道不可约表示准确率:76.0%
- 最低未占分子轨道不可约表示准确率:87.6%
- 最高占据分子轨道不可约表示索引平均绝对误差:3.40 个位置
- 最低未占分子轨道不可约表示索引平均绝对误差:2.05 个位置
- 跃迁准确率:76.5%
相关链接
- 数据集地址:https://huggingface.co/datasets/taradutt007/symqm3k
- 代码仓库:https://github.com/staradutt/symqm3k
搜集汇总
数据集介绍

构建方式
在量子化学与机器学习交叉领域,SymQM-3k数据集的构建遵循一套严谨的多阶段流程。该数据集源自广泛使用的QM9分子库,通过RDKit工具进行拓扑对称性筛选,从133,885个初始分子中遴选出18,830个候选者。随后,利用Pymatgen的结构点群分析模块,在0.3埃的容差范围内识别出3,983个具有非C1对称性的分子。最终阶段采用ORCA 5.0.4软件执行密度泛函理论计算,使用B3LYP泛函与6-31G*基组,在严格的对称性阈值下,成功获得了3,967个收敛且具有非平凡电子点群的分子及其轨道不可约表示标签。
使用方法
为便于研究人员使用,数据集以结构化的CSV文件形式提供。主要文件包括分子摘要、原子细节与轨道剖面,可通过Hugging Face Hub直接下载并利用pandas库加载。数据集附带了预训练的SymMACE模型权重,用户可借助PyTorch框架加载以复现论文中的预测结果,包括轨道能量与不可约表示的分类与回归任务。数据集的固定划分确保了实验的可比性,其丰富的元数据如迈耶键级、价态分量及分子旋转常数,为进一步的对称性感知分子表征学习与性质预测拓展了可能性。
背景与挑战
背景概述
SymQM-3k数据集由研究人员于近期构建,旨在推动分子机器学习领域的发展,特别是在对称性解析的量子化学性质预测方面。该数据集源自经典的QM9数据集,通过密度泛函理论计算,为3,967个小型有机分子提供了经过验证的点群对称性信息以及分子轨道的不可约表示标签。作为首个将轨道不可约表示作为量子化学计算主要输出而非事后标注的分子机器学习数据集,SymQM-3k填补了对称性感知模型训练数据的空白,为研究分子电子结构与对称性之间的复杂关联提供了关键资源。其构建采用了严格的三阶段流程,结合了RDKit、Pymatgen和ORCA软件,确保了数据的可靠性与物理一致性,对计算化学和材料科学领域的模型开发具有重要影响。
当前挑战
SymQM-3k数据集所解决的核心领域问题在于预测分子的对称性解析电子性质,如最高占据分子轨道和最低未占分子轨道的能量及其不可约表示。这一任务面临多重挑战:首先,分子对称性与电子结构之间存在非线性映射关系,高对称性点群中的轨道简并性增加了预测难度;其次,数据集中存在部分分子虽具有非平凡结构对称性,但电子点群为C1,导致不可约表示标签缺失,为模型训练引入噪声。在构建过程中,挑战主要体现在大规模密度泛函理论计算的计算成本高昂,且需确保对称性检测的数值稳定性;同时,从QM9原始数据中筛选具有非平凡对称性的分子,并保持点群分布的平衡性,亦是一项复杂的数据工程任务。
常用场景
经典使用场景
在量子化学与分子机器学习领域,SymQM-3k数据集为研究分子对称性如何调控电子结构提供了关键基准。该数据集通过密度泛函理论计算,提供了近四千个有机小分子的点群对称性及对称性分辨的分子轨道谱,其经典应用场景在于训练和评估能够预测分子轨道能量及其不可约表示标签的机器学习模型。研究人员利用该数据集探索对称性约束下的电子性质预测,为开发更精确、物理可解释的分子表示学习方法奠定基础。
解决学术问题
SymQM-3k数据集直接应对了分子机器学习中一个长期存在的挑战:如何将分子的精确对称性信息整合到模型预测中。传统数据集往往缺乏对称性分辨的轨道标签,而该数据集首次将轨道不可约表示作为量子化学计算的主要输出,而非事后标注。这解决了在预测最高占据分子轨道和最低未占分子轨道的能量与对称性标签时,模型需同时学习几何对称性与电子结构关联的学术问题,推动了对称性感知机器学习方法的发展。
实际应用
该数据集的实际应用价值体现在新材料设计与药物发现等领域。通过提供精确的对称性分辨轨道数据,SymQM-3k能够助力开发更可靠的机器学习模型,用于预测有机分子的光电性质、反应活性及激发态行为。例如,在有机半导体或光催化剂的设计中,分子轨道的对称性直接影响电荷传输与光吸收效率,利用本数据集训练的模型可加速具有特定电子性能分子的筛选与优化过程。
数据集最近研究
最新研究方向
在量子化学与机器学习交叉领域,SymQM-3k数据集的推出标志着对称性解析分子轨道表征的前沿突破。该数据集首次将轨道不可约表示作为量子化学计算的核心输出,而非事后标注,为分子性质预测模型注入了严格的群论约束。当前研究聚焦于开发能够同时预测轨道能量与对称性标签的几何深度学习架构,如对称等变图神经网络,以精准捕捉分子对称性对电子结构的影响。这一方向正推动光电子材料设计与催化反应机理探索,通过对称性指导的分子表示学习,有望加速高通量虚拟筛选流程,为理性分子工程提供理论基石。
以上内容由遇见数据集搜集并总结生成



