qm9
收藏Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/raulsofia/qm9
下载链接
链接失效反馈官方服务:
资源简介:
GEOM-QM9数据集是原始GEOM-QM9数据集的镜像和轻度清理版本,旨在为下游机器学习项目提供可用性和精确的可重复性。该数据集应用了分子几何集合(GEOM)方法到著名的QM9数据集上。与原始QM9数据集仅提供约13.4万个小有机分子的单一优化3D结构不同,GEOM-QM9为这些相同的分子提供了多个能量注释的构象集合。数据集的主分支作为规范基础,包含基本未更改(或经过极轻微预处理)的原始GEOM-QM9数据集版本。为了节省存储空间并保持严格的项目隔离,该仓库使用Git分支进行项目特定配置,每个分支对应一个特定项目,存储轻量级索引数组以实现动态子集划分。使用该数据集时,必须同时引用GEOM创建者(构象)和原始QM9创建者(基础分子)的工作。
The GEOM-QM9 dataset is a mirrored and lightly cleaned version of the original GEOM-QM9 dataset, designed to provide usability and precise reproducibility for downstream machine learning projects. This dataset applies the Geometry of Molecular (GEOM) method to the well-known QM9 dataset. Unlike the original QM9 dataset, which provides only a single optimized 3D structure for approximately 134,000 small organic molecules, GEOM-QM9 provides multiple energy-annotated conformational ensembles for these same molecules. The main branch of the dataset serves as the canonical foundation, containing the original GEOM-QM9 dataset version with minimal or very light preprocessing. To save storage space and maintain strict project isolation, the repository uses Git branches for project-specific configurations, with each branch corresponding to a specific project and storing lightweight index arrays for dynamic subset partitioning. When using this dataset, it is necessary to cite both the work of the GEOM creators (conformations) and the original QM9 creators (base molecules).
创建时间:
2026-04-25
原始信息汇总
数据集概述:GEOM-QM9 (Mirror)
基本信息
- 数据集名称:GEOM-QM9 (Mirror)
- 许可证:Creative Commons Attribution 4.0 International (CC-BY-4.0)
- 标签:化学(chemistry)、药物设计(drug-design)、分子(molecules)
数据集描述
该数据集是对著名的 QM9 数据集应用 GEOM(Geometric Ensemble Of Molecules)方法生成的镜像版本。原始 QM9 数据集仅提供约 13.4 万个有机小分子的单一优化三维结构,而 GEOM-QM9 为这些分子提供了多个带有能量标注的构象(conformers)。
数据来源与引用
- 原始 QM9 论文:Ramakrishnan 等人于 2014 年发表在《Scientific Data》上的《Quantum chemistry structures and properties of 134 kilo molecules》
- GEOM 论文:Axelrod 和 Gómez-Bombarelli 于 2022 年发表在《Scientific Data》上的《GEOM, energy-annotated molecular conformations for property prediction and molecular generation》
- GEOM 官方数据源:learningmatter-mit/geom(GitHub 仓库)
数据组织与分支
- main 分支:包含原始 GEOM-QM9 数据集的几乎未修改版本,作为基础镜像。
- 项目分支:Git 分支用于存储特定项目的预处理配置和数据划分(训练/验证/测试集)索引数组,而非重复存储整个数据集,从而节省存储空间。预处理步骤在对应项目的外部代码文档中记录。
使用与引用要求
使用该数据集时,必须同时引用 GEOM 创建者和原始 QM9 创建者的相关论文。
搜集汇总
数据集介绍

构建方式
GEOM-QM9数据集是在经典QM9数据集基础上,通过引入Geometric Ensemble Of Molecules(GEOM)方法论构建而成。原始QM9仅提供约13.4万个有机小分子的单一优化三维结构,而GEOM-QM9则针对这些分子生成了多个包含能量标注的构象异构体集合。该数据集的构象采样工作由Axelrod和Gómez-Bombarelli完成,分子基础来源于Ramakrishnan等人的原始QM9数据集。为确保下游机器学习项目的可复现性与长期可用性,本镜像版本对原始数据进行了轻量化的清理与标准化处理,并采用Git分支管理策略以支持不同项目的特定预处理需求。
特点
GEOM-QM9的核心特点在于其提供了分子构象的多样性及能量注释信息。每个分子均具有多个三维构象,并附带对应的能量值,这为研究分子构象空间、预测分子性质以及生成新型分子结构提供了丰富的数据基础。此外,数据集采用分支架构实现了数据存储与项目配置的隔离,各分支仅存储轻量化的索引数组,避免重复存储原始数据,同时确保不同实验划分的灵活性与一致性。这种设计兼顾了数据的完整性与使用的便捷性。
使用方法
使用GEOM-QM9数据集时,用户应首先从主分支获取基础的规范数据文件,随后根据具体项目需要切换至相应的Git分支,该分支中包含预定义的训练、验证、测试集索引。下游代码通过加载这些索引动态地从主分支的数据集中子集化数据,从而避免了数据重复存储。引用该数据集时,必须同时引用原始QM9论文(Ramakrishnan等)和GEOM论文(Axelrod和Gómez-Bombarelli),以尊重两方的贡献。
背景与挑战
背景概述
量子力学与分子建模的深度融合催生了高通量虚拟筛选的范式革新,其中小分子构象的精确表征成为药物设计、材料科学等领域的核心瓶颈。QM9数据集由Ramakrishnan等人于2014年创建,依托瑞士洛桑联邦理工学院等机构,首次系统提供了约13.4万种小分子及其量子化学性质,涵盖稳定几何结构、能量、偶极矩等关键指标,成为机器学习预测分子性质的里程碑式基准。然而,分子在真实环境中并非处于单一静态构象,而是以动态系综存在。为突破这一局限,Axelrod与Gómez-Bombarelli于2022年基于GEOM方法论,对QM9分子进行多构象采样,构建了GEOM-QM9镜像数据集。该数据集保留了每个分子在QM9中的结构基础,同时提供能量注释的构象集合,将研究视野从静态单点拓展至动态构象空间,为分子性质预测与生成模型提供了更富物理真实性的训练素材,对计算化学与机器学习交叉领域产生了深远影响。
当前挑战
该数据集所解决的领域问题源于分子性质预测中静态结构信息的不足。传统以单优化结构为基准的模型(如基于QM9的回归任务)难以准确捕捉构象柔性导致的能量涨落与性质变化,例如药物分子的活性构象往往并非全局能量最低态,且构象分布直接影响光谱响应与反应活性。GEOM-QM9通过提供多构象系综,使模型得以学习构象空间中的隐含物理规律,但构建过程面临严峻挑战:构象采样需兼顾覆盖率与计算成本,对超13万分子逐一进行元动力学或冷冻采样需消耗海量计算资源;能量注释的精确性依赖于DFT或半经验方法,不同分层级别间的热力学一致性验证极为复杂;此外,数据存储需平衡构象数量与冗余度,原始GEOM数据规模超过百GB,镜像版本需通过分支索引策略实现高效管理与项目隔离,方能支撑下游模型的标准化复现与公平对比。
常用场景
经典使用场景
在计算化学与药物分子设计领域,分子的三维构象对其物理化学性质及生物活性起着决定性作用。QM9数据集作为首个系统收录约13.4万种小分子量子化学性质的标准库,长期被用于分子性质预测模型的训练与评估。然而,传统QM9仅提供单一优化构象,忽略了构象系综对性质预测的深远影响。GEOM-QM9的出现弥补了这一缺憾,它将GEOM方法论应用于QM9分子格架,生成了多个能量标注的构象体集合。经典使用场景通常涉及利用该数据集的多构象信息,研究构象多样性对分子电子特性、热力学属性等关键指标预测精度的影响,从而推动构象感知型机器学习模型的发展。
衍生相关工作
基于GEOM-QM9这一基准资源,学术界衍生出一系列富有影响力的研究工作。其中,构象信息增强的图神经网络结构被率先提出,通过在消息传递过程中融合多构象几何特征,显著提升了分子性质预测的准确率与鲁棒性。另有一批工作聚焦于构象生成模型,利用GAN和扩散概率模型学习构象系综的分布规律,实现了对未知分子稳定构象的高效采样。同时,能量函数校正研究借助该数据集对现有分子力场进行了系统重校准,改善了力场对非共价相互作用描述的精度。这些衍生工作共同构建了以构象感知为核心的新型计算范式,深刻改变了分子建模与数据驱动材料设计的前沿格局。
数据集最近研究
最新研究方向
GEOM-QM9数据集在分子科学前沿研究中扮演着重要角色,尤其聚焦于利用多构象能量注释信息推动分子性质预测与分子生成模型的发展。这一资源将经典的QM9量子化学数据拓展至构象空间,其提供的多样化三维结构及其对应能量分布,为深度学习模型捕捉分子柔性、理解构象-性质关系提供了关键支撑。近期热点方向包括基于几何图神经网络或扩散模型直接生成能量合理的分子构象,并应用于药物设计中的候选分子筛选、稳定性评估及动力学模拟的初始化。该数据集的出现弥合了静态结构与实际动态行为之间的鸿沟,加速了从量子化学计算到可落地的药物发现与材料研发的转化进程。
以上内容由遇见数据集搜集并总结生成



