five

raulsofia/qm9

收藏
Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/raulsofia/qm9
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集将几何分子集合(GEOM)方法应用于著名的QM9数据集。原始QM9数据集仅提供了约134,000个小有机分子的单一优化3D结构,而GEOM-QM9数据集则为这些相同的分子提供了多个能量注释的构象集合。

This dataset applies the Geometric Ensemble Of Molecules (GEOM) methodology to the famous QM9 dataset. While the original QM9 provided only a single optimized 3D structure for ~134k small organic molecules, GEOM-QM9 provides an ensemble of multiple energetically annotated conformers for these same molecules.
提供机构:
raulsofia
搜集汇总
数据集介绍
main_image_url
构建方式
qm9数据集是基于GEOM(分子几何构象集成)方法对经典QM9数据集进行重构的镜像版本。该数据集从原本包含多个能量注释构象的完整GEOM-QM9中筛选简化,为每个分子仅保留一个最低能量的三维构象,从而实现了分子与构象之间严格的一一对应关系。其构建过程依托于Ramakrishnan等人提出的原始QM9分子集合,并由Axelrod和Gómez-Bombarelli团队执行了系统性构象采样与计算。所有构象的三维几何结构与能量信息均源自GEOM计算流程,而非原始QM9的理论层次,确保了数据在生成方式上的独立性与一致性。
使用方法
用户可直接利用预分割的训练集与测试集进行模型训练与验证,其中各目录下包含的SDF文件为主结构数据,CSV文件提供SMILES与构象数量的映射关系,SMILES文件则便于快速索引。对于需要特殊分割策略的研究,可使用根目录下的完整未分割文件自行构建训练与测试体系。典型应用场景包括分子性质预测、三维构象生成以及基于几何结构的深度学习研究。使用时需同时引用GEOM与原始QM9的相关文献,以尊重两方的学术贡献。
背景与挑战
背景概述
QM9数据集由Raghunathan Ramakrishnan等人于2014年创建,作为量子化学领域的一项标志性资源,提供了约134,000种稳定有机分子的几何结构和理化性质。随后,Simon Axelrod与Rafael Gómez-Bombarelli借助GEOM方法学,于2022年对QM9分子进行了能量标注的构象采样,生成了GEOM-QM9数据集。本镜像版本进一步精简,为每个分子保留单一最低能构象,旨在为机器学习驱动的分子性质预测和药物设计提供标准化基准。该数据集极大促进了构象生成、分子表征学习等方向的研究,成为连接量子化学计算与数据驱动建模的重要桥梁,在科学数据领域拥有深远影响力。
当前挑战
QM9及相关数据集面临的核心挑战在于:首先,分子构象空间的复杂性和维数灾难使得高效而精确的构象采样成为难题,不同构象直接影响量子化学性质的预测精度。其次,原始QM9数据基于单一理论水平计算,所提供构象与真实实验结构间存在偏差,而GEOM的计算管道虽提升了能量注释的多样性,却增添了计算成本与数据一致性维护的难度。最后,构建过程中需消除分子重叠以确保训练与测试集无扰分化,同时兼顾拆分策略的灵活性以适应多样化的下游任务,这对数据预处理和版本控制提出了严苛要求。
常用场景
经典使用场景
GEOM-QM9数据集作为计算化学与机器学习交叉领域的基石,经典应用场景聚焦于分子性质预测与构象生成。科研人员利用该数据集中精确的低能三维构象,结合图神经网络或等变模型,对小分子的量子化学属性(如HOMO-LUMO能隙、内能、零点振动能等)进行高精度回归建模。区别于原始QM9仅含二维结构,GEOM-QM9提供的立体构象使模型能直接捕捉分子的空间构效关系,成为评估分子表征学习算法鲁棒性与泛化能力的标准基准。
解决学术问题
该数据集系统性地解决了有机小分子结构属性预测中的构象歧义性难题。传统QM9数据缺乏三维构象信息,导致模型对柔性分子的键长、二面角等几何特征学习不充分;而GEOM-QM9通过为每分子保留唯一能量最低构象,消除了构象异构带来的数据噪声,使学术研究能够聚焦于电子结构与分子几何的因果关联。这一改进显著提升了基于深度学习的性质预测精度,为药物设计中先导化合物的量子化学性质快速筛选提供了可靠的数据支撑。
实际应用
在实际工业场景中,GEOM-QM9驱动的分子性质预测模型已融入新药研发的虚拟筛选流程。制药企业利用基于该数据集训练的图神经网络,可在数秒内评估千万级化合物库的溶解度、脂水分配系数及毒性风险,替代部分高成本的第一性原理计算。此外,材料科学领域借助其在有机光电材料带隙预测中的优异表现,加速了OLED发光分子与有机光伏材料的定向优化,缩短了从分子设计到实验验证的迭代周期。
数据集最近研究
最新研究方向
在量子化学与机器学习交叉领域,QM9数据集作为分子性质预测的基准,近期研究方向聚焦于几何深度学习方法与构象多样性的融合。GEOM-QM9镜像版本通过提供单一低能构象,为3D分子表征学习提供了稳健的起点,推动了等变神经网络(如SE(3)-Transformer)在分子生成与性质预测中的前沿应用。该数据集简化版本支持对构象采样策略差异的消融研究,尤其是在药物设计中针对构象刚性分子的优化。结合扩散模型与几何变分自编码器,研究者正利用此类数据探索分子空间的高效导航,以实现针对靶点蛋白的活性分子精准生成。其影响力体现在加速了从量子计算到材料科学的跨学科数据驱动范式,为可解释AI在化学领域的落地提供了关键验证平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作