qm9
收藏Hugging Face2026-04-18 更新2026-04-19 收录
下载链接:
https://huggingface.co/datasets/LMucko/qm9
下载链接
链接失效反馈官方服务:
资源简介:
QM9是一个化学与生物领域的数据集,为原始QM9数据集的精简版本。该数据集主要包含两种数据特征:1) atoms(原子),存储为uint8类型的列表,来源于atomic_numbers;2) coords(坐标),存储为float16类型的二维列表,来源于positions。数据集仅包含训练集(train),共有100,000个样本,总大小约为20.6MB。该数据集适用于计算化学、分子结构分析等研究任务。
创建时间:
2026-04-10
原始信息汇总
QM9数据集概述
数据集基本信息
- 数据集名称:QM9
- 标签:化学、生物
- 数据集类型:科学计算/化学
数据集内容与结构
- 数据特征:
atoms:原子类型,数据类型为无符号8位整数列表,源自原始数据中的atomic_numbers。coords:原子坐标,数据类型为16位浮点数列表的列表,源自原始数据中的positions。
- 数据划分:
- 训练集:包含100,000个样本,数据大小为20,634,067字节。
数据集规模
- 下载大小:19,765,588字节
- 数据集总大小:20,634,067字节
数据配置
- 配置名称:default
- 数据文件路径:
data/train-*
搜集汇总
数据集介绍

构建方式
在计算化学领域,QM9数据集作为分子性质预测的重要基准,其构建过程体现了严谨的科学方法。该数据集源自GDB-17化学空间,通过量子化学计算筛选出包含碳、氢、氧、氮和氟原子的稳定有机小分子。每个分子结构均经过几何优化,并利用密度泛函理论在B3LYP/6-31G(2df,p)水平下计算了多种电子特性,最终形成了包含约13.4万个分子的标准化集合。
特点
QM9数据集的显著特点在于其系统性与规范性,涵盖了分子几何结构、原子类型及量子化学性质等多维度信息。数据集中的每个样本均包含原子坐标与原子序数,这些特征直接关联分子的电子结构与能量特性。其规模适中且质量统一,为机器学习模型提供了可靠的训练与评估基础,尤其适用于分子生成、性质预测及结构-活性关系研究。
使用方法
使用QM9数据集时,研究人员通常将其划分为训练集、验证集和测试集,以评估模型在未见分子上的泛化能力。该数据集可直接用于监督学习任务,如预测分子的热化学性质、电子能级或偶极矩等量子力学指标。在机器学习框架中,原子坐标与原子类型可作为输入特征,结合图神经网络或三维卷积架构,实现对分子性质的端到端学习与推理。
背景与挑战
背景概述
QM9数据集诞生于2014年,由瑞士苏黎世联邦理工学院和德国柏林工业大学的研究团队联合构建,旨在为计算化学与材料科学领域提供高质量的分子量子力学基准数据。该数据集的核心研究问题聚焦于有机小分子的量子化学性质预测,涵盖了约13.4万个稳定分子结构及其对应的多种量子化学计算属性,如能量、偶极矩和轨道能级等。QM9的发布极大地推动了机器学习在分子性质预测与材料设计中的应用,成为该领域模型开发与评估的黄金标准,对加速新药物发现和功能材料研发产生了深远影响。
当前挑战
在领域问题层面,QM9数据集致力于解决有机分子量子化学性质的高精度预测挑战,这要求模型能够有效捕捉分子结构与复杂量子特性之间的非线性映射关系,尤其是对于电子相关效应和激发态性质等难以精确计算的物理量。构建过程中,研究团队面临了大规模量子化学计算的高昂计算成本与数值稳定性难题,需通过严格的分子筛选与几何优化确保数据一致性,同时平衡数据覆盖范围与计算可行性,以提供可靠且广泛适用的基准资源。
常用场景
经典使用场景
在计算化学与材料科学领域,QM9数据集作为分子性质预测的基准工具,广泛应用于量子化学计算与机器学习模型的训练。该数据集收录了约13.4万个小有机分子的几何结构与量子化学性质,为研究者提供了精确的原子坐标与元素信息,使得分子能量、偶极矩、极化率等关键性质的模拟成为可能。通过结合密度泛函理论计算,QM9成为评估分子构象稳定性与电子特性的经典资源,推动了分子设计的高效探索。
实际应用
在实际应用中,QM9数据集被广泛用于药物发现与材料工程领域。研究人员利用其丰富的分子结构数据,训练深度学习模型以预测候选药物的生物活性或材料的电子性能,从而减少实验试错成本。例如,在太阳能电池与催化剂设计中,基于QM9的模型能够快速评估分子能级与反应活性,为绿色能源技术的开发提供理论指导。
衍生相关工作
围绕QM9数据集,衍生了一系列经典研究工作,如SchNet、PhysNet等图神经网络架构,这些模型利用分子图表示学习原子间相互作用,实现了分子性质的高精度预测。此外,QM9还促进了生成模型在分子设计中的应用,例如通过变分自编码器生成具有特定性质的新分子结构,推动了自动化分子发现流程的发展。
以上内容由遇见数据集搜集并总结生成



