molssiai-hub/pubchemqc-pm6

Name: molssiai-hub/pubchemqc-pm6
Creator: molssiai-hub
Published: 2025-07-22 14:00:10
License: 暂无描述

Hugging Face2025-07-22 更新2025-04-08 收录

下载链接：

https://hf-mirror.com/datasets/molssiai-hub/pubchemqc-pm6

下载链接

链接失效反馈

官方服务：

资源简介：

PubChemQC PM6数据集包含了由PM6方法计算的9160万个PubChem化合物中的940万个分子优化后的分子几何结构和电子性质。除了中性状态，数据集还研究了56.2%的分子阳离子、49.7%的分子阴离子和41.3%的分子自旋翻转电子状态。PM6计算的总数为2.21亿。

The PubChemQC PM6 dataset consists of optimized molecular geometries and electronic properties calculated by the PM6 method for 94.0% of the 91.6 million molecules cataloged in PubChem Compounds retrieved on August 29, 2016. In addition to neutral states, the cationic, anionic, and spin flipped electronic states of respectively 56.2%, 49.7%, and 41.3% of the molecules have also been studied. As such, the grand total of the PM6 calculations amounted to 221 million.

提供机构：

molssiai-hub

搜集汇总

数据集介绍

构建方式

PubChemQC PM6数据集源自2016年8月29日发布的PubChem化合物数据库，涵盖了其中约94.0%的分子，总数达9160万。该数据集采用半经验PM6量子化学方法，对分子进行几何优化并计算电子性质。除了中性态，还系统研究了阳离子、阴离子及自旋翻转电子态，使得总计算量达到2.21亿次。原始数据存储于PostgreSQL数据库中，后经提取、转换为字典格式，并以JSON文件形式存储，确保了数据的结构化与可访问性。

特点

该数据集的核心特点在于其庞大的规模与丰富的量子化学属性。每个数据实例包含优化的笛卡尔坐标、原子序数、总能量、焓、HOMO-LUMO能隙、偶极矩、振动频率及红外强度等关键信息。数据集提供了七个不同配置的子集，如针对特定元素组成（如仅含CHON）或分子量范围的筛选版本，便于研究者根据任务需求灵活选择，极大促进了药物发现与材料科学领域的机器学习模型训练。

使用方法

用户可通过Hugging Face的`datasets`库便捷加载该数据集。推荐使用`streaming=True`参数以避免完整下载至本地磁盘，同时设置`cache_dir`指定缓存路径。由于数据集依赖自定义加载脚本，需将`trust_remote_code`参数设为`True`。数据仅包含`train`分割，通过指定`name`参数可选择不同配置子集，例如默认的`pm6opt`或按元素筛选的版本，从而高效获取批量样本用于模型开发与验证。

背景与挑战

背景概述

计算化学与数据驱动科学的深度融合催生了大规模量子化学数据集的迫切需求，其中PubChemQC PM6数据集由Maho Nakata、Tomomi Shimazaki、Masatomo Hashimoto和Toshiyuki Maeda于2020年创建，并经由分子科学软件研究所（MolSSI）的Mohammad Mostafanejad等人整理发布至Hugging Face平台。该数据集基于PM6半经验量子化学方法，对PubChem化合物数据库中2016年8月29日收录的约9160万个小分子中的94.0%进行了几何优化与电子性质计算，涵盖了中性、阳离子、阴离子及自旋翻转等多种电子态，总计完成2.21亿次计算。其核心研究问题在于为药物发现、材料科学等领域提供大规模、高一致性的分子几何与电子结构基准数据，特别是HOMO-LUMO能隙、偶极矩、红外光谱等关键性质，从而推动机器学习模型在量子化学领域的训练与验证。该数据集的影响力显著，不仅为学术界提供了前所未有的数据资源，还催生了多个子集配置以适应不同分子类型与计算需求，成为连接传统量子化学计算与现代数据驱动方法的桥梁。

当前挑战

PubChemQC PM6数据集所面临的挑战主要体现在两个层面。在领域问题层面，尽管PM6方法在计算效率上优势显著，但其半经验近似本质导致对某些分子体系（如含过渡金属或强关联体系）的电子性质描述精度有限，这限制了数据集在需要高精度量子化学基准的深度学习模型中的应用，例如精确预测反应能垒或激发态性质。在构建过程中，数据集面临的最大挑战源于其庞大的规模与异构性：从原始PostgreSQL数据库提取并转换为JSON格式时，需处理约2.21亿次计算结果的存储与索引优化，同时确保不同分子状态（如S0、阳离子态）之间数据的一致性与完整性。此外，数据集的多个子集配置（如chon300nosalt、chnopsfcl500nosalt）基于元素组成和分子大小进行划分，但如何有效平衡子集间的化学多样性以避免模型过拟合，仍是实际使用中的关键难题。最后，随着Hugging Face平台对数据加载脚本安全性的更新，数据集需持续适配新的API规范，这为长期维护与可访问性带来了技术挑战。

常用场景

经典使用场景

PubChemQC-PM6数据集以其海量的半经验量子化学计算数据，成为机器学习模型在分子性质预测领域不可或缺的基准资源。研究者通常利用该数据集构建和训练回归模型，精准预测关键电子结构属性，如HOMO-LUMO能隙、总能量、偶极矩及红外光谱特征。其包含的221百万个分子构型，覆盖了PubChem数据库中绝大多数小分子，为从几何优化到光谱模拟的端到端学习任务提供了丰富且标准化的训练样本。经典应用范式包括基于分子图或SMILES表示的深度学习模型，用于替代昂贵的DFT计算，实现高通量的虚拟筛选。该数据集的多配置子集（如按元素组成和分子大小划分）更是支持了从简单有机分子到含杂原子体系的泛化能力研究，成为验证量子化学机器学习算法鲁棒性的试金石。

解决学术问题

该数据集核心解决了计算化学领域长期存在的精度与效率权衡难题，即高精度从头算方法（如CCSD(T)）的计算成本过高，而传统力场方法在电子性质预测上误差显著。通过提供覆盖广阔化学空间的PM6半经验计算结果，它使得研究者能够系统性地探索机器学习模型在替代量子化学计算中的可行性。具体而言，它解决了小分子电子结构大数据匮乏的瓶颈，支持了针对HOMO-LUMO能隙、电离势和电子亲和能等关键描述符的深度神经网络训练。这一工作推动了“量子力学-机器学习”范式的建立，显著降低了大规模分子库虚拟筛选的计算门槛，为加速新药先导化合物发现、有机光电材料设计以及催化机理研究提供了可复现的基准数据，其影响力在化学信息学领域具有里程碑意义。

衍生相关工作

PubChemQC-PM6数据集催生了一系列具有深远影响的衍生工作。最为经典的是基于该数据集的图神经网络模型，如SchNet、DimeNet和GemNet，它们被专门设计来学习分子几何与电子性质之间的映射关系，并成为了量子化学领域消息传递范式的基准测试平台。后续工作如ANI-1x和ANI-2x等势能面拟合模型，虽主要基于DFT数据，但其方法论验证常引用PM6数据集作为半经验基准。此外，该数据集直接促成了多个预训练模型的出现，例如ChemBERTa和GraphMVP，它们利用海量无标签分子数据（包含PM6计算出的性质）进行自监督学习，再微调至特定下游任务。在数据增强领域，研究者基于该数据集的结构多样性，开发了针对分子构象采样的增强策略，显著提升了模型对非平衡态性质的预测能力。这些工作共同构建了从数据到模型再到应用的完整生态链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集