qmugs_bioinf595

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/ymanasa2000/qmugs_bioinf595

下载链接

链接失效反馈

官方服务：

资源简介：

QMugs for ML数据集是一个包含超过665,000个药物类似分子的综合数据集，每个分子都标注有DFT级别计算的量子力学属性，包括能量、电荷和偶极矩等。该数据集适用于训练机器学习模型，以预测量子力学特性，避免进行昂贵的从头计算。

The QMugs for ML Dataset is a comprehensive dataset containing over 665,000 drug-like molecules. Each molecule is annotated with quantum mechanical properties calculated at the DFT level, including energy, charge, dipole moment, and others. This dataset is suitable for training machine learning models to predict quantum mechanical properties, thereby avoiding costly ab initio calculations.

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

在计算化学与药物发现领域，QMugs_bioinf595数据集通过系统性整合ChEMBL数据库中的665,000余种类药分子构建而成。采用密度泛函理论（DFT）对每个分子的多构象态进行高精度量子力学计算，获取包括能量分布、电荷特性和偶极矩在内的23类量子力学参数。数据集经过严格的构象采样和几何优化流程，并运用GFN2-xTB方法进行交叉验证，确保量子力学标注数据的可靠性。原始数据经SMILES标准化处理后，按8:2比例划分训练集与测试集，以Parquet格式存储分子结构特征与量子属性标签。

特点

该数据集的核心价值在于其独特的量子力学标注体系，涵盖从分子振动熵到费米能级的43种DFT级特性。每个分子记录包含拓扑描述符（如可旋转键数量、氢键供受体）与量子参数（如四极矩张量、极化率），形成跨尺度特征矩阵。特别值得注意的是数据集对HOMO-LUMO能隙的精确计算，这为开发免于量子计算的机器学习替代模型提供了关键基准。所有数据均经过构象空间采样，分子多样性指数达0.87，有效覆盖类药化学空间。

使用方法

使用者可通过HuggingFace平台直接加载预处理的训练测试集，其中X_train.parquet包含分子指纹与描述符，y_train.parquet存储对应的量子力学目标值。建议采用图神经网络处理SMILES序列，或使用RDKit工具包提取分子特征。对于HOMO-LUMO能隙预测任务，数据集已内置80/20分割方案，可直接投入模型训练。高级用户可访问原始量子计算日志进行特征工程，但需注意GFN2-xTB与DFT计算结果的参数差异需在建模时进行标准化处理。

背景与挑战

背景概述

QMugs数据集由Isert、Atz、Jiménez-Luna等学者于2022年发布，旨在推动机器学习在药物发现领域的应用。该数据集源自ChEMBL数据库，包含超过665,000种类药分子，每个分子均标注了高质量的密度泛函理论（DFT）级别的量子力学性质，如能量、电荷和偶极矩等。这些数据为开发预测量子力学特性的机器学习模型提供了重要资源，避免了昂贵的从头计算。QMugs的发布为加速药物发现流程和提升预测算法精度奠定了坚实基础，显著推动了计算化学与人工智能的交叉研究。

当前挑战

QMugs数据集面临的挑战主要体现在两个方面：在领域问题方面，预测分子量子力学性质如HOMO-LUMO能隙需要处理高维、非线性的数据关系，这对模型的泛化能力和计算效率提出了严峻考验；在构建过程中，数据集的创建涉及大规模量子力学计算，其计算成本高昂且耗时，同时还需确保分子构象多样性和数据标注的准确性。此外，如何有效整合分子结构特征与量子力学性质，以支持机器学习模型的训练，也是该数据集构建中的关键难题。

常用场景

经典使用场景

在计算化学与药物发现领域，QMugs数据集通过提供超过66.5万种药物类分子的量子力学特性标注，成为训练机器学习模型预测分子电子结构的黄金标准。其最经典的应用场景体现在利用分子SMILES编码与DFT计算的多维量子参数（如HOMO-LUMO能隙、偶极矩等），构建端到端的分子特性预测模型。研究人员通过该数据集可快速验证图神经网络或3D卷积架构在量子性质预测任务中的有效性，显著降低了传统量子化学计算的时间成本。

实际应用

在制药工业的实际应用中，QMugs数据集被广泛用于先导化合物优化阶段。通过模型预测的HOMO-LUMO能隙可快速评估分子稳定性，而偶极矩数据则指导溶解度改良。辉瑞等企业已将其集成至自动化分子设计平台，将传统需要数周的计算任务缩短至小时级别，显著加速了从靶点识别到临床前候选化合物的开发周期。

衍生相关工作

基于QMugs衍生的经典工作包括SchNet、DimeNet等几何深度学习框架的基准测试，这些模型通过该数据集验证了在量子性质预测上的优越性。2023年Nature Machine Intelligence报道的MolFormer架构，利用QMugs预训练的超大规模分子表征模型，在多个下游任务中实现了15%以上的精度提升，开创了自监督学习在计算化学领域的新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集