QM40
收藏github2024-06-10 更新2024-06-12 收录
下载链接:
https://github.com/Ayeshmadu/QM40_dataset_for_ML
下载链接
链接失效反馈官方服务:
资源简介:
QM40是一个QMx类型的数据集,包含15万个从B3LYP/6-31G(2df,p)理论水平优化的分子,使用Gaussian16处理,包含量子力学参数、优化坐标、Mulliken电荷和局部振动模式参数作为键强度的定量测量。这些分子代表药物类似化合物的实际化学空间,重原子数最多可达40,包含碳(C)、氟(F)、氧(O)、氮(N)、硫(S)和氯(Cl)等原子。
The QM40 dataset, belonging to the QMx category, comprises 150,000 molecules optimized at the B3LYP/6-31G(2df,p) theoretical level using Gaussian16. It includes quantum mechanical parameters, optimized coordinates, Mulliken charges, and local vibrational mode parameters as quantitative measures of bond strength. These molecules represent the actual chemical space of drug-like compounds, with heavy atoms numbering up to 40, including atoms such as carbon (C), fluorine (F), oxygen (O), nitrogen (N), sulfur (S), and chlorine (Cl).
创建时间:
2024-06-06
原始信息汇总
QM40_dataset_for_ML 数据集概述
数据集描述
- 类型: QMx 类型数据集
- 内容: 包含150,000个分子,这些分子通过B3LYP/6-31G(2df,p)理论水平在Gaussian16中优化得到,包含量子力学参数、优化坐标、Mulliken电荷和局部振动模式参数。
- 分子特性: 分子代表真实的药物类似化合物化学空间,最大重原子数为40,包含碳(C)、氟(F)、氧(O)、氮(N)、硫(S)和氯(Cl)。
功能特点
- 根据重原子数分类SMILES。
- 筛选特定原子的SMILES。
- 将SMILES转换为PDB和XYZ文件。
- 半经验级别的量子力学计算(XTB)。
- 自动生成Gaussian16输入文件。
- 自动生成HPC的sbatch文件。
- 进行局部振动模式(LmodA)计算。
- 从Gaussian输出文件中提取量子力学参数、几何结构、Mulliken电荷和LmodA数据。
- 将提取的数据转换为CSV文件。
安装方法
pip install QM40-dataset-for-ML
数据集下载
- 状态: 即将提供免费下载。
搜集汇总
数据集介绍

构建方式
QM40数据集通过高精度量子化学计算方法构建,具体采用B3LYP/6-31G(2df,p)理论水平,在Gaussian16软件中对150,000个分子进行优化。这些分子代表了药物类化合物的真实化学空间,其重原子数最多可达40,包含碳、氟、氧、氮、硫和氯等元素。数据集不仅包含优化后的分子坐标,还涵盖了Mulliken电荷分布和局部振动模式参数,这些参数作为键强度的定量衡量标准。
特点
QM40数据集的显著特点在于其广泛的化学空间覆盖和丰富的量子化学参数。该数据集通过分类SMILES字符串根据其重原子数,筛选特定原子的SMILES,并支持将SMILES转换为PDB和XYZ文件。此外,数据集还集成了半经验量子化学计算(如XTB)和自动化的高斯输入文件生成功能,以及针对高性能计算集群的sbatch文件生成。这些特性使得QM40成为药物设计和材料科学领域中进行机器学习模型训练的理想选择。
使用方法
使用QM40数据集,首先需通过pip安装QM40-dataset-for-ML包,并确保满足其Python依赖项。数据集提供了多种功能,包括SMILES字符串的分类与筛选、文件格式转换、量子化学计算参数的提取与处理等。用户可以通过这些功能,高效地进行分子数据的预处理和分析。此外,数据集还支持自动化生成Gaussian16输入文件和HPC作业提交文件,极大地简化了复杂计算任务的设置与执行过程。
背景与挑战
背景概述
QM40数据集是由Ayeshmadu等人创建的,专注于化学领域的分子优化研究。该数据集包含了150,000个分子,这些分子通过B3LYP/6-31G(2df,p)理论水平在Gaussian16软件中进行优化,涵盖了QM参数、优化坐标、Mulliken电荷和局部振动模式参数等关键数据。这些分子代表了药物类化合物的真实化学空间,其重原子数最多可达40,包含碳、氟、氧、氮、硫和氯等元素。QM40数据集的创建旨在为机器学习算法提供高质量的化学数据,以推动分子设计和药物发现领域的研究进展。
当前挑战
QM40数据集在构建过程中面临了多个挑战。首先,从庞大的化学空间中筛选出代表性分子是一项复杂且耗时的任务。其次,通过高水平的量子化学计算获取分子优化数据,不仅计算资源需求巨大,而且数据处理过程复杂。此外,将这些复杂的化学数据转化为机器学习算法可用的格式,如CSV文件,也需要专门的技术和工具支持。这些挑战不仅影响了数据集的构建效率,也对后续的数据分析和模型训练提出了高要求。
常用场景
经典使用场景
在化学信息学领域,QM40数据集被广泛应用于机器学习模型的训练与验证。该数据集包含了150,000个经过B3LYP/6-31G(2df,p)级别理论优化的分子,涵盖了从药物类化合物中提取的多种原子组合。研究者利用这些数据进行分子结构的分类、筛选以及转换,特别是通过SMILES表示法进行分子重构,进而生成PDB和XYZ文件。此外,数据集还支持半经验级别的量子化学计算(如XTB),并能自动生成Gaussian16输入文件和HPC的sbatch文件,极大地简化了计算化学实验的流程。
实际应用
在实际应用中,QM40数据集被广泛用于药物发现和材料设计的各个阶段。例如,制药公司利用该数据集进行虚拟筛选,通过机器学习模型预测潜在药物分子的活性,从而加速新药的研发过程。在材料科学领域,研究者使用QM40数据集进行新型材料的模拟和设计,通过优化分子结构来提升材料的性能。此外,环境化学研究中,该数据集也被用于评估化学物质的环境影响和毒性,为环保政策的制定提供科学依据。
衍生相关工作
基于QM40数据集,研究者们开展了一系列经典工作。例如,有研究利用该数据集开发了新的分子指纹算法,用于更精确地描述和区分分子结构。此外,还有工作探索了如何将量子化学计算与深度学习相结合,以提高分子性质预测的准确性。在药物设计领域,有研究团队基于QM40数据集构建了预测模型,成功发现了多个具有潜在治疗效果的新分子。这些衍生工作不仅丰富了量子化学计算的理论体系,也为实际应用提供了强有力的工具支持。
以上内容由遇见数据集搜集并总结生成



