QM datasets from QCArchive
收藏github2023-12-12 更新2024-05-31 收录
下载链接:
https://github.com/choderalab/download-qca-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从QCArchive下载的QM数据集,包括小分子、肽和核酸等广泛化学分子,以及它们的QM势能、力、坐标、原子编号和标准异构体显式氢映射的SMILES。数据集使用B3LYP-D3BJ/DZVP理论级别生成,该级别平衡了计算效率和准确性,以复制由更高级别理论生成的构象。
This dataset comprises QM datasets downloaded from QCArchive, encompassing a wide range of chemical molecules such as small molecules, peptides, and nucleic acids, along with their QM potential energies, forces, coordinates, atomic numbers, and standard isomer explicit hydrogen mappings in SMILES format. The dataset was generated using the B3LYP-D3BJ/DZVP theoretical level, which balances computational efficiency and accuracy to replicate conformations generated by higher-level theories.
创建时间:
2023-03-11
原始信息汇总
数据集概述
数据集来源与内容
数据集类型与理论级别
- 类型: 包括
Dataset,OptimizationDataset,TorsionDriveDataset。 - 理论级别: 使用
B3LYP-D3BJ/DZVP级别,此级别为Open Force Field Initiative默认用于力场开发的理论。
数据集目录结构
- 基本数据集:
BasicDatasetspice-dipeptidespice-pubchemspice-des-monomersrna-diverserna-trinculeotiderna-nucleoside
- 优化数据集:
OptimizationDatasetgen2pepconf-dlc
- 扭转驱动数据集:
TorsionDriveDatasetgen2protein
数据集存储格式
- 格式: 所有数据存储为HDF5文件。
数据集下载与引用
- 下载: 可通过Zenodo下载所有HDF5文件。
- 引用: 使用时请引用Takaba et al., 2023。
搜集汇总
数据集介绍

构建方式
QM datasets from QCArchive 数据集通过QCPortal客户端接口从QCArchive项目中下载,涵盖了广泛的化学分子,包括小分子、肽类和核酸等。这些数据集的量子力学(QM)势能、力、坐标、原子序数以及规范异构体显式氢映射的SMILES信息均以HDF5文件格式存储。所有数据集均采用B3LYP-D3BJ/DZVP理论水平生成,该理论水平在计算效率和准确性之间取得了平衡,适用于力场开发。
特点
该数据集的特点在于其广泛覆盖了多种化学分子类型,并提供了详细的量子力学计算结果。数据集中的分子信息不仅包括基本的几何结构,还涵盖了势能、力场等关键物理量,为分子力学模拟提供了坚实的基础。此外,数据集采用HDF5格式存储,便于高效的数据读取和处理。这些特点使得该数据集在分子模拟、药物设计等领域具有重要的应用价值。
使用方法
用户可以通过QCPortal客户端接口下载数据集,并使用提供的Jupyter Notebook示例进行数据探索。数据集以HDF5文件格式存储,用户可以通过Python中的h5py库或其他支持HDF5格式的工具进行读取和分析。此外,数据集还提供了详细的元数据信息,帮助用户快速理解数据的结构和内容。通过结合QCArchive的API,用户还可以进一步扩展数据集的应用场景,例如进行分子动力学模拟或量子化学计算。
背景与挑战
背景概述
QM datasets from QCArchive 是由 Open Force Field Initiative 主导创建的一个量子化学计算数据集,旨在为分子力学力场的开发提供高质量的计算数据。该数据集通过 QCPortal 接口从 QCArchive 项目中获取,涵盖了小分子、肽段和核酸等多种化学分子的量子力学计算结果,包括势能、力、坐标、原子数以及标准异构体显式氢映射的 SMILES 信息。数据集采用 B3LYP-D3BJ/DZVP 理论水平进行计算,这一理论水平在计算效率和准确性之间取得了平衡,能够较好地复现更高理论水平的构象。该数据集的创建时间为 2020 年,主要研究人员来自 Open Force Field Initiative 和 Chodera 实验室,其核心研究问题在于如何通过量子化学计算数据优化分子力学力场,从而提升分子模拟的精度和效率。该数据集在计算化学和分子模拟领域具有重要影响力,为力场开发和验证提供了坚实的基础。
当前挑战
QM datasets from QCArchive 面临的挑战主要集中在两个方面。首先,在领域问题方面,该数据集旨在解决分子力学力场开发中的精度问题,尤其是如何通过量子化学计算数据优化力场参数。然而,量子化学计算本身的计算成本极高,且不同理论水平的计算结果可能存在显著差异,如何在计算效率和精度之间取得平衡是一个关键挑战。其次,在数据集构建过程中,研究人员需要处理大量异构体和分子构象的计算数据,确保数据的完整性和一致性。此外,随着计算化学领域的快速发展,数据集的更新和维护也面临挑战,尤其是如何将新理论水平和计算方法整合到现有数据集中,以保持其前沿性和实用性。这些挑战要求研究人员在数据处理、存储和计算资源管理方面具备高度的专业能力。
常用场景
经典使用场景
QM datasets from QCArchive 数据集在计算化学领域中被广泛用于分子力学力场的开发和验证。通过提供大量小分子、肽类和核酸的量子力学(QM)数据,该数据集为研究人员提供了精确的分子势能、力场、坐标和原子编号等信息。这些数据通常用于训练机器学习模型,以预测分子的能量和构象,从而推动分子模拟技术的发展。
实际应用
在实际应用中,QM datasets from QCArchive 数据集被广泛用于药物设计和材料科学领域。例如,在药物设计中,研究人员利用该数据集中的分子构象和能量信息,优化药物分子的结构和结合能力。此外,该数据集还被用于开发新的分子力场,以模拟复杂的生物分子系统,如蛋白质和核酸的相互作用,从而为生物医学研究提供重要的理论支持。
衍生相关工作
该数据集衍生了许多经典的研究工作,尤其是在分子力场和机器学习模型的开发方面。例如,基于该数据集的Open Force Field Initiative项目开发了一系列开源的分子力场,广泛应用于药物设计和材料科学领域。此外,该数据集还催生了多个机器学习模型,用于预测分子的能量和构象,进一步推动了计算化学和分子模拟技术的发展。
以上内容由遇见数据集搜集并总结生成



