Molecule3D
收藏arXiv2021-10-01 更新2024-06-21 收录
下载链接:
https://github.com/divelab/MoleculeX
下载链接
链接失效反馈官方服务:
资源简介:
Molecule3D数据集是由德克萨斯A&M大学团队创建的,专注于通过机器学习方法预测分子图的基态三维几何结构。该数据集包含超过390万个分子的信息,包括分子图、基态三维几何结构及多种量子属性。数据集的构建涉及从PubChemQC数据库中收集和筛选分子,并使用RICC、QUEST等超级计算机进行DFT计算以获得精确的三维几何数据。Molecule3D数据集的应用领域广泛,包括分子动力学分析、生物活性预测及材料设计等,旨在通过提供精确的三维几何信息,提高分子属性预测的准确性。
The Molecule3D dataset was developed by a research team from Texas A&M University, which specializes in predicting the ground-state 3D geometric structures of molecular graphs via machine learning methods. This dataset contains information for over 3.9 million molecules, including their molecular graphs, ground-state 3D geometric structures, and a diverse set of quantum properties. The construction of the dataset involved collecting and screening molecules from the PubChemQC database, and conducting DFT calculations using supercomputers such as RICC and QUEST to obtain accurate 3D geometric data. The Molecule3D dataset has broad application scenarios, including molecular dynamics analysis, bioactivity prediction, materials design and other fields. It aims to improve the accuracy of molecular property prediction by providing precise 3D geometric information.
提供机构:
德克萨斯A&M大学
创建时间:
2021-10-01
搜集汇总
数据集介绍

构建方式
Molecule3D数据集的构建方式是收集和过滤来自PubChemQC数据库的分子。PubChemQC是一个为量子化学研究开发的化学数据库,包含3,982,751个具有3D几何结构的分子。Molecule3D数据集包含约3,899,647个分子的精确基态几何结构,这些几何结构是通过密度泛函理论(DFT)计算得到的。为了便于机器学习应用,数据集还提供了分子图和原子特征、键特征等信息。
特点
Molecule3D数据集的特点是包含大量分子的基态3D几何结构,这些结构是通过精确的DFT计算获得的。数据集还提供了分子图和量子性质信息,如HOMO、LUMO、HOMO-LUMO间隙和总能量等。此外,Molecule3D数据集还包含了用于数据处理的软件工具,以及用于评估模型性能的四个指标:平均绝对误差(MAE)、均方根误差(RMSE)、距离矩阵的有效性和3D坐标的有效性。
使用方法
使用Molecule3D数据集的方法包括数据预处理、模型训练和评估等。首先,用户需要下载Molecule3D数据集并解压缩。然后,可以使用提供的软件工具进行数据预处理,包括分子图的构建和特征提取。接下来,用户可以使用深度学习模型进行3D几何预测,并使用数据集中的训练集和验证集进行模型训练。最后,使用测试集评估模型的预测性能,并可以使用预测的3D几何结构进行下游任务,如量子性质预测等。
背景与挑战
背景概述
分子三维结构预测是化学信息学和药物发现领域的核心任务之一。分子三维结构对于理解分子的物理、化学和生物行为至关重要,尤其是在定量结构-性质关系(QSPR)和定量结构-活性关系(QSAR)研究中。然而,获取分子的三维结构往往需要昂贵的量子化学计算,如密度泛函理论(DFT),这限制了其在大规模应用中的使用。为了解决这个问题,Molecule3D数据集应运而生,它包含了约400万个分子的精确基态三维结构,这些结构是通过DFT计算得到的。Molecule3D数据集由德克萨斯A&M大学的研究团队创建,旨在为研究者提供一个用于预测分子三维结构的基准数据集,从而推动分子模拟和分析领域的发展。
当前挑战
Molecule3D数据集的研究背景是预测分子三维结构,这是一个计算成本高昂的过程。该数据集面临的挑战包括:1)如何从分子图中预测分子的基态三维结构,这是一个复杂的问题,因为分子的结构与其性质密切相关,而现有的快速几何生成方法准确性较差;2)构建过程中所遇到的挑战,例如如何从PubChemQC数据库中筛选和过滤出有效的分子,如何处理和分析这些数据,以及如何评估预测的三维结构的准确性和有效性。为了解决这些挑战,Molecule3D数据集提供了一套软件工具,用于数据处理、分割、训练和评估等,并设计了四种指标来评估预测的三维结构的性能。
常用场景
经典使用场景
Molecule3D 数据集是一个包含约 390 万个分子精确基态几何形状的基准数据集,旨在推动机器学习方法在预测分子 3D 几何形状方面的研究。该数据集由来自 DFT 计算的分子图和相应的 3D 几何形状组成,为研究人员提供了一个强大的平台来开发和评估新的预测模型。此外,Molecule3D 还提供了一套软件工具,用于数据处理、分割、训练和评估等,使得研究人员可以轻松地使用该数据集进行实验和研究。
实际应用
Molecule3D 数据集的实际应用场景包括但不限于分子动力学分析、生物活性预测和配体或 3D 连接体的设计。例如,在药物发现领域,使用预测的 3D 分子几何形状可以帮助研究人员更准确地预测分子的生物活性,从而加速新药的筛选和开发。此外,Molecule3D 还可以用于虚拟筛选,通过预测分子的 3D 结构来筛选具有特定生物活性的分子。
衍生相关工作
Molecule3D 数据集的推出衍生了一系列相关的研究工作。例如,研究人员使用 Molecule3D 数据集开发了新的机器学习模型,如 DeeperGCN-DAGNN,来预测 3D 分子几何形状。这些模型在预测准确性和计算效率方面取得了显著的进展,为分子模拟和分析提供了新的工具和方法。此外,Molecule3D 还促进了量子性质预测的研究,通过使用预测的 3D 分子几何形状作为输入,提高了量子性质预测的准确性。
以上内容由遇见数据集搜集并总结生成



