PubChemQC B3LYP/6-31G*//PM6
收藏arXiv2023-05-29 更新2024-06-21 收录
下载链接:
https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html
下载链接
链接失效反馈官方服务:
资源简介:
PubChemQC B3LYP/6-31G*//PM6数据集是由理化学研究所的中田真帆和前田俊英创建,包含了85938443个分子的电子结构信息,涵盖从小分子到大型生物分子的广泛范围。该数据集通过B3LYP/6-31G*方法计算,提供了包括轨道、轨道能量、总能量、偶极矩等在内的电子属性。数据集可用于多种应用,如药物发现和材料科学,旨在通过机器学习模型加速这些领域的研究和发展。
The PubChemQC B3LYP/6-31G*//PM6 dataset was created by Maho Nakata and Toshihide Maeda from RIKEN. It contains electronic structure information for 85,938,443 molecules, covering a wide range from small molecules to large biomolecules. Calculated via the B3LYP/6-31G* method, this dataset provides electronic properties including orbitals, orbital energies, total energies, dipole moments, and other relevant electronic attributes. The dataset can be applied in various scenarios such as drug discovery and materials science, aiming to accelerate research and development in these fields through machine learning models.
提供机构:
理化学研究所
创建时间:
2023-05-29
搜集汇总
数据集介绍

构建方式
PubChemQC B3LYP/6-31G*//PM6数据集的构建方式涉及从PubChem数据库中提取分子结构信息,并使用量子化学计算方法B3LYP/6-31G*和半经验方法PM6进行电子结构的计算。首先,从PubChemQC PM6数据库中提取了86,213,135个中性分子的.xyz文件,并通过Open Babel软件生成了GAMESS量子化学程序的输入文件。然后,利用B3LYP密度泛函理论方法和6-31G*基组对分子进行电子结构计算,以获得包括轨道能量、总能量、偶极矩等电子性质。计算过程中使用了RIKEN HOKUSAI BigWave超级计算机和QUEST集群,总共耗时约31.1百万核心小时。最终,从计算结果中筛选出85,938,443个有效分子,并创建了五个子数据集,以提供更具体和针对性的数据。
使用方法
使用PubChemQC B3LYP/6-31G*//PM6数据集的方法主要包括以下几种:首先,可以直接下载GAMESS量子化学程序的输入/输出文件,并进行进一步的分析和处理。其次,可以使用cclib库解析输出文件,并提取所需的分子性质信息,如总能量、轨道能量、偶极矩等。第三,可以使用Open Babel软件提取分子的三维坐标,并生成.xyz文件。第四,可以使用PostgreSQL数据库进行数据查询,并通过PostgREST库获取JSON格式的数据输出。第五,可以使用自定义的查询语句,根据特定的分子性质或分子结构进行数据筛选和分析。最后,可以通过Docker容器化部署数据库,方便研究人员进行集成和使用。
背景与挑战
背景概述
在化学领域,特别是药物发现和材料科学中,分子数据库扮演着至关重要的角色。PubChemQC B3LYP/6-31G*//PM6数据集正是在这一背景下诞生的。该数据集由日本理化研究所的Maho Nakata和Toshiyuki Maeda等人创建,于2023年5月29日发布在arXiv上。数据集包含了85,938,443个分子的电子性质数据,包括轨道、轨道能量、总能量、偶极矩等。这些数据是通过B3LYP/6-31G*方法和PM6方法计算得出的,涵盖了从小型基本化合物到大型生物分子的一系列分子。该数据集的创建旨在为药物发现和材料科学等领域的研究提供支持,通过机器学习模型开发等手段,加速科学进步。
当前挑战
尽管PubChemQC B3LYP/6-31G*//PM6数据集在分子数据库中占有重要地位,但仍面临一些挑战。首先,如何利用这个庞大的数据集开发出更精确的机器学习模型,以预测分子的性质,是当前面临的一大挑战。其次,数据集的构建过程中,如何处理计算过程中出现的失败案例,以及如何确保数据的准确性和完整性,也是需要解决的问题。此外,如何利用数据集进行更深入的分析,以揭示分子性质与结构之间的关系,也是未来研究的重要方向。
常用场景
经典使用场景
PubChemQC B3LYP/6-31G*//PM6数据集广泛用于药物发现和材料科学领域。研究者可以借助该数据集中的电子性质数据,如轨道、轨道能量、总能量、偶极矩等,通过机器学习模型进行训练,以预测分子性质。这些预测可用于筛选药物候选分子,优化材料性能,以及理解反应机制。此外,该数据集还用于开发新的QSAR(定量结构-活性关系)模型,以更可靠地预测药物的稳定性和代谢途径。
解决学术问题
该数据集解决了现有量子化学数据集规模较小、多样性不足的问题,为研究者和开发人员提供了更广泛和多样化的分子结构。这使得机器学习模型能够更好地泛化,从而提高了药物发现和材料科学中分子性质预测的准确性和可靠性。此外,该数据集还解决了量子化学计算时间过长的问题,通过半经验PM6方法优化分子结构,从而加速了计算过程。
实际应用
PubChemQC B3LYP/6-31G*//PM6数据集在药物发现和材料科学领域有着广泛的应用。通过训练机器学习模型,研究者可以预测分子性质,如HOMO-LUMO能隙,从而筛选出具有特定性质的药物候选分子。在材料科学中,该数据集可用于预测材料的电子结构和光电器件性能,如OLED(有机发光二极管)材料的发光性能。此外,该数据集还可用于开发新的QSAR模型,以预测药物的稳定性和代谢途径,从而加速药物研发过程。
数据集最近研究
最新研究方向
PubChemQC B3LYP/6-31G*//PM6数据集的发布为化学领域的机器学习模型开发提供了丰富的资源。该数据集涵盖了8,590万个分子的电子性质,包括轨道、轨道能量、总能量、偶极矩等,覆盖了从小型化合物到大型生物分子的广泛范围。这一数据集的规模和多样性使其成为药物发现和材料科学领域的重要工具。通过开发机器学习模型,研究人员可以利用该数据集进行各种应用,如预测分子的电子性质、设计药物分子、理解反应机制等。此外,该数据集还允许研究人员比较PM6//PM6和B3LYP/6-31G*//PM6计算方法之间的差异,为量子化学计算提供了新的视角。
相关研究论文
- 1PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G* calculations理化学研究所 · 2023年
以上内容由遇见数据集搜集并总结生成



