five

molssiai-hub/pubchemqc-b3lyp

收藏
Hugging Face2025-07-22 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/molssiai-hub/pubchemqc-b3lyp
下载链接
链接失效反馈
官方服务:
资源简介:
PubChemQC-B3LYP/6-31G*//PM6数据集包含了85,938,443个分子的电子性质,这些分子涵盖了从基本化合物到分子量高达1000的生物分子。电子性质包括轨道、轨道能量、总能量、偶极矩等,这些数据是通过B3LYP/6-31G*和PM6方法计算得出的。数据集的结构包括数据实例、数据字段、数据分割和配置等。此外,文件还提供了如何使用数据集的指导,包括环境设置和数据访问方法。数据集的创建过程、来源数据、个人和敏感信息、社会影响、数据集策展人、许可信息和引用信息也都有详细说明。

The PubChemQC B3LYP/6-31G*//PM6 dataset includes electronic properties of 85,938,443 molecules, such as molecular orbitals, orbital energies, total energies, and dipole moments, calculated using the B3LYP/6-31G* and PM6 methods. This dataset covers molecules from basic compounds to biomolecules with a molecular weight up to 1000, accounting for 94.0% of the original PubChem Compound catalog.
提供机构:
molssiai-hub
原始信息汇总

PubChemQC-B3LYP/6-31G*//PM6 Dataset

数据集描述

数据集概述

PubChemQC B3LYP/6-31G//PM6* 数据集包含85,938,443个分子的电子性质,涵盖从基本化合物到分子量高达1000的生物分子。这些分子占2016年8月29日原始PubChem化合物目录的94.0%。电子性质包括轨道、轨道能量、总能量、偶极矩等,使用B3LYP/6-31G*和PM6方法计算。

数据集结构

数据实例

一个数据实例的示例如下:

json { "cid": 1, "state": "S0", "pubchem-inchi": "InChI=1S/C9H17NO4/c1-7(11)14-8(5-9(12)13)6-10(2,3)4/h8H,5-6H2,1-4H3", "pubchem-charge": 0, "pubchem-version": "20160829", "name": "000000001.B3LYP@PM6.S0", "coordinates": [ 4.543149670829423, -2.8411897941733857, -1.6418598810432616, ..., 4.345629685137421 ], "atomic-numbers": [ 6, 6, 8, ..., 1 ], "atom-count": 31, "heavy-atom-count": 14, "core-electrons": [ 0, 0, 0, ..., 0 ], "bond-order": [ 1, 1, 1, ..., 1 ], "connection-indices": [ 15, 1, 17, ..., 30 ], "formula": "C9H17NO4", "version": "1.0", "obabel-inchi": "InChI=1S/C9H17NO4/c1-7(11)14-8(5-9(12)13)6-10(2,3)4/h8H,5-6H2,1-4H3/t8-/m0/s1", "pm6-obabel-canonical-smiles": "[O]C(=O)CC@@HOC(=O)C", "charge": 0, "energy-beta-gap": 4.34837933099, "energy-beta-homo": -4.60960862747, "energy-beta-lumo": -0.2612292964799998, "energy-alpha-gap": 4.34837933099, "energy-alpha-homo": -4.60960862747, "energy-alpha-lumo": -0.2612292964799998, "total-energy": -19286.973573267132, "homos": [54], "orbital-energies": [ [ -522.303488065215, -521.209590386205, -518.042185166385, ..., 127.37105114203999 ] ], "mo-count": 244, "basis-count": 244, "multiplicity": 1, "molecular-mass": 203.23557999999983, "number-of-atoms": 31, "lowdin-partial-charges": [ -0.459759, 0.210106, -0.286001, ..., 0.169819 ], "mulliken-partial-charges": [ -0.542286, 0.622923, -0.486172, ..., 0.185706 ], "dipole-moment": 11.419443262233626, "pubchem-multiplicity": 1, "pubchem-obabel-canonical-smiles": "[O-]C(=O)CC(CN+(C)C)OC(=O)C", "pubchem-isomeric-smiles": "CC(=O)OC(CC(=O)[O-])CN+(C)C", "pubchem-molecular-weight": 203.23558, "pubchem-molecular-formula": "C9H17NO4" }

数据字段

字段 描述
cid Pubchem化合物ID
state 电子状态
pubchem-inchi 从PubChem化合物条目中提取的InChI
pubchem-charge 从PubChem化合物条目中提取的分子电荷
pubchem-version PubChem化合物数据库版本
name 用于B3LYP/6-31G*//PM6计算的输入文件名称
coordinates 使用PM6方法优化的分子几何坐标的笛卡尔坐标(以Angstroem为单位)
atomic-numbers 原子序数数组
atom-count 分子中的原子数
heavy-atom-count 分子中的重原子数
core-electrons 每个原子伪势中的核心电子数
bond-order 键序
connection-indices 原子间的连接索引
formula 化学式
version 版本号
obabel-inchi 由Open Babel生成的结构的InChI
pm6-obabel-canonical-smiles 由Open Babel生成的结构的Canonical SMILES
charge 分子电荷
energy-beta-gap 贝塔自旋轨道的HOMO-LUMO能量间隙
energy-beta-homo 贝塔自旋对称性的最高占据分子轨道(HOMO)的能量
energy-beta-lumo 贝塔自旋对称性的最低未占据分子轨道(LUMO)的能量
energy-alpha-gap 阿尔法自旋轨道的HOMO-LUMO能量间隙
energy-alpha-homo 阿尔法自旋对称性的最高占据分子轨道(HOMO)的能量
energy-alpha-lumo 阿尔法自旋对称性的最低未占据分子轨道(LUMO)的能量
total-energy 在B3LYP/6-31G*水平上计算的分子总电子能量
homos 最高占据分子轨道(HOMO)的1D索引数组,对于(非)限制波函数有一个(两个)元素
orbital-energies 轨道能量的1D数组,以hartree为单位,对于(非)限制波函数有一个(两个)成员
mo-count 分子轨道数
basis-count 基函数数
multiplicity 自旋多重性
molecular-mass 分子质量
number-of-atoms 分子中的原子数
lowdin-partial-charges Lowdin部分原子电荷
mulliken-partial-charges Mulliken部分原子电荷
dipole-moment 偶极矩
pubchem-multiplicity 从PubChem化合物中提取的分子自旋多重性
pubchem-obabel-canonical-smiles 由Open Babel生成的PubChem化合物分子的Canonical SMILES
pubchem-isomeric-smiles 由OpenEye的OEChem工具包计算的PubChem化合物分子的同分异构体SMILES
pubchem-molecular-weight 从PubChem化合物条目中提取的分子量
pubchem-molecular-formula 从PubChem化合物条目中提取的分子式

数据分割和配置

数据集只有一个train分割。PubChemQC B3LYP/6-31G*//PM6数据集有六个配置/子集:

  • b3lyp_pm6(默认)
  • b3lyp_pm6_chon300nosalt
  • b3lyp_pm6_chon500nosalt
  • b3lyp_pm6_chnopsfcl300nosalt
  • b3lyp_pm6_chnopsfcl500nosalt
  • b3lyp_pm6_chnopsfclnakmgca500

数据集创建

数据收集和规范化

PubChemQC B3LYP/6-31G*//PM6数据集从其原始Postgresql数据库中提取,转换为字典并存储在.json格式中。

源数据

原始PubChemQC B3LYP/6-31G*//PM6数据集的链接可以在这里找到。

使用数据集的注意事项

数据集的社会影响

PubChemQC B3LYP/6-31G*//PM6数据集为药物发现和材料科学等领域的应用铺平了道路。

附加信息

数据集策展人

  • Maho Nakata,RIKEN前沿研究集群,2-1 Hirosawa,Wako,Saitama 351-0198,日本
  • Toshiyuki Maeda,千叶工业大学软件技术与人工智能研究实验室,2-17-1 Tsudanuma,Narashino,Chiba 275-0016,日本

许可信息

Creative Commons Attribution 4.0 International License

引用信息

tex @article{Nakata:2023:5734, author = {Maho Nakata and Toshiyuki Maeda}, doi = {10.1021/ACS.JCIM.3C00899}, issn = {1549960X}, issue = {18}, journal = {Journal of Chemical Information and Modeling}, pages = {5734-5754}, publisher = {American Chemical Society}, title = {{PubChemQC B3LYP/6-31G*//PM6 Data Set: The Electronic Structures of 86 Million Molecules Using B3LYP/6-31G* Calculations}}, volume = {63}, url = {https://pubs.acs.org/doi/abs/10.1021/acs.jcim.3c00899}, year = {2023}, }

贡献

  • Mohammad Mostafanejad,分子科学软件研究所(MolSSI)
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要基于对PubChem数据库中化合物的电子性质进行计算,并使用B3LYP/6-31G*和PM6方法进行优化。数据集的构建过程中,首先从PubChem数据库中提取了85,938,443个化合物的信息,涵盖了从基本化合物到生物分子等广泛范围的分子。这些化合物的电子性质,包括轨道、轨道能量、总能量、偶极矩等,均通过计算获得。为了方便用户的使用,数据集以JSON格式存储,并提供了不同的配置和子集供选择。
使用方法
要使用该数据集,用户需要首先创建一个虚拟环境,并安装必要的依赖包,如huggingface_hub和ijson。然后,用户可以使用load_dataset函数从Hugging Face数据集库中加载所需的数据。在加载数据时,用户可以选择不同的配置和子集,以及是否使用streaming模式。加载完数据后,用户可以进行各种数据分析、机器学习等操作,以提取有用的信息和知识。
背景与挑战
背景概述
在化学信息学和药物发现领域,计算分子电子结构的精确度对于预测分子的性质和反应至关重要。PubChemQC-B3LYP数据集,由Maho Nakata和Toshiyuki Maeda等人创建,收集了85,938,443个分子的电子性质,包括轨道、轨道能量、总能、偶极矩等,这些数据为研究分子的电子结构提供了宝贵的资源。该数据集的创建基于2016年8月29日的PubChem化合物目录,其中包含的分子涵盖了从基本化合物到生物分子,分子量高达1000。电子性质的计算采用了B3LYP/6-31G*和PM6方法,这些方法在量子化学中广泛使用,以预测分子的电子结构。该数据集的发布不仅为研究人员提供了一个庞大的数据资源,也推动了计算化学领域的发展,为药物设计和材料科学等领域的研究提供了新的可能性。
当前挑战
尽管PubChemQC-B3LYP数据集提供了丰富的分子电子结构数据,但在使用过程中仍面临一些挑战。首先,数据集规模庞大,对于计算资源的需求较高,如何有效地管理和使用这些数据是一个挑战。其次,数据集中的电子性质计算方法虽然广泛使用,但不同方法之间的差异可能影响预测的准确性,如何选择合适的计算方法是一个需要考虑的问题。此外,数据集的更新和维护也是一个挑战,随着新的分子被添加到PubChem目录中,如何及时更新数据集以确保其有效性是一个需要解决的问题。
常用场景
经典使用场景
在量子化学领域,数据集的经典使用场景在于其丰富的电子性质数据,这些数据可以用于研究分子的轨道能级、总能量、偶极矩等关键性质。研究人员可以利用这些数据来构建和训练机器学习模型,以预测和模拟新的分子结构和性质。此外,该数据集还可以用于开发新的量子化学计算方法,以及进行药物发现和材料科学等领域的应用研究。
解决学术问题
该数据集解决了量子化学计算中数据稀缺的问题。传统的量子化学计算需要大量的计算资源和时间,而该数据集提供了大量的预计算电子性质数据,使得研究人员可以更加高效地进行计算和模拟。此外,该数据集还提供了不同分子大小的数据,使得研究人员可以更好地研究分子性质与分子大小之间的关系。
实际应用
在实践应用中,该数据集可以用于药物发现和材料科学等领域。例如,研究人员可以利用该数据集来预测和筛选具有特定性质的药物分子,或者研究新型材料的电子结构和性质。此外,该数据集还可以用于开发新的量子化学计算软件和工具,以帮助研究人员更加高效地进行计算和模拟。
数据集最近研究
最新研究方向
在量子化学领域,电子结构计算是理解和预测分子性质的核心。PubChemQC-B3LYP数据集,作为包含85,938,443个分子的电子性质数据,为研究分子间的相互作用、反应机理以及材料设计提供了丰富的资源。该数据集的最新研究方向主要集中在利用其高精度计算结果来训练和验证机器学习模型,以期在药物发现和材料科学中实现更高效的分子性质预测。特别是在药物发现方面,通过分析HOMO-LUMO能隙、偶极矩等电子性质,研究人员能够预测分子的生物活性,从而加速新药的研发进程。同时,该数据集在材料科学中的应用也日益受到关注,通过对分子结构-性质关系的深入理解,有助于设计具有特定性能的新型材料。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作