molssiai-hub/pubchemqc-b3lyp
收藏PubChemQC-B3LYP/6-31G*//PM6 Dataset
数据集描述
数据集概述
PubChemQC B3LYP/6-31G//PM6* 数据集包含85,938,443个分子的电子性质,涵盖从基本化合物到分子量高达1000的生物分子。这些分子占2016年8月29日原始PubChem化合物目录的94.0%。电子性质包括轨道、轨道能量、总能量、偶极矩等,使用B3LYP/6-31G*和PM6方法计算。
数据集结构
数据实例
一个数据实例的示例如下:
json { "cid": 1, "state": "S0", "pubchem-inchi": "InChI=1S/C9H17NO4/c1-7(11)14-8(5-9(12)13)6-10(2,3)4/h8H,5-6H2,1-4H3", "pubchem-charge": 0, "pubchem-version": "20160829", "name": "000000001.B3LYP@PM6.S0", "coordinates": [ 4.543149670829423, -2.8411897941733857, -1.6418598810432616, ..., 4.345629685137421 ], "atomic-numbers": [ 6, 6, 8, ..., 1 ], "atom-count": 31, "heavy-atom-count": 14, "core-electrons": [ 0, 0, 0, ..., 0 ], "bond-order": [ 1, 1, 1, ..., 1 ], "connection-indices": [ 15, 1, 17, ..., 30 ], "formula": "C9H17NO4", "version": "1.0", "obabel-inchi": "InChI=1S/C9H17NO4/c1-7(11)14-8(5-9(12)13)6-10(2,3)4/h8H,5-6H2,1-4H3/t8-/m0/s1", "pm6-obabel-canonical-smiles": "[O]C(=O)CC@@HOC(=O)C", "charge": 0, "energy-beta-gap": 4.34837933099, "energy-beta-homo": -4.60960862747, "energy-beta-lumo": -0.2612292964799998, "energy-alpha-gap": 4.34837933099, "energy-alpha-homo": -4.60960862747, "energy-alpha-lumo": -0.2612292964799998, "total-energy": -19286.973573267132, "homos": [54], "orbital-energies": [ [ -522.303488065215, -521.209590386205, -518.042185166385, ..., 127.37105114203999 ] ], "mo-count": 244, "basis-count": 244, "multiplicity": 1, "molecular-mass": 203.23557999999983, "number-of-atoms": 31, "lowdin-partial-charges": [ -0.459759, 0.210106, -0.286001, ..., 0.169819 ], "mulliken-partial-charges": [ -0.542286, 0.622923, -0.486172, ..., 0.185706 ], "dipole-moment": 11.419443262233626, "pubchem-multiplicity": 1, "pubchem-obabel-canonical-smiles": "[O-]C(=O)CC(CN+(C)C)OC(=O)C", "pubchem-isomeric-smiles": "CC(=O)OC(CC(=O)[O-])CN+(C)C", "pubchem-molecular-weight": 203.23558, "pubchem-molecular-formula": "C9H17NO4" }
数据字段
| 字段 | 描述 |
|---|---|
| cid | Pubchem化合物ID |
| state | 电子状态 |
| pubchem-inchi | 从PubChem化合物条目中提取的InChI |
| pubchem-charge | 从PubChem化合物条目中提取的分子电荷 |
| pubchem-version | PubChem化合物数据库版本 |
| name | 用于B3LYP/6-31G*//PM6计算的输入文件名称 |
| coordinates | 使用PM6方法优化的分子几何坐标的笛卡尔坐标(以Angstroem为单位) |
| atomic-numbers | 原子序数数组 |
| atom-count | 分子中的原子数 |
| heavy-atom-count | 分子中的重原子数 |
| core-electrons | 每个原子伪势中的核心电子数 |
| bond-order | 键序 |
| connection-indices | 原子间的连接索引 |
| formula | 化学式 |
| version | 版本号 |
| obabel-inchi | 由Open Babel生成的结构的InChI |
| pm6-obabel-canonical-smiles | 由Open Babel生成的结构的Canonical SMILES |
| charge | 分子电荷 |
| energy-beta-gap | 贝塔自旋轨道的HOMO-LUMO能量间隙 |
| energy-beta-homo | 贝塔自旋对称性的最高占据分子轨道(HOMO)的能量 |
| energy-beta-lumo | 贝塔自旋对称性的最低未占据分子轨道(LUMO)的能量 |
| energy-alpha-gap | 阿尔法自旋轨道的HOMO-LUMO能量间隙 |
| energy-alpha-homo | 阿尔法自旋对称性的最高占据分子轨道(HOMO)的能量 |
| energy-alpha-lumo | 阿尔法自旋对称性的最低未占据分子轨道(LUMO)的能量 |
| total-energy | 在B3LYP/6-31G*水平上计算的分子总电子能量 |
| homos | 最高占据分子轨道(HOMO)的1D索引数组,对于(非)限制波函数有一个(两个)元素 |
| orbital-energies | 轨道能量的1D数组,以hartree为单位,对于(非)限制波函数有一个(两个)成员 |
| mo-count | 分子轨道数 |
| basis-count | 基函数数 |
| multiplicity | 自旋多重性 |
| molecular-mass | 分子质量 |
| number-of-atoms | 分子中的原子数 |
| lowdin-partial-charges | Lowdin部分原子电荷 |
| mulliken-partial-charges | Mulliken部分原子电荷 |
| dipole-moment | 偶极矩 |
| pubchem-multiplicity | 从PubChem化合物中提取的分子自旋多重性 |
| pubchem-obabel-canonical-smiles | 由Open Babel生成的PubChem化合物分子的Canonical SMILES |
| pubchem-isomeric-smiles | 由OpenEye的OEChem工具包计算的PubChem化合物分子的同分异构体SMILES |
| pubchem-molecular-weight | 从PubChem化合物条目中提取的分子量 |
| pubchem-molecular-formula | 从PubChem化合物条目中提取的分子式 |
数据分割和配置
数据集只有一个train分割。PubChemQC B3LYP/6-31G*//PM6数据集有六个配置/子集:
b3lyp_pm6(默认)b3lyp_pm6_chon300nosaltb3lyp_pm6_chon500nosaltb3lyp_pm6_chnopsfcl300nosaltb3lyp_pm6_chnopsfcl500nosaltb3lyp_pm6_chnopsfclnakmgca500
数据集创建
数据收集和规范化
PubChemQC B3LYP/6-31G*//PM6数据集从其原始Postgresql数据库中提取,转换为字典并存储在.json格式中。
源数据
原始PubChemQC B3LYP/6-31G*//PM6数据集的链接可以在这里找到。
使用数据集的注意事项
数据集的社会影响
PubChemQC B3LYP/6-31G*//PM6数据集为药物发现和材料科学等领域的应用铺平了道路。
附加信息
数据集策展人
- Maho Nakata,RIKEN前沿研究集群,2-1 Hirosawa,Wako,Saitama 351-0198,日本
- Toshiyuki Maeda,千叶工业大学软件技术与人工智能研究实验室,2-17-1 Tsudanuma,Narashino,Chiba 275-0016,日本
许可信息
Creative Commons Attribution 4.0 International License
引用信息
tex @article{Nakata:2023:5734, author = {Maho Nakata and Toshiyuki Maeda}, doi = {10.1021/ACS.JCIM.3C00899}, issn = {1549960X}, issue = {18}, journal = {Journal of Chemical Information and Modeling}, pages = {5734-5754}, publisher = {American Chemical Society}, title = {{PubChemQC B3LYP/6-31G*//PM6 Data Set: The Electronic Structures of 86 Million Molecules Using B3LYP/6-31G* Calculations}}, volume = {63}, url = {https://pubs.acs.org/doi/abs/10.1021/acs.jcim.3c00899}, year = {2023}, }
贡献
- Mohammad Mostafanejad,分子科学软件研究所(MolSSI)




