pubchem-04-18-2025

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/molssiai-hub/pubchem-04-18-2025

下载链接

链接失效反馈

官方服务：

资源简介：

PubChem数据集是一个开放的化学信息资源，由美国国立卫生研究院（NIH）下属的国家生物技术信息中心（NCBI）提供。该数据集包含大量的小分子和部分大分子信息，如核苷酸、碳水化合物、脂质、肽以及化学修饰的大分子等。数据集收集了化学物质的化学结构、标识符、化学与物理性质、生物活性、专利、健康、安全性和毒性数据等多种信息。

The PubChem Dataset is an open chemical information resource provided by the National Center for Biotechnology Information (NCBI), which is affiliated with the U.S. National Institutes of Health (NIH). This dataset contains extensive information on small molecules and a portion of macromolecules, including nucleotides, carbohydrates, lipids, peptides, and chemically modified macromolecules. It collects a wide range of data associated with chemical substances, such as their chemical structures, identifiers, chemical and physical properties, bioactivities, patent information, health-related data, safety and toxicity data, and more.

创建时间：

2025-04-19

原始信息汇总

PubChem Dataset (version 04-18-2025) 概述

数据集基本信息

名称: pubchem-04-18-2025
标签: pubchem, small-molecules, InChI, SMILES, molecular-geometry, molecular-properties, chemical-properties, cheminformatics
许可证: pddl (Free Public Domain License)
许可证链接: https://opendatacommons.org/licenses/pddl
数据集大小: 100M<n<200M
来源数据集: pubchem-compound, pubchem-04-18-2025
任务类别: tabular-regression, other
任务ID: tabular-single-column-regression

数据集描述

主页: https://pubchem.ncbi.nlm.nih.gov
论文: https://doi.org/10.1093/nar/gkac956
联系人:
- Sunghwan Kim (kimsungh@ncbi.nlm.nih.gov)
- Mohammad Mostafanejad (smostafanejad@vt.edu)
- MolSSI-AI Hub (hub@molssi.org)

数据集摘要

PubChem是一个开放的化学数据库，包含小分子、核苷酸、碳水化合物、脂质、肽等化学结构、标识符、化学和物理性质、生物活性、专利、健康、安全、毒性数据等。

数据集结构

数据实例

数据实例以JSON格式存储，包含化合物的CID、SMILES、InChI、分子量、分子式、氢键供体/受体数量、拓扑极性表面积等字段。

数据字段

字段	描述
PUBCHEM_COMPOUND_CID	PubChem化合物ID
PUBCHEM_SMILES	异构SMILES
PUBCHEM_IUPAC_INCHI	InChI
PUBCHEM_MOLECULAR_WEIGHT	分子量
PUBCHEM_MOLECULAR_FORMULA	分子式
PUBCHEM_CACTVS_HBOND_ACCEPTOR	氢键受体数量
PUBCHEM_CACTVS_HBOND_DONOR	氢键供体数量
PUBCHEM_CACTVS_TPSA	拓扑极性表面积

数据分割与配置

仅包含一个train分割
配置名称: pubchem-04-18-2025 (默认)

数据集创建

创建理由

从PubChem原始FTP仓库提取数据，转换为字典格式并存储为JSON。

来源数据

原始FTP仓库: https://ftp.ncbi.nlm.nih.gov/pubchem/Compound/

使用注意事项

社会影响

该数据集可用于药物发现和材料科学等领域。

附加信息

数据集维护者

包括Sunghwan Kim、Jie Chen等来自美国国立卫生研究院国家生物技术信息中心的研究人员。

引用信息

tex @article{Kim:2022:D1373, author = {Kim, Sunghwan and Chen, Jie and Cheng, Tiejun and Gindulyte, Asta and He, Jia and He, Siqian and Li, Qingliang and Shoemaker, Benjamin A and Thiessen, Paul A and Yu, Bo and Zaslavsky, Leonid and Zhang, Jian and Bolton, Evan E}, title = "{PubChem 2023 update}", journal = {Nucleic Acids Research}, volume = {51}, pages = {D1373-D1380}, year = {2022}, doi = {10.1093/nar/gkac956} }

贡献者

Mohammad Mostafanejad (The Molecular Sciences Software Institute)

搜集汇总

数据集介绍

构建方式

PubChem数据集作为化学信息学领域的重要资源，其构建过程体现了科学数据的系统化整合。该数据集通过提取PubChem原始FTP存储库中的化合物数据，采用标准化流程将异构数据转换为结构化JSON格式。数据源来自美国国立卫生研究院维护的开放化学数据库，涵盖1亿至2亿个化合物实例，每个实例包含分子结构、理化性质等43个特征字段。数据转换过程中保留了原始数据的完整性，仅对存储格式进行优化，确保数据可追溯至原始研究文献和实验数据。

特点

该数据集最显著的特征在于其全面的分子表征体系。每个化合物条目不仅包含标准标识符（如CID、SMILES、InChI），还整合了由Cactvs和OEChem等专业软件计算的分子复杂性、氢键特征等三维结构参数。值得注意的是，2025版新增了包含立体化学和同位素信息的PUBCHEM_SMILES字段，将逐步取代原有同构SMILES表示。数据集采用PDDL许可证，允许自由的学术和商业应用，其多维度化学描述为药物发现和材料设计提供了丰富的特征空间。

使用方法

使用该数据集时，建议通过HuggingFace平台加载默认的train配置，数据以JSON格式存储便于解析。典型应用场景包括构建QSAR预测模型，此时可利用分子量、拓扑极性表面积等特征作为回归变量。对于分子生成任务，建议优先采用包含立体化学信息的PUBCHEM_SMILES字段。数据集支持多种计算化学工具链的对接，如RDKit可直接解析其分子结构字段。需要注意不同字段的数据来源差异，物性参数多来自计算模拟，而结构数据则包含实验测定和理论预测两种来源。

背景与挑战

背景概述

PubChem数据集作为美国国立卫生研究院（NIH）旗下的开放化学数据库，自2004年推出以来已成为化学信息学领域的重要资源。该数据集由Sunghwan Kim等研究人员主导开发，整合了包括小分子、核苷酸、碳水化合物等多种化合物的结构信息、理化性质及生物活性数据。其核心价值在于为药物发现、材料科学等领域提供了标准化、可计算的分子表征体系，特别是通过SMILES和InChI等标准化标识符实现了化学结构的机器可读性。2025年4月版本新增了包含立体化学信息的PUBCHEM_SMILES字段，进一步提升了数据表征的精确度。

当前挑战

该数据集面临的主要挑战体现在两个维度：在科学应用层面，如何准确处理立体异构体与同位素标记分子的复杂表征问题仍是计算化学的难点，尤其当涉及分子性质预测时，现有模型对三维构象的解析能力仍有局限。在数据构建层面，海量化合物的自动化标注存在显著挑战，包括不同计算工具（如OEChem、Cactvs）生成的分子描述符之间的兼容性问题，以及维持超1亿条记录的数据一致性需要复杂的质量控制流程。此外，动态更新的数据版本管理也需平衡新数据引入与历史版本稳定性之间的关系。

常用场景

经典使用场景

在化学信息学和药物发现领域，PubChem数据集被广泛用于分子性质预测和虚拟筛选。研究人员利用其丰富的分子描述符和三维结构信息，构建机器学习模型来预测化合物的生物活性、溶解度和毒性等关键特性。该数据集提供的标准化SMILES和InChI标识符，为分子表示学习提供了统一框架。

衍生相关工作

基于PubChem数据集的经典研究包括分子指纹生成算法开发、图神经网络在化学中的应用等。例如MoleculeNet基准测试框架整合了该数据集评估深度学习模型性能。近期工作如ChemBERTa利用其SMILES数据训练化学领域语言模型，推动了分子表示学习的发展。

数据集最近研究