Zappu/PubChem_Compound_TOC_70M

Name: Zappu/PubChem_Compound_TOC_70M
Creator: Zappu
Published: 2024-09-05 12:59:47
License: 暂无描述

Hugging Face2024-09-05 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/Zappu/PubChem_Compound_TOC_70M

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个主要特征：cmpdname和mf，可能分别代表化合物的名称和分子式。数据集被分为训练集和测试集，训练集包含63,190,496个样本，测试集包含7,021,167个样本。数据集的总下载大小为4,408,409,517字节，总数据集大小为8,311,801,128字节。

The dataset includes two main features: cmpdname and mf, likely representing compound names and molecular formulas, respectively. It is divided into training and test sets, with the training set containing 63,190,496 samples and the test set containing 7,021,167 samples. The total download size of the dataset is 4,408,409,517 bytes, and the total dataset size is 8,311,801,128 bytes.

提供机构：

Zappu

搜集汇总

数据集介绍

构建方式

该数据集源自PubChem化合物数据库，涵盖了超过7000万种化合物的基础信息。构建过程中，研究人员从PubChem中提取了化合物的标准名称（cmpdname）与分子式（mf）两大核心字段，并按照约9:1的比例随机划分为训练集与测试集。训练集包含约6319万条记录，测试集约702万条记录，整体数据以分片形式存储于HuggingFace平台，便于高效加载与分布式处理。这一简洁而规范的构建策略，旨在为化学信息学与分子性质预测研究提供大规模、高质量的基础数据支撑。

特点

该数据集最显著的特点在于其规模宏大，收录了超过7000万种化合物的名称与分子式信息，覆盖了PubChem数据库中绝大多数有机与无机小分子。数据字段精简但关键，仅保留化合物名称与分子式两项，避免了冗余信息对模型训练的干扰。此外，数据集已预先划分为训练集与测试集，并采用分片存储格式，支持流式加载与断点续训，极大降低了大规模数据处理的硬件门槛。这种高度聚焦与工程优化的设计，使其成为预训练分子语言模型或进行大规模分子检索的理想资源。

使用方法

使用者可通过HuggingFace的datasets库轻松加载该数据集，并利用其内置的分片索引自动合并训练集与测试集文件。在加载时，建议采用流式模式（streaming=True）以避免内存溢出，尤其适用于资源受限的环境。数据集中仅包含文本字段，可直接用于构建基于字符级或子词级的分词器，或作为分子式解析任务的输入。对于需要额外属性的研究，可结合PubChem官方API或本地数据库进行字段扩充。该数据集亦支持与PyTorch、TensorFlow等深度学习框架无缝集成，便于快速开展分子性质预测或生成模型的研究实验。

背景与挑战

背景概述

在化学信息学与药物发现领域，大规模化合物结构数据的系统化整理是推动分子性质预测、虚拟筛选及化学空间探索的关键基础。Zappu/PubChem_Compound_TOC_70M数据集应运而生，其基于美国国立卫生研究院（NIH）维护的PubChem数据库，于近期由研究团队构建并公开发布于HuggingFace平台。该数据集收录了约7000万种化合物的名称与分子式（MF）信息，旨在为机器学习模型提供海量、标准化的化学结构文本表示，从而支撑化学语言模型、分子生成模型以及结构-性质关系研究。凭借其空前的规模与简洁的二元特征设计，该数据集显著降低了化学大数据处理的门槛，成为连接原始PubChem资源与下游AI应用的重要桥梁，对加速化学信息学与计算药物设计的交叉研究具有里程碑式的影响力。

当前挑战

该数据集所面临的挑战首先体现在化学信息学领域的核心问题：如何从仅包含化合物名称与分子式的简单文本特征中，有效提取并学习分子结构、拓扑构型及理化性质等高阶语义信息，以克服传统分子描述符的局限性。其次，在构建过程中，面对来自PubChem的异构、庞杂且部分重复的原始数据，团队需应对数据清洗、标准化及去重等工程难题，确保约7000万条记录的一致性与完整性。此外，数据集的划分（训练集约6300万、测试集约700万）虽已固定，但如何避免因化学空间分布不均导致的模型过拟合或泛化能力不足，仍是后续应用中的关键挑战。

常用场景

经典使用场景

Zappu/PubChem_Compound_TOC_70M数据集汇集了超过7000万个化合物的名称与分子式信息，为化学信息学与计算化学领域提供了海量的结构化数据资源。研究者常利用该数据集进行分子表征学习、化学空间探索以及结构-性质关系建模，通过大规模数据驱动的方法揭示化合物结构与功能之间的潜在规律。该数据集的经典使用场景包括预训练分子语言模型、构建化合物相似性网络以及辅助虚拟筛选中的分子编码，为后续的分子性质预测与药物发现奠定了坚实的数据基础。

解决学术问题

该数据集有效解决了化学领域长期面临的数据稀疏性与标注成本高昂的困境，为大规模无监督或自监督学习提供了充足且标准化的训练样本。学术研究中，它被用于攻克分子指纹生成、化学反应预测以及逆合成分析等关键问题，推动了图神经网络与Transformer架构在分子表示上的突破。其意义在于打破了小规模数据集带来的过拟合局限，显著提升了模型在跨分子类别泛化与零样本预测任务中的性能，深刻影响了计算化学与人工智能交叉领域的研究范式。

衍生相关工作

基于该数据集衍生出一系列经典工作，包括分子预训练模型如ChemBERTa、MolBERT以及GraphMVP等，这些模型在分子性质预测基准上取得了里程碑式的成果。此外，研究者还开发了针对该数据集的对比学习框架与分子片段化策略，推动了如MoleculeNet和Tox21等下游任务的表现提升。这些工作不仅验证了大规模化合物数据在化学语言建模中的核心价值，还催生了新的分子生成算法与优化工具，持续拓展着计算化学的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集