PubChem|化学分子数据集|机器学习数据集

huggingface2024-12-12 更新2024-12-13 收录

下载链接：

https://huggingface.co/datasets/haydn-jones/PubChem

下载链接

链接失效反馈

资源简介：

该数据集主要用于化学、生物学和医学领域的研究，包含CID、SMILES和SELFIES三种特征，分别用于标识化合物、描述分子结构和自我描述分子。数据集被划分为训练集、验证集和测试集，分别包含大量样本，总数据量达到36.6TB，下载大小为12.6GB。

创建时间：

2024-12-11

原始信息汇总

PubChem 数据集概述

数据集信息

特征

CID: 化学物质标识符，数据类型为 int64。
SMILES: 化学结构的简化分子输入线性表示，数据类型为 large_string。
SELFIES: 化学结构的符号化表示，数据类型为 string。

数据分割

train: 训练集，包含 95,207,924 个样本，大小为 29,280,467,548.8 字节。
val: 验证集，包含 11,900,990 个样本，大小为 3,660,058,289.828831 字节。
test: 测试集，包含 11,900,991 个样本，大小为 3,660,058,597.371169 字节。

数据集大小

下载大小: 12,629,892,833 字节。
数据集总大小: 36,600,584,436.0 字节。

配置

default: 默认配置，包含训练、验证和测试集的数据文件路径。

数据集规模

100M<n<1B: 数据集规模在 100M 到 1B 之间。

AI搜集汇总

数据集介绍

构建方式

PubChem数据集的构建基于全球化学和生物医学领域的广泛研究需求，通过系统性地收集和整理化学物质的详细信息，包括其化学标识符（如CID）、SMILES表示法以及SELFIES编码。这些数据来源于多个权威数据库和实验研究，经过严格的筛选和验证，确保了数据的高质量和可靠性。数据集的划分遵循标准的训练、验证和测试集比例，以支持不同研究阶段的模型训练和评估。

特点

PubChem数据集以其庞大的规模和多样的化学信息著称，涵盖了超过9500万种化学物质的详细记录。其特点在于不仅提供了传统的SMILES表示法，还引入了SELFIES编码，增强了化学结构的表达能力。此外，数据集的结构化设计使得其能够广泛应用于化学信息学、药物发现和生物医学研究等多个领域，为研究人员提供了丰富的实验和分析资源。

使用方法

PubChem数据集的使用方法灵活多样，研究人员可以根据需求选择不同的数据子集进行分析。首先，通过CID或SMILES/SELFIES编码可以快速检索和识别特定的化学物质。其次，数据集的训练、验证和测试集划分为机器学习和深度学习模型的开发提供了标准化的数据支持。最后，结合化学信息学工具和生物医学数据库，PubChem数据集能够支持从基础研究到应用开发的多种研究路径。

背景与挑战

背景概述

PubChem数据集，作为化学与生物医学领域的重要资源，由美国国家生物技术信息中心（NCBI）创建并维护。该数据集的核心研究问题聚焦于化学分子的系统性编目与标准化表示，旨在为全球科研人员提供一个全面、准确的化学信息数据库。通过收录大量化合物的CID（化合物标识符）、SMILES（简化分子线性输入系统）和SELFIES（自我解释的分子输入系统）等关键特征，PubChem极大地促进了药物发现、材料科学及环境研究等领域的进展。自创建以来，PubChem已成为化学信息学和生物信息学研究的基础工具，对推动相关领域的科学发现和技术创新具有深远影响。

当前挑战

尽管PubChem数据集在化学与生物医学领域具有广泛应用，但其构建与维护过程中仍面临诸多挑战。首先，化学分子的多样性和复杂性使得数据的标准化与统一表示成为一个难题，尤其是在处理异构体和立体化学信息时。其次，随着新化合物的不断发现和合成，数据集的实时更新与扩展需求对数据管理技术提出了更高要求。此外，数据集的规模庞大，如何高效地存储、检索和分析这些数据，以满足不同研究需求，也是当前面临的重要挑战。最后，确保数据的质量和准确性，避免错误信息对科研工作的影响，是PubChem持续面临的任务。

常用场景

经典使用场景

PubChem数据集在化学与生物学领域中被广泛应用于分子结构与性质的关联研究。其经典使用场景包括通过SMILES和SELFIES格式对分子进行编码，进而进行分子性质预测、药物筛选以及化学反应模拟等任务。这些任务不仅有助于理解分子间的相互作用，还能为新药研发提供理论支持。

解决学术问题

PubChem数据集解决了化学与生物学领域中分子结构与性质关联的复杂性问题。通过提供大规模的分子数据，该数据集使得研究人员能够更精确地预测分子的物理化学性质、生物活性以及毒性，从而推动了分子设计与药物发现领域的研究进展。

衍生相关工作

基于PubChem数据集，许多经典工作得以开展，如分子生成模型、化学反应预测模型以及药物分子设计算法等。这些研究不仅深化了对分子结构与性质关系的理解，还推动了机器学习在化学领域的应用，为未来的分子科学与药物研发提供了新的工具和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集