augmented_canonical_pubchem_13m

Hugging Face2025-02-22 更新2025-02-23 收录

下载链接：

https://huggingface.co/datasets/Derify/augmented_canonical_pubchem_13m

下载链接

链接失效反馈

官方服务：

资源简介：

Augmented Canonical PubChem 10M数据集是由原始的PubChem 10M数据集经过RDKit规范化处理得到的，包含13M个SMILES。为了提高分子多样性，数据集中的33%通过RDKit的随机SMILES生成方法进行了增强。

The Augmented Canonical PubChem 10M dataset is derived from the original PubChem 10M dataset through RDKit canonicalization processing, and contains 13 million SMILES strings. To improve molecular diversity, 33% of the entries in this dataset were augmented via RDKit's random SMILES generation approach.

创建时间：

2025-02-08

搜集汇总

数据集介绍

构建方式

augmented_canonical_pubchem_13m数据集是在原始的PubChem 10M数据集基础上，通过RDKit (2024.9.4)进行规范化处理，以确保化合物的结构一致性。为了提高分子多样性，数据集的33%被随机抽取并采用RDKit的Chem.MolToRandomSmilesVect函数进行增强，该方法借鉴了NVIDIA的molmim方法对SMILES进行增广。

使用方法

使用augmented_canonical_pubchem_13m数据集时，用户可以直接访问其规范化后的SMILES数据，用于分子建模、药物设计等化学信息学研究。由于数据集已进行了增广处理，用户可针对特定的研究需求，对增广的分子进行筛选和分析，以提升研究的广度和深度。

背景与挑战

背景概述

augmented_canonical_pubchem_13m数据集，是在化学信息学领域中，为了提升分子结构数据的一致性与多样性而构建的重要资源。该数据集基于原始的PubChem 10M数据集，于2024年9月4日通过RDKit工具进行规范化处理，以确保分子结构的统一性。经过随机采样，数据集中有33%的分子通过RDKit的随机SMILES生成方法进行了增强，从而扩展了分子多样性。该数据集的构建，不仅为化学合成、药物设计与分子模拟等领域的研究提供了坚实基础，而且对于推动相关科学技术的进步具有重要的影响力。

当前挑战

在构建augmented_canonical_pubchem_13m数据集的过程中，研究人员面临了确保数据结构一致性与增强分子多样性的双重挑战。规范化处理需要克服不同来源数据的异构性问题，而随机SMILES生成则需在保持分子代表性的同时，避免过度失真。此外，数据集在应对领域问题，如分子分类、性质预测等任务时，如何有效利用其规模与多样性，也是当前研究的一个难点。

常用场景

经典使用场景

在化学信息学领域，augmented_canonical_pubchem_13m数据集被广泛应用于分子结构的标准化研究。该数据集通过RDKit工具对原始PubChem 10M数据集进行规范化处理，确保了分子结构的统一性，进而使得数据集成为研究分子结构特征与性质相关性的重要资源。

解决学术问题

该数据集解决了化学研究中分子结构表示一致性不足的问题，有助于研究者准确地进行分子间的比较和分析。同时，数据集通过随机生成SMILES字符串的方式增加了分子多样性，为研究分子结构与活性之间的关系提供了更为丰富的样本。

实际应用

在实际应用中，augmented_canonical_pubchem_13m数据集被用于药物设计、材料科学以及生物技术等多个领域。其提供的丰富分子信息，有助于科学家们预测分子的生物活性，设计新药，以及探索未知材料的潜在用途。

数据集最近研究