five

Derify/augmented_canonical_pubchem_13m

收藏
Hugging Face2025-09-09 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/Derify/augmented_canonical_pubchem_13m
下载链接
链接失效反馈
官方服务:
资源简介:
Augmented Canonical PubChem 10M数据集是从原始的PubChem 10M数据集衍生而来的,使用RDKit (2024.9.4)进行了规范化处理,以保证结构的统一性。为了增强分子多样性,数据集中有33%的条目被随机抽取并使用RDKit的随机SMILES生成功能进行了增强。该数据集总共包含13M个SMILES。

The Augmented Canonical PubChem 10M dataset is derived from the original PubChem 10M and has been canonicalized using RDKit (2024.9.4) to ensure structural consistency. To enhance molecular diversity, 33% of the dataset has been randomly sampled and augmented using RDKits Chem.MolToRandomSmilesVect function for SMILES augmentation. The dataset contains a total of 13M SMILES.
提供机构:
Derify
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作