Pixelatory/AllMolGen
收藏Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Pixelatory/AllMolGen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了来自MOSES、ZINC-250K和ChEMBL-29的独特规范化SMILES分子,使用了RDKit进行处理。数据集中还包含了一个smi_len列,用于过滤SMILES序列长度。文件中提供了一个图像文件展示了SMILES序列长度的分布,并详细描述了用于分割SMILES分子的正则表达式。
该数据集包含了来自MOSES、ZINC-250K和ChEMBL-29的独特规范化SMILES分子,使用了RDKit进行处理。数据集中还包含了一个smi_len列,用于过滤SMILES序列长度。文件中提供了一个图像文件展示了SMILES序列长度的分布,并详细描述了用于分割SMILES分子的正则表达式。
提供机构:
Pixelatory
原始信息汇总
数据集概述
数据来源
- 数据集通过PyTDC下载,来源包括MOSES、ZINC-250K和ChEMBL-29。
数据内容
- 包含从MOSES、ZINC-250K和ChEMBL-29中提取的唯一规范化SMILES分子。
- 使用RDKit进行处理。
数据格式
- 数据文件为
allmolgen.tar.xz,解压后为.csv格式。 .csv文件中包含一列名为smi_len,表示SMILES序列的长度。
数据处理
- 使用特定正则表达式将SMILES分子分割为标记。
- 建议进行后处理,因为大部分序列长度远小于最高值(超过1400)。
数据集大小
- 数据集大小介于1M至10M之间。



