five

Pixelatory/AllMolGen

收藏
Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Pixelatory/AllMolGen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自MOSES、ZINC-250K和ChEMBL-29的独特规范化SMILES分子,使用了RDKit进行处理。数据集中还包含了一个smi_len列,用于过滤SMILES序列长度。文件中提供了一个图像文件展示了SMILES序列长度的分布,并详细描述了用于分割SMILES分子的正则表达式。

该数据集包含了来自MOSES、ZINC-250K和ChEMBL-29的独特规范化SMILES分子,使用了RDKit进行处理。数据集中还包含了一个smi_len列,用于过滤SMILES序列长度。文件中提供了一个图像文件展示了SMILES序列长度的分布,并详细描述了用于分割SMILES分子的正则表达式。
提供机构:
Pixelatory
原始信息汇总

数据集概述

数据来源

  • 数据集通过PyTDC下载,来源包括MOSES、ZINC-250K和ChEMBL-29。

数据内容

  • 包含从MOSES、ZINC-250K和ChEMBL-29中提取的唯一规范化SMILES分子。
  • 使用RDKit进行处理。

数据格式

  • 数据文件为allmolgen.tar.xz,解压后为.csv格式。
  • .csv文件中包含一列名为smi_len,表示SMILES序列的长度。

数据处理

  • 使用特定正则表达式将SMILES分子分割为标记。
  • 建议进行后处理,因为大部分序列长度远小于最高值(超过1400)。

数据集大小

  • 数据集大小介于1M至10M之间。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作