five

navanchauhan/decimer-data-mini

收藏
Hugging Face2023-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/navanchauhan/decimer-data-mini
下载链接
链接失效反馈
官方服务:
资源简介:
PubChem 68K数据集包含68,996个分子的图像和对应的SMILES、SELFIES字符串。这些分子的分子量少于1500道尔顿,不包含反离子,仅由C, H, O, N, P, S, F, Cl, Br, I, Se和B元素组成,不包含氢的同位素,键的数量在3到40之间,不包含任何带电基团,仅包含隐式氢(功能基团除外),SMILES字符少于40个,且不允许立体化学。数据集来源于Decimer,并使用RDKit生成了516x516大小的图像。

PubChem 68K数据集包含68,996个分子的图像和对应的SMILES、SELFIES字符串。这些分子的分子量少于1500道尔顿,不包含反离子,仅由C, H, O, N, P, S, F, Cl, Br, I, Se和B元素组成,不包含氢的同位素,键的数量在3到40之间,不包含任何带电基团,仅包含隐式氢(功能基团除外),SMILES字符少于40个,且不允许立体化学。数据集来源于Decimer,并使用RDKit生成了516x516大小的图像。
提供机构:
navanchauhan
原始信息汇总

数据集概述

基本信息

  • 许可证: openrail
  • 数据集名称: PubChem 68K
  • 大小范围: 10K<n<100K
  • 任务类别: image-to-text

数据集特征

  • 特征名称: image
    • 数据类型: image
  • 特征名称: smiles
    • 数据类型: string
  • 特征名称: selfies
    • 数据类型: string

数据集划分

  • 训练集
    • 样本数量: 68996
    • 存储大小: 1185846198.576字节
  • 测试集
    • 样本数量: 15499
    • 存储大小: 267097779.576字节
  • 验证集
    • 样本数量: 15499
    • 存储大小: 266912227.912字节

数据集大小

  • 下载大小: 1692942822字节
  • 总大小: 1719856206.064字节

数据集内容特性

  • 分子重量小于1500 Daltons
  • 不含反离子
  • 元素组成限于C, H, O, N, P, S, F, Cl, Br, I, Se, B
  • 不包含氢的同位素(D, T)
  • 键数范围为3-40
  • 不包含任何带电基团,包括两性离子形式
  • 仅含隐式氢,功能团除外
  • SMILES字符数小于40
  • 不允许立体化学

数据集生成

  • 原始数据集来自Decimer,经过随机抽样
  • 使用RDKit生成516x516大小的图像
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作