navanchauhan/decimer-data-mini
收藏Hugging Face2023-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/navanchauhan/decimer-data-mini
下载链接
链接失效反馈官方服务:
资源简介:
PubChem 68K数据集包含68,996个分子的图像和对应的SMILES、SELFIES字符串。这些分子的分子量少于1500道尔顿,不包含反离子,仅由C, H, O, N, P, S, F, Cl, Br, I, Se和B元素组成,不包含氢的同位素,键的数量在3到40之间,不包含任何带电基团,仅包含隐式氢(功能基团除外),SMILES字符少于40个,且不允许立体化学。数据集来源于Decimer,并使用RDKit生成了516x516大小的图像。
PubChem 68K数据集包含68,996个分子的图像和对应的SMILES、SELFIES字符串。这些分子的分子量少于1500道尔顿,不包含反离子,仅由C, H, O, N, P, S, F, Cl, Br, I, Se和B元素组成,不包含氢的同位素,键的数量在3到40之间,不包含任何带电基团,仅包含隐式氢(功能基团除外),SMILES字符少于40个,且不允许立体化学。数据集来源于Decimer,并使用RDKit生成了516x516大小的图像。
提供机构:
navanchauhan
原始信息汇总
数据集概述
基本信息
- 许可证: openrail
- 数据集名称: PubChem 68K
- 大小范围: 10K<n<100K
- 任务类别: image-to-text
数据集特征
- 特征名称: image
- 数据类型: image
- 特征名称: smiles
- 数据类型: string
- 特征名称: selfies
- 数据类型: string
数据集划分
- 训练集
- 样本数量: 68996
- 存储大小: 1185846198.576字节
- 测试集
- 样本数量: 15499
- 存储大小: 267097779.576字节
- 验证集
- 样本数量: 15499
- 存储大小: 266912227.912字节
数据集大小
- 下载大小: 1692942822字节
- 总大小: 1719856206.064字节
数据集内容特性
- 分子重量小于1500 Daltons
- 不含反离子
- 元素组成限于C, H, O, N, P, S, F, Cl, Br, I, Se, B
- 不包含氢的同位素(D, T)
- 键数范围为3-40
- 不包含任何带电基团,包括两性离子形式
- 仅含隐式氢,功能团除外
- SMILES字符数小于40
- 不允许立体化学
数据集生成
- 原始数据集来自Decimer,经过随机抽样
- 使用RDKit生成516x516大小的图像



