Clintox-V-Train

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/molvision/Clintox-V-Train

下载链接

链接失效反馈

官方服务：

资源简介：

Clintox-V-SMILES训练数据集包含与Clintox相关化合物的分子数据和视觉表示。数据集中的字段包括问题、答案、目标分子的SMILES表示、采样方法、样本编号、样本重复次数以及生成的分子结构图像。总样本数为1040，图像格式为PIL Image（RGB），大小为300x300像素。

创建时间：

2025-10-21

原始信息汇总

Clintox-V-SMILES Train Dataset 概述

数据集基本信息

许可证: Apache-2.0
任务类别: 问答、图像到文本
语言: 英语
标签: 化学、分子、SMILES、分子生物学
规模类别: 1K<n<10K

数据集描述

包含Clintox相关化合物的分子数据和视觉表示

核心特征

问题: 与分子相关的问题
答案: 对应的回答
目标分子: 目标分子的SMILES表示
采样方法: 使用的采样方法
样本编号: 样本编号
样本重复: 样本重复
图像: 从SMILES生成的分子结构图像

数据集统计

总样本数: 1040
图像格式: PIL图像（RGB）
图像尺寸: 300x300像素

数据字段说明

Question（字符串）: 问题文本
Answer（字符串）: 答案文本
TargetMolecule（字符串）: SMILES表示
SampleMethod（字符串）: 采样方法
SampleNum（整数）: 样本编号
SampleRep（字符串）: 样本重复
image（PIL.Image）: 分子结构可视化

使用方法

python from datasets import load_dataset dataset = load_dataset("molvision/Clintox-V-Train")

引用要求

如在研究中使用本数据集，请引用

搜集汇总

数据集介绍

构建方式

在药物化学研究领域，Clintox-V-Train数据集通过系统化采集与毒性评估相关的分子数据构建而成。该数据集整合了1040个样本，每个样本包含基于SMILES字符串的分子结构表示，并采用特定采样方法生成对应的视觉图像。数据构建过程中严格记录采样编号与重复实验信息，确保分子表征与毒性问答数据的准确对应，为计算毒理学研究提供可靠的多模态数据基础。

特点

该数据集最显著的特点在于融合了分子结构的符号表示与视觉表征。每个样本不仅提供标准的SMILES字符串描述，还包含300x300像素的分子结构可视化图像，形成独特的化学信息双模态表达。数据字段设计科学完备，涵盖毒性相关问题、标准答案、采样参数等关键信息，这种多维度的数据组织方式为分子性质预测与视觉理解任务提供了丰富的特征空间。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集进行模型开发。使用load_dataset函数调用"molvision/Clintox-V-Train"即可获取结构化数据，其中包含问答文本、分子SMILES序列及对应图像数据。该数据集适用于分子毒性预测、跨模态学习等研究场景，支持同时处理化学文本描述与分子结构可视化信息，为开发先进的药物毒性评估模型提供标准化实验平台。

背景与挑战

背景概述

在计算化学与药物发现领域，分子性质预测始终是核心研究议题。Clintox-V-Train数据集由分子视觉研究机构于2023年构建，聚焦于药物化合物毒性分类问题。该数据集通过整合SMILES分子表征与视觉图像数据，旨在推动多模态机器学习在药物安全性评估中的应用。其1040个样本涵盖临床阶段化合物的结构特征与毒性问答对，为构建可解释性AI模型提供了重要基准，显著促进了计算毒理学与智能药物设计领域的交叉融合。

当前挑战

该数据集致力于解决药物毒性预测中分子表征与多模态融合的复杂性挑战。具体而言，SMILES序列的语法敏感性与三维结构信息缺失导致模型泛化能力受限；同时，分子图像与文本问答的异构数据对齐需要克服特征空间不一致的难题。在构建过程中，临床化合物数据的稀缺性与毒性标注的专业门槛形成了数据质量控制瓶颈，而SMILES到图像转换的保真度损失亦对多模态表征学习提出了更高要求。

常用场景

经典使用场景

在药物化学研究领域，Clintox-V-Train数据集被广泛应用于分子毒性预测任务。该数据集通过整合SMILES分子表示与可视化结构图像，为多模态机器学习模型提供了理想的训练平台。研究人员能够利用其丰富的分子特征数据，构建精准的毒性分类模型，从而加速药物安全性的早期评估流程。

实际应用

在制药工业实践中，该数据集已成为药物筛选流程的重要支撑工具。企业研发部门通过训练基于该数据的预测模型，能够快速识别候选化合物的潜在毒性风险。这种数据驱动的方法不仅提升了药物开发效率，更在临床前研究中为规避药物不良反应提供了科学依据。

衍生相关工作

基于该数据集衍生的经典研究包括多模态分子表征学习框架的开发。众多学者利用其独特的图文对数据特性，提出了融合SMILES序列与分子图像的神经网络架构。这些工作不仅推动了分子属性预测精度的提升，更为化学信息学领域的多模态学习范式奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集