HIV-V-Train

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/molvision/HIV-V-Train

下载链接

链接失效反馈

官方服务：

资源简介：

HIV-V-SMILES训练数据集包含与HIV相关化合物的分子数据和视觉表示。数据集特征包括相关问题、答案、目标分子的SMILES表示、采样方法、样本编号、样本重复次数以及由SMILES生成的分子结构图像。数据集共有32,000个样本，图像格式为PIL Image (RGB)，图像大小为300x300像素。

创建时间：

2025-10-21

原始信息汇总

HIV-V-SMILES Train Dataset 概述

数据集基本信息

许可证: Apache-2.0
任务类别: 问答、图像到文本
语言: 英语
标签: 化学、分子、SMILES、分子生物学
规模: 1K<n<10K

数据集描述

该数据集包含与HIV相关化合物的分子数据和视觉表示。

特征字段

Question: 与分子相关的问题
Answer: 对应的答案
TargetMolecule: 目标分子的SMILES表示
SampleMethod: 使用的采样方法
SampleNum: 样本编号
SampleRep: 样本重复
image: 从SMILES生成的分子结构图像

数据集统计

总样本数: 32000
图像格式: PIL图像（RGB）
图像尺寸: 300x300像素

使用方法

python from datasets import load_dataset dataset = load_dataset("molvision/HIV-V-Train")

引用要求

如在研究中使用本数据集，请引用该数据集。

搜集汇总

数据集介绍

构建方式

在计算化学与药物发现领域，HIV-V-Train数据集的构建采用了系统化的分子数据采集流程。该数据集以人类免疫缺陷病毒相关化合物为核心，通过专业方法从分子数据库中筛选目标分子，并利用SMILES字符串精确表征其化学结构。每个样本均包含基于SMILES生成的标准化分子结构图像，同时配以针对分子特性的问答对，采样过程通过严谨的编号与重复实验设计确保数据覆盖的全面性，最终形成包含三万两千个样本的多模态数据集。

特点

该数据集最显著的特点在于其多模态融合架构，将化学分子的符号表示与视觉呈现有机结合。所有分子结构均通过SMILES线性编码进行数字化描述，并转化为300×300像素的RGB图像实现可视化。数据字段设计科学完备，既包含针对分子特性的自然语言问答对，也涵盖采样方法、样本编号等元数据信息，为研究提供多维度分析基础。这种结构特别适用于跨模态学习任务，在药物分子性质预测与视觉问答等场景中展现出独特价值。

使用方法

研究人员可通过HuggingFace数据集库直接调用该数据集，使用标准加载指令即可获取完整数据。在具体应用中，可分别提取SMILES字符串、分子图像及对应问答信息，构建分子属性预测或视觉问答模型。该数据集支持端到端的多模态学习流程，既能单独利用分子结构图像训练视觉模型，也可结合文本描述开发跨模态推理系统，为计算化学与人工智能交叉研究提供标准化实验平台。

背景与挑战

背景概述

在计算化学与药物发现领域，分子数据的多模态表征已成为加速候选化合物筛选的关键技术。HIV-V-Train数据集由Molvision团队构建，聚焦于人类免疫缺陷病毒相关化合物的视觉与结构信息整合。该数据集通过结合SMILES分子表示与对应图像可视化，旨在解决药物分子性质预测与跨模态理解的核心问题，为抗病毒药物研发提供重要的基准资源。

当前挑战

该数据集需应对分子性质预测中跨模态对齐的复杂性，即如何有效关联SMILES序列与二维结构图像的语义信息。构建过程中面临分子可视化一致性的技术挑战，需确保从SMILES到300x300像素图像的标准化转换。同时，采样方法的多样性要求保持数据分布平衡，避免因样本重复或方法差异引入建模偏差。

常用场景

经典使用场景

在计算化学与药物发现领域，HIV-V-Train数据集为分子性质预测与问答任务提供了关键支持。该数据集通过结合SMILES分子表示与可视化图像，典型应用于训练多模态机器学习模型，以理解HIV相关化合物的结构与功能关系。研究人员能够利用其丰富的问答对和分子图像，构建端到端的分子智能分析系统，推动化学信息学的自动化进程。

解决学术问题

该数据集有效解决了分子表示学习中的跨模态对齐难题，为药物分子活性预测提供了标准化基准。通过整合结构化SMILES数据与视觉表征，它显著提升了模型对复杂分子空间的理解能力，填补了传统单一模态方法在HIV抑制剂筛选研究中的空白。其多模态特性为分子性质推理、构效关系分析等基础科学问题提供了新的研究范式。

衍生相关工作

该数据集催生了多项分子机器学习领域的创新研究。基于其多模态特性衍生的分子图神经网络架构，在ICLR等顶级会议上引发广泛关注。后续工作进一步拓展了分子描述符与图像特征的融合方法，推动了诸如分子属性预测基准平台MoleculeNet的完善。这些衍生研究持续丰富着计算化学与AI交叉领域的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集