five

HIV-V-Train

收藏
Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/molvision/HIV-V-Train
下载链接
链接失效反馈
官方服务:
资源简介:
HIV-V-SMILES训练数据集包含与HIV相关化合物的分子数据和视觉表示。数据集特征包括相关问题、答案、目标分子的SMILES表示、采样方法、样本编号、样本重复次数以及由SMILES生成的分子结构图像。数据集共有32,000个样本,图像格式为PIL Image (RGB),图像大小为300x300像素。
创建时间:
2025-10-21
原始信息汇总

HIV-V-SMILES Train Dataset 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 问答、图像到文本
  • 语言: 英语
  • 标签: 化学、分子、SMILES、分子生物学
  • 规模: 1K<n<10K

数据集描述

该数据集包含与HIV相关化合物的分子数据和视觉表示。

特征字段

  • Question: 与分子相关的问题
  • Answer: 对应的答案
  • TargetMolecule: 目标分子的SMILES表示
  • SampleMethod: 使用的采样方法
  • SampleNum: 样本编号
  • SampleRep: 样本重复
  • image: 从SMILES生成的分子结构图像

数据集统计

  • 总样本数: 32000
  • 图像格式: PIL图像(RGB)
  • 图像尺寸: 300x300像素

使用方法

python from datasets import load_dataset dataset = load_dataset("molvision/HIV-V-Train")

引用要求

如在研究中使用本数据集,请引用该数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学与药物发现领域,HIV-V-Train数据集的构建采用了系统化的分子数据采集流程。该数据集以人类免疫缺陷病毒相关化合物为核心,通过专业方法从分子数据库中筛选目标分子,并利用SMILES字符串精确表征其化学结构。每个样本均包含基于SMILES生成的标准化分子结构图像,同时配以针对分子特性的问答对,采样过程通过严谨的编号与重复实验设计确保数据覆盖的全面性,最终形成包含三万两千个样本的多模态数据集。
特点
该数据集最显著的特点在于其多模态融合架构,将化学分子的符号表示与视觉呈现有机结合。所有分子结构均通过SMILES线性编码进行数字化描述,并转化为300×300像素的RGB图像实现可视化。数据字段设计科学完备,既包含针对分子特性的自然语言问答对,也涵盖采样方法、样本编号等元数据信息,为研究提供多维度分析基础。这种结构特别适用于跨模态学习任务,在药物分子性质预测与视觉问答等场景中展现出独特价值。
使用方法
研究人员可通过HuggingFace数据集库直接调用该数据集,使用标准加载指令即可获取完整数据。在具体应用中,可分别提取SMILES字符串、分子图像及对应问答信息,构建分子属性预测或视觉问答模型。该数据集支持端到端的多模态学习流程,既能单独利用分子结构图像训练视觉模型,也可结合文本描述开发跨模态推理系统,为计算化学与人工智能交叉研究提供标准化实验平台。
背景与挑战
背景概述
在计算化学与药物发现领域,分子数据的多模态表征已成为加速候选化合物筛选的关键技术。HIV-V-Train数据集由Molvision团队构建,聚焦于人类免疫缺陷病毒相关化合物的视觉与结构信息整合。该数据集通过结合SMILES分子表示与对应图像可视化,旨在解决药物分子性质预测与跨模态理解的核心问题,为抗病毒药物研发提供重要的基准资源。
当前挑战
该数据集需应对分子性质预测中跨模态对齐的复杂性,即如何有效关联SMILES序列与二维结构图像的语义信息。构建过程中面临分子可视化一致性的技术挑战,需确保从SMILES到300x300像素图像的标准化转换。同时,采样方法的多样性要求保持数据分布平衡,避免因样本重复或方法差异引入建模偏差。
常用场景
经典使用场景
在计算化学与药物发现领域,HIV-V-Train数据集为分子性质预测与问答任务提供了关键支持。该数据集通过结合SMILES分子表示与可视化图像,典型应用于训练多模态机器学习模型,以理解HIV相关化合物的结构与功能关系。研究人员能够利用其丰富的问答对和分子图像,构建端到端的分子智能分析系统,推动化学信息学的自动化进程。
解决学术问题
该数据集有效解决了分子表示学习中的跨模态对齐难题,为药物分子活性预测提供了标准化基准。通过整合结构化SMILES数据与视觉表征,它显著提升了模型对复杂分子空间的理解能力,填补了传统单一模态方法在HIV抑制剂筛选研究中的空白。其多模态特性为分子性质推理、构效关系分析等基础科学问题提供了新的研究范式。
衍生相关工作
该数据集催生了多项分子机器学习领域的创新研究。基于其多模态特性衍生的分子图神经网络架构,在ICLR等顶级会议上引发广泛关注。后续工作进一步拓展了分子描述符与图像特征的融合方法,推动了诸如分子属性预测基准平台MoleculeNet的完善。这些衍生研究持续丰富着计算化学与AI交叉领域的方法论体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作