BACE-V-Train

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/molvision/BACE-V-Train

下载链接

链接失效反馈

官方服务：

资源简介：

BACE-V-SMILES训练数据集包含与BACE相关化合物的分子数据和视觉表示。数据集中的特征包括与分子相关的问题和答案、目标分子的SMILES表示、采样方法、样本编号、样本重复以及从SMILES生成的分子结构图像。总样本数为1208，图像格式为PIL Image (RGB)，图像大小为300x300像素。

The BACE-V-SMILES training dataset contains molecular data and visual representations of BACE-related compounds. The features included in this dataset are molecular-associated question-answer pairs, SMILES representations of target molecules, sampling methods, sample identifiers, sample replicates, and molecular structure images generated from SMILES strings. The total number of samples in the dataset is 1208. All images are in PIL Image (RGB) format with a resolution of 300×300 pixels.

创建时间：

2025-10-21

原始信息汇总

BACE-V-SMILES Train Dataset 概述

数据集基本信息

许可证：Apache-2.0
任务类别：问答、图像到文本
语言：英语
领域标签：化学、分子、SMILES、分子生物学
数据规模：1K<n<10K

数据集描述

该数据集包含与BACE相关化合物的分子数据和视觉表示。

核心特征

Question：与分子相关的问题
Answer：对应的答案
TargetMolecule：目标分子的SMILES表示
SampleMethod：使用的采样方法
SampleNum：样本编号
SampleRep：样本重复
image：从SMILES生成的分子结构图像

数据集统计

总样本数：1208
图像格式：PIL图像（RGB）
图像尺寸：300x300像素

使用方法

python from datasets import load_dataset dataset = load_dataset("molvision/BACE-V-Train")

数据字段说明

Question（字符串）：问题文本
Answer（字符串）：答案文本
TargetMolecule（字符串）：SMILES表示
SampleMethod（字符串）：采样方法
SampleNum（整数）：样本编号
SampleRep（字符串）：样本重复
image（PIL.Image）：分子结构可视化

引用要求

如在研究中使用本数据集，请务必引用。

搜集汇总

数据集介绍

构建方式

在计算化学与分子生物学交叉领域，BACE-V-Train数据集的构建采用了系统化分子表征方法。该数据集通过提取BACE相关化合物的SMILES线性表示，结合自动化图像生成技术，将分子结构转化为标准化视觉图像。构建过程中运用多种采样策略确保分子多样性，每个样本均整合了问答对、分子标识及采样参数，形成了跨模态的分子数据集合。

特点

该数据集展现了多模态融合的显著特性，同时包含结构化分子描述与可视化图像数据。其核心特征在于通过300x300像素的RGB图像直观呈现分子空间构型，并辅以SMILES字符串精确表达化学结构。1208个样本覆盖了不同采样方法与重复实验数据，为研究分子性质与视觉特征关联提供了高维度表征基础。

使用方法

基于深度学习框架的应用场景，研究者可通过HuggingFace数据集库直接加载该资源。使用load_dataset函数调用"molvision/BACE-V-Train"标识符即可获取包含图像、文本及元数据的完整数据集。该结构支持端到端的多模态模型训练，特别适用于分子属性预测、视觉问答等跨模态学习任务的实际部署。

背景与挑战

背景概述

在计算化学与药物发现领域，分子性质预测与结构可视化始终是核心研究课题。BACE-V-Train数据集由Molvision团队构建，聚焦于β-分泌酶（BACE）相关化合物的多模态表征，通过整合SMILES分子描述符与视觉图像数据，为分子问答任务提供支持。该数据集通过结构化呈现分子特征与对应问题，显著推进了人工智能在化学信息学中的应用，为药物分子筛选与性质分析建立了重要基准。

当前挑战

该数据集致力于解决分子性质预测与跨模态理解的复杂性挑战，包括从SMILES序列到空间结构的准确转换、分子视觉特征与文本描述的语义对齐等关键问题。在构建过程中，研究人员需克服分子图像生成的标准化难题，确保不同采样方法下数据的一致性，同时需平衡样本数量与化学空间覆盖度，以维持数据集的代表性与泛化能力。

常用场景

经典使用场景

在计算化学与药物发现领域，BACE-V-Train数据集为分子性质预测与问答任务提供了重要支撑。该数据集通过结合SMILES分子表示与可视化图像，构建了1208个包含分子结构、问题与答案的样本，典型应用于训练多模态机器学习模型，使其能够同时理解分子结构特征与相关化学问题，为分子智能分析奠定数据基础。

衍生相关工作

基于该数据集衍生的经典研究包括多模态分子表征学习框架的开发，这些工作探索了视觉与序列信息的协同建模机制。后续研究进一步扩展了分子问答任务的边界，催生了面向不同靶点的类似数据集构建。在方法层面，衍生工作深化了图神经网络与视觉Transformer在分子属性预测中的融合应用，推动了化学人工智能技术体系的完善。

数据集最近研究