aminoacids-multimodal

Hugging Face2025-04-24 更新2025-04-25 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/aminoacids-multimodal

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了化合物的多种表示形式和相关属性，如SMILES字符串、氨基酸名称、三种字母代码、一种字母代码、类型信息、图片、SELFIES表示、InChIKey和IUPAC名称。数据集的目的是为化学信息学研究和应用提供丰富的特征数据，分为训练集，共有100个示例。

创建时间：

2025-04-15

原始信息汇总

数据集概述

基本信息

数据集名称: aminoacids-multimodal
存储位置: jablonkagroup
下载大小: 221273字节
数据集大小: 1114272.0字节

数据集特征

SMILES: 字符串类型，表示分子的SMILES表示法。
aminoacid_name: 字符串类型，表示氨基酸的名称。
three_letter_code: 字符串类型，表示氨基酸的三字母代码。
one_letter_code: 字符串类型，表示氨基酸的单字母代码。
type: 字符串类型，表示氨基酸的类型。
IMAGE: 图像类型，表示氨基酸的图像。
SELFIES: 字符串类型，表示分子的SELFIES表示法。
InChIKey: 字符串类型，表示分子的InChIKey。
IUPAC: 字符串类型，表示分子的IUPAC名称。
template_original: 字符串类型，表示原始模板。
template: 字符串类型，表示模板。

数据集划分

训练集 (train)
- 样本数量: 100
- 大小: 1114272.0字节

配置文件

默认配置 (default)
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在生物化学与计算化学交叉领域，aminoacids-multimodal数据集通过系统化整合氨基酸分子的多模态表征构建而成。该数据集以100个氨基酸样本为基础，采用SMILES字符串、SELFIES编码、InChIKey等标准化化学描述符精确记录分子结构，同时采集二维分子图像实现视觉表征，并辅以IUPAC命名规则及氨基酸类型分类信息，形成结构化的多模态数据库。数据构建过程严格遵循化学信息学规范，确保分子表征的准确性与多模态数据对齐的完整性。

特点

该数据集最显著的特征在于其深度融合化学与视觉模态的跨学科属性。每条数据包含SMILES序列、三维字母代码等12种专业化学描述字段，特别是分子图像与字符串描述符的并行存储，为计算机视觉与自然语言处理的交叉研究提供了理想实验平台。数据字段间具有严格的逻辑关联性，如氨基酸单字母代码与IUPAC名称的精确对应，这种细粒度的标注方式显著提升了数据在分子属性预测等任务的实用价值。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的接口设计支持快速访问各模态数据。典型应用场景包括：使用SMILES与SELFIES字段训练分子生成模型，结合图像模态开发多模态分子分类系统，或利用氨基酸类型标签监督学习任务。数据已预置训练集划分，用户可通过指定split参数获取所需数据子集，图像字段可直接输入计算机视觉模型，而化学描述符则适用于自然语言处理框架，这种即用型设计大幅降低了跨领域研究的入门门槛。

背景与挑战

背景概述

氨基酸作为生命体的基本构成单元，其结构与性质的多样性一直是生物化学与计算生物学研究的核心议题。aminoacids-multimodal数据集由跨学科研究团队于近年构建，旨在整合氨基酸的化学表征（SMILES、SELFIES）、命名规则（IUPAC）、三维结构（IMAGE）等多模态数据，为分子属性预测与药物设计提供标准化基准。该数据集通过统一20种标准氨基酸的分子图、文本描述和符号表示，显著推动了人工智能在生物分子多模态学习中的应用深度。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，氨基酸分子结构的立体异构性与质子化状态差异导致传统单模态表征难以全面捕捉其化学特性，需开发跨模态对齐算法解决信息割裂问题；在构建过程中，不同数据源（如SMILES与IUPAC命名）的语法冲突、二维分子图像与三维构象的映射偏差，以及非标准氨基酸衍生物的标注一致性，均为数据清洗与标准化带来显著挑战。

常用场景

经典使用场景

在生物信息学和计算化学领域，aminoacids-multimodal数据集为研究人员提供了一个多模态的氨基酸表征平台。该数据集通过整合SMILES字符串、氨基酸命名规则、三维代码、单字母代码以及分子图像等多种数据形式，使得研究者能够从不同维度探索氨基酸的化学性质和结构特征。这种多模态的表示方式特别适合用于分子生成模型、蛋白质结构预测以及药物发现等前沿研究。

衍生相关工作

基于aminoacids-multimodal数据集，研究人员已经开展了一系列创新性工作。在分子生成方面，有研究团队开发了基于Transformer的多模态分子生成模型，能够同时处理SMILES和分子图像信息。在蛋白质设计领域，有学者利用该数据集训练了能够预测氨基酸突变效应的深度学习模型。这些衍生工作不仅验证了数据集的价值，还推动了相关领域的技术进步。

数据集最近研究