bioavailability_ma_et_al-multimodal

Hugging Face2025-04-13 更新2025-04-14 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/bioavailability_ma_et_al-multimodal

下载链接

链接失效反馈

官方服务：

资源简介：

chempile-xtra数据集包含化合物的多种表示形式和相关属性，如化合物名称、SMILES字符串、生物可用性分数、图片、SELFIES表示、InChI编码、IUPAC名称以及模板信息。该数据集被划分为训练集、验证集和测试集，分别包含7820、2000和2980个示例，适用于化学信息学相关任务的研究和开发。

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

在药物发现领域，生物利用度是评估化合物成药性的关键指标。bioavailability_ma_et_al-multimodal数据集通过系统整合化学信息学与多模态数据构建而成，收录了12,800个化合物的多维度特征。数据集采用专业化学数据库作为数据源，通过标准化流程提取SMILES字符串、SELFIES表示、InChI编码等分子描述符，并配以二维分子结构图像。数据划分严格遵循机器学习范式，包含7,820个训练样本、2,000个验证样本和2,980个测试样本，确保模型开发与评估的科学性。

特点

该数据集最显著的特点是实现了化学信息的跨模态表征，同时包含结构式图像与多种符号化分子描述。每个样本提供生物可利用性二元标签（bioavailable），配合IUPAC命名、分子模板等元数据，为多模态学习提供丰富素材。数据规模达138MB，涵盖多样化的分子结构，其多视角特征融合的特性特别适合研究分子表征学习、跨模态对齐等前沿课题。化学描述符与视觉信息的互补性，为开发新型药物预测模型创造了独特条件。

使用方法

使用该数据集时，研究者可利用PyTorch或TensorFlow框架加载图像与分子描述符的并行数据流。对于符号化数据（SMILES/SELFIES），建议采用图神经网络或Transformer架构处理；分子图像则可应用卷积神经网络提取视觉特征。数据集已预置标准分割方案，用户可直接进行监督学习任务如生物可利用性分类。多模态融合时，可探索注意力机制整合不同表征，或通过对比学习挖掘模态间关联。需注意各化学描述符的语义一致性，建议预处理时统一分子标准化流程。

背景与挑战

背景概述

bioavailability_ma_et_al-multimodal数据集是近年来药物发现与化学信息学领域的重要资源，由Ma等人及其团队构建，旨在解决药物生物利用度预测这一关键问题。生物利用度作为衡量药物活性成分进入体循环效率的核心指标，直接影响着药物疗效与安全性评估。该数据集创新性地整合了化合物的多模态表征，包括SMILES字符串、分子图像(SELFIES)、国际化合物标识(InChI)及IUPAC命名等多元特征，为开发跨模态药物性质预测模型提供了标准化基准。其12800个样本规模与严谨的train/valid/test划分策略，显著推动了计算药物化学领域从单一特征分析向多模态融合研究的范式转变。

当前挑战

该数据集面临的挑战主要体现在两个维度：在科学问题层面，生物利用度受分子结构、溶解性、膜渗透性等多因素非线性影响，现有单模态表征难以全面捕捉其复杂机制，亟需开发新型跨模态特征融合算法。在数据构建层面，分子图像与符号化表征(SMILES/IUPAC)的异构性对齐存在技术难点，且部分稀有结构化合物的生物利用度实验数据稀缺，导致数据分布不均衡问题。此外，不同化学描述符体系间的信息冗余与冲突，对特征选择与降维方法提出了更高要求。

常用场景

经典使用场景

在药物发现领域，bioavailability_ma_et_al-multimodal数据集通过整合化合物的多种分子表示形式（如SMILES、SELFIES、InChI等）和生物利用度标签，为研究人员提供了一个多模态数据平台。该数据集常用于训练和评估机器学习模型，特别是那些旨在预测化合物生物利用度的模型。通过结合图像和文本数据，研究人员能够更全面地理解分子结构与生物活性之间的关系。

解决学术问题

该数据集有效解决了药物化学中一个关键问题：如何准确预测化合物的生物利用度。生物利用度是药物研发中的重要参数，直接影响药物的疗效和安全性。传统实验方法耗时且成本高昂，而该数据集提供的多模态信息使得基于机器学习的预测成为可能，显著提高了预测效率和准确性，为药物设计提供了新的研究方向。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，一些研究利用深度学习模型结合多模态数据，显著提高了生物利用度预测的准确性。其他工作则探索了不同分子表示形式（如SMILES与SELFIES）在预测任务中的表现差异。这些研究不仅推动了计算药物化学的发展，也为多模态机器学习在科学领域的应用提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集