nr_aromatase_tox21-multimodal

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/nr_aromatase_tox21-multimodal

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个化合物特性数据集，包含了化合物的ID、SMILES字符串、毒性指标、图片、SELFIES表示、InChIKey、IUPAC名称以及模板信息。数据集分为训练集、验证集和测试集，分别包含76545、12033和33663个示例。

创建时间：

2025-04-24

原始信息汇总

数据集概述

基本信息

数据集名称: nr_aromatase_tox21-multimodal
下载大小: 1,854,976,628 字节
数据集大小: 1,923,335,520.875 字节

数据特征

compound_id: 字符串类型，表示化合物ID
SMILES: 字符串类型，表示化合物的SMILES表示
toxicity_NR-Aromatase: 整数类型，表示化合物的毒性
IMAGE: 图像类型，表示化合物的图像
SELFIES: 字符串类型，表示化合物的SELFIES表示
InChIKey: 字符串类型，表示化合物的InChIKey
IUPAC: 字符串类型，表示化合物的IUPAC名称
template_original: 字符串类型，表示原始模板
template: 字符串类型，表示模板

数据划分

训练集 (train):
- 样本数量: 76,545
- 数据大小: 1,177,082,458.875 字节
验证集 (valid):
- 样本数量: 12,033
- 数据大小: 209,997,718.875 字节
测试集 (test):
- 样本数量: 33,663
- 数据大小: 536,255,343.125 字节

搜集汇总

数据集介绍

构建方式

nr_aromatase_tox21-multimodal数据集的构建采用了多模态数据整合策略，专注于芳香酶抑制剂的毒性预测。该数据集通过收集化合物的多种表征形式，包括SMILES字符串、SELFIES编码、InChIKey标识符以及IUPAC命名，同时结合分子图像数据，构建了一个全面的化学信息库。数据划分遵循科学严谨的比例，分为训练集、验证集和测试集，确保模型评估的可靠性。

特点

该数据集以其丰富的多模态特征著称，不仅包含传统的分子描述符如SMILES和InChIKey，还创新性地引入了分子图像和SELFIES编码，为深度学习模型提供了多样化的输入选择。数据集中每个化合物均标注了芳香酶抑制活性，为毒性预测研究提供了高质量的标注数据。其大规模的数据量和细致的划分方式，使其成为计算毒理学领域的重要资源。

使用方法

nr_aromatase_tox21-multimodal数据集适用于开发多模态毒性预测模型。研究人员可同时利用分子结构信息和图像特征，构建端到端的预测系统。数据集的标准化划分允许直接用于模型训练、验证和测试流程。对于特定研究需求，可单独使用SMILES或图像等单一模态数据，也可探索多模态融合策略，充分发挥该数据集的独特优势。

背景与挑战

背景概述

nr_aromatase_tox21-multimodal数据集是药物发现与毒理学研究领域的重要资源，专注于芳香化酶（Aromatase）抑制剂的毒性预测。该数据集由Tox21项目的研究团队开发，旨在通过多模态数据（包括分子结构、图像表示和文本描述）来评估化合物对芳香化酶的毒性效应。芳香化酶是雌激素生物合成的关键酶，其抑制剂在乳腺癌治疗中具有重要应用，但潜在的毒性问题限制了其临床应用。该数据集的建立为研究人员提供了一个全面的平台，用于探索分子结构与毒性之间的关系，推动了计算机辅助药物设计的发展。

当前挑战

nr_aromatase_tox21-multimodal数据集面临的主要挑战包括：1) 多模态数据对齐问题，如何有效整合分子结构（SMILES、SELFIES）、图像（IMAGE）和文本（IUPAC、InChIKey）等异构数据，以提升毒性预测的准确性；2) 数据不平衡问题，毒性标签的分布可能存在偏差，影响模型的泛化能力；3) 分子表征的复杂性，不同表示形式（如SMILES与SELFIES）之间的转换可能引入噪声或信息损失。此外，构建过程中还需克服大规模多模态数据存储与处理的挑战，确保数据的完整性与一致性。

常用场景

经典使用场景

在计算毒理学领域，nr_aromatase_tox21-multimodal数据集为研究者提供了一个多模态的分子毒性评估平台。该数据集整合了SMILES字符串、分子图像和SELFIES表示等多种分子描述方式，使得研究人员能够从不同角度分析化合物对芳香化酶的抑制活性。这种多模态特性使其成为开发新型毒性预测模型的理想基准，特别是在探索分子结构与毒性关系的研究中展现出独特价值。

实际应用

在药物发现与安全评估实践中，nr_aromatase_tox21-multimodal数据集支持了高效的前瞻性毒性筛选。制药企业可利用该数据集训练的多模态模型，在新药研发早期阶段预测候选化合物对内分泌系统的潜在干扰作用。这种应用显著降低了实验筛选成本，缩短了药物开发周期，同时提高了安全性评估的可靠性。

衍生相关工作

基于该数据集的多模态特性，已催生了一系列创新的深度学习架构。研究者开发了融合图神经网络与卷积神经网络的混合模型，有效整合了SMILES序列与分子图像信息。这些工作不仅拓展了分子表征学习的边界，也为多模态数据在计算化学中的应用提供了重要参考。部分衍生模型已在其他毒性终点预测任务中展现出优越的迁移性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集