five

nr_aromatase_tox21-multimodal

收藏
Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/jablonkagroup/nr_aromatase_tox21-multimodal
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个化合物特性数据集,包含了化合物的ID、SMILES字符串、毒性指标、图片、SELFIES表示、InChIKey、IUPAC名称以及模板信息。数据集分为训练集、验证集和测试集,分别包含76545、12033和33663个示例。
创建时间:
2025-04-24
原始信息汇总

数据集概述

基本信息

  • 数据集名称: nr_aromatase_tox21-multimodal
  • 下载大小: 1,854,976,628 字节
  • 数据集大小: 1,923,335,520.875 字节

数据特征

  • compound_id: 字符串类型,表示化合物ID
  • SMILES: 字符串类型,表示化合物的SMILES表示
  • toxicity_NR-Aromatase: 整数类型,表示化合物的毒性
  • IMAGE: 图像类型,表示化合物的图像
  • SELFIES: 字符串类型,表示化合物的SELFIES表示
  • InChIKey: 字符串类型,表示化合物的InChIKey
  • IUPAC: 字符串类型,表示化合物的IUPAC名称
  • template_original: 字符串类型,表示原始模板
  • template: 字符串类型,表示模板

数据划分

  • 训练集 (train):
    • 样本数量: 76,545
    • 数据大小: 1,177,082,458.875 字节
  • 验证集 (valid):
    • 样本数量: 12,033
    • 数据大小: 209,997,718.875 字节
  • 测试集 (test):
    • 样本数量: 33,663
    • 数据大小: 536,255,343.125 字节
搜集汇总
数据集介绍
main_image_url
构建方式
nr_aromatase_tox21-multimodal数据集的构建采用了多模态数据整合策略,专注于芳香酶抑制剂的毒性预测。该数据集通过收集化合物的多种表征形式,包括SMILES字符串、SELFIES编码、InChIKey标识符以及IUPAC命名,同时结合分子图像数据,构建了一个全面的化学信息库。数据划分遵循科学严谨的比例,分为训练集、验证集和测试集,确保模型评估的可靠性。
特点
该数据集以其丰富的多模态特征著称,不仅包含传统的分子描述符如SMILES和InChIKey,还创新性地引入了分子图像和SELFIES编码,为深度学习模型提供了多样化的输入选择。数据集中每个化合物均标注了芳香酶抑制活性,为毒性预测研究提供了高质量的标注数据。其大规模的数据量和细致的划分方式,使其成为计算毒理学领域的重要资源。
使用方法
nr_aromatase_tox21-multimodal数据集适用于开发多模态毒性预测模型。研究人员可同时利用分子结构信息和图像特征,构建端到端的预测系统。数据集的标准化划分允许直接用于模型训练、验证和测试流程。对于特定研究需求,可单独使用SMILES或图像等单一模态数据,也可探索多模态融合策略,充分发挥该数据集的独特优势。
背景与挑战
背景概述
nr_aromatase_tox21-multimodal数据集是药物发现与毒理学研究领域的重要资源,专注于芳香化酶(Aromatase)抑制剂的毒性预测。该数据集由Tox21项目的研究团队开发,旨在通过多模态数据(包括分子结构、图像表示和文本描述)来评估化合物对芳香化酶的毒性效应。芳香化酶是雌激素生物合成的关键酶,其抑制剂在乳腺癌治疗中具有重要应用,但潜在的毒性问题限制了其临床应用。该数据集的建立为研究人员提供了一个全面的平台,用于探索分子结构与毒性之间的关系,推动了计算机辅助药物设计的发展。
当前挑战
nr_aromatase_tox21-multimodal数据集面临的主要挑战包括:1) 多模态数据对齐问题,如何有效整合分子结构(SMILES、SELFIES)、图像(IMAGE)和文本(IUPAC、InChIKey)等异构数据,以提升毒性预测的准确性;2) 数据不平衡问题,毒性标签的分布可能存在偏差,影响模型的泛化能力;3) 分子表征的复杂性,不同表示形式(如SMILES与SELFIES)之间的转换可能引入噪声或信息损失。此外,构建过程中还需克服大规模多模态数据存储与处理的挑战,确保数据的完整性与一致性。
常用场景
经典使用场景
在计算毒理学领域,nr_aromatase_tox21-multimodal数据集为研究者提供了一个多模态的分子毒性评估平台。该数据集整合了SMILES字符串、分子图像和SELFIES表示等多种分子描述方式,使得研究人员能够从不同角度分析化合物对芳香化酶的抑制活性。这种多模态特性使其成为开发新型毒性预测模型的理想基准,特别是在探索分子结构与毒性关系的研究中展现出独特价值。
实际应用
在药物发现与安全评估实践中,nr_aromatase_tox21-multimodal数据集支持了高效的前瞻性毒性筛选。制药企业可利用该数据集训练的多模态模型,在新药研发早期阶段预测候选化合物对内分泌系统的潜在干扰作用。这种应用显著降低了实验筛选成本,缩短了药物开发周期,同时提高了安全性评估的可靠性。
衍生相关工作
基于该数据集的多模态特性,已催生了一系列创新的深度学习架构。研究者开发了融合图神经网络与卷积神经网络的混合模型,有效整合了SMILES序列与分子图像信息。这些工作不仅拓展了分子表征学习的边界,也为多模态数据在计算化学中的应用提供了重要参考。部分衍生模型已在其他毒性终点预测任务中展现出优越的迁移性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作