five

ToxiMol-benchmark

收藏
Hugging Face2025-06-13 更新2025-06-14 收录
下载链接:
https://huggingface.co/datasets/DeepYoke/ToxiMol-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
ToxiMol是一个针对分子毒性修复的全面基准数据集,适用于评估多模态大型语言模型在结构级分子解毒任务上的性能。数据集包含560个跨越不同毒性机制和粒度的代表性有毒分子,并定义了11个基于Therapeutics Data Commons平台的毒性修复任务,包括Tox21和ToxCast的多个子任务。数据集提供SMILES字符串和2D分子结构图像作为输入,每个条目包括任务标识符、分子ID、SMILES表示和分子结构图像。
创建时间:
2025-05-31
搜集汇总
数据集介绍
main_image_url
构建方式
在分子毒理学研究领域,ToxiMol基准数据集通过系统整合 Therapeutics Data Commons 平台的11个核心毒性评估任务构建而成。该数据集精选560个具有代表性的毒性分子样本,涵盖致突变性、致癌性、肝毒性等多重毒性机制。每个分子均采用RDKit工具生成标准化二维结构图像,并与SMILES字符串共同构成多模态输入数据,确保了分子结构表征的准确性与可视化完整性。
特点
该数据集显著特征体现在其多粒度毒性标注体系,不仅包含Tox21的12项核受体毒性子任务和ToxCast的10项毒性通路子任务,还扩展了九类特异性毒性终点评估。所有样本均经过严格筛选,覆盖不同结构复杂度和毒性强度的分子,并配备自然语言描述的任务约束条件,为多模态大语言模型提供了兼具结构多样性与语义丰富性的评估场景。
使用方法
研究人员可通过HuggingFace数据集库按需加载特定毒性子任务,例如通过配置参数选择ames或tox21等子数据集。每个样本包含分子标识符、SMILES序列和分子结构图像路径,支持直接输入多模态模型进行毒性识别与分子修复任务。评估时需结合ToxiEval框架综合考量毒性消除率、结构相似性及合成可行性等多维指标,确保修复后分子同时满足生物安全性与药物开发要求。
背景与挑战
背景概述
分子毒理学研究在药物发现领域具有关键意义,ToxiMol-benchmark作为首个面向多模态大语言模型的分子毒性修复基准数据集,由研究团队于2025年创建。该数据集整合了来自治疗数据共享平台的11种核心毒性任务,涵盖560个具有代表性的毒性分子,涉及突变性、致癌性、肝损伤等多维度毒性机制。通过提供SMILES字符串与二维分子结构图像的多模态数据,该数据集旨在推动多模态大语言模型在分子结构层面的毒性识别与修复能力,为智能化药物设计提供重要支撑。
当前挑战
分子毒性修复任务面临多重挑战:模型需准确识别分子结构中的毒性端点,解析自然语言描述的语义约束,并生成既消除毒性片段又保持结构相似性的替代分子,同时满足类药性与合成可行性要求。数据集构建过程中,需克服多源毒性数据标准化、分子图像与SMILES序列的对齐、以及跨任务毒性机制统一标注等难题,这些挑战共同构成了该领域技术发展的核心瓶颈。
常用场景
经典使用场景
在计算化学与药物发现领域,ToxiMol-benchmark作为首个面向多模态大语言模型的分子毒性修复基准,其经典应用场景集中于评估模型在结构层面识别和修饰有毒分子的能力。该数据集通过整合SMILES字符串与二维分子结构图像,要求模型在保持药物相似性和合成可行性的前提下,精准识别毒性端点并生成结构相似的无毒替代分子,为分子设计提供了标准化测试平台。
解决学术问题
ToxiMol-benchmark系统性地解决了分子毒性预测与修复中的多维度学术挑战,包括毒性机制的多粒度解析、跨任务泛化能力评估以及多模态信息融合的可靠性验证。该数据集通过涵盖11类毒性任务和560个代表性分子,填补了传统方法在结构级毒性修复评估中的空白,为理解多模态模型在化学语义约束下的分子生成能力提供了关键基础设施,推动了计算毒理学与AI辅助药物设计的交叉研究。
衍生相关工作
基于ToxiMol-benchmark衍生的经典研究包括多模态分子生成模型的系统性评估框架ToxiEval,以及针对毒性修复任务的约束满足算法改进。该数据集催生了多项关于分子表示学习与跨模态对齐的研究,例如结合图神经网络与语言模型的混合架构开发,以及对毒性机制可解释性分析的深入探索,为后续构建更安全的AI辅助分子设计系统奠定了理论基础与方法学支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作