maomlab/MutagenLou2023

Name: maomlab/MutagenLou2023
Creator: maomlab
Published: 2025-05-19 18:53:44
License: 暂无描述

Hugging Face2025-05-19 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/maomlab/MutagenLou2023

下载链接

链接失效反馈

官方服务：

资源简介：

Mutagenicity Optimization数据集包含训练集、测试集和验证集，分别有6862、1714和1469个分子。数据集来源于Hansen的基准和ISSSTY数据库，经过处理后形成了具有结构多样性的8576个化合物。数据集还包括来自DrugBank和DGM/NIHS的外部验证集。该数据集用于表格分类和回归任务，涉及化学和化学信息学领域。数据集的创建基于一篇2023年的论文，该论文探讨了通过匹配分子对分析和机器学习方法优化化学致突变性的化学规则。

提供机构：

maomlab

原始信息汇总

Mutagenicity Optimization 数据集概述

数据集基本信息

语言: 英文
许可证: CC BY 4.0
来源: 经过整理
任务类别:
- 表格分类
- 表格回归
标签:
- 化学
- 化学信息学
数据集名称: Mutagenicity Optimization
数据集摘要:
- 训练集包含6862个分子
- 测试集包含1714个分子
- 验证集包含1469个分子
- 训练集和测试集是通过对原始数据集进行清洗和分割后创建的

数据集配置

配置名称:
- train_test
- validation
配置详情:
- train_test:
  - 数据文件:
    - train: train_test/train.csv
    - test: train_test/test.csv
  - 特征:
    - new SMILES: 字符串
    - ID: 整数
    - endpoint: 类别标签 (0: 0, 1: 1)
    - MW: 浮点数
  - 分割:
    - train: 6862个样本, 219712字节
    - test: 1714个样本, 54976字节
- validation:
  - 数据文件:
    - validation: validation/validation.csv
  - 特征:
    - smiles: 字符串
    - endpoint: 类别标签 (0: 0, 1: 1)

引用

作者: Lou, C., Yang, H., Deng, H. et al.
标题: Chemical rules for optimization of chemical mutagenicity via matched molecular pairs analysis and machine learning methods
期刊: Journal of Cheminformatics
年份: 2023
卷: 15
期: 35

搜集汇总

数据集介绍

构建方式

在药物化学领域，准确评估化合物的致突变性对于早期药物发现至关重要。MutagenLou2023数据集的构建源于对Ames试验记录的整合，原始数据涵盖了Hansen基准数据集与ISSSTY数据库中的化合物。经过数据清洗与去重处理，最终获得8576个具有结构多样性的分子，其中包含4643个Ames阳性样本与3933个阴性样本。该数据集采用现实分割策略，将整体数据划分为包含7720个化合物的训练集与856个化合物的测试集，同时额外构建了由DrugBank批准的药物及DGM/NIHS强阳性样本组成的外部验证集，确保了数据分布的平衡性与评估的严谨性。

使用方法

在应用层面，该数据集支持通过Hugging Face的datasets库便捷加载，用户可分别调用train_test或validation配置以获取相应数据分割。对于模型构建，典型流程涉及利用如MolFlux等化学信息学工具包，从SMILES字符串中提取摩根指纹或MACCS密钥等分子特征，进而训练如CatBoost等分类器进行致突变性预测。完整的流程涵盖数据加载、特征工程、模型训练与性能评估，其中分类指标套件可用于量化模型在独立测试集上的预测准确性，从而推动致突变性优化规则的挖掘与验证。

背景与挑战

背景概述

在药物发现与化学信息学领域，化合物致突变性的精准预测是保障药物安全性的关键环节。MutagenLou2023数据集由华东理工大学等机构的研究团队于2023年构建，旨在通过整合Hansen基准与ISSSTY数据库中的艾姆斯试验记录，系统探索化学致突变性的结构优化规律。该数据集涵盖8576个具有结构多样性的分子，并采用匹配分子对分析与机器学习方法，揭示了致突变性转化的化学规则，为早期药物研发中的毒性规避提供了数据驱动的理论支撑，显著推动了计算毒理学与分子设计领域的交叉融合。

当前挑战

该数据集致力于解决化合物致突变性预测这一复杂分类问题，其核心挑战在于如何从高维化学空间中准确捕捉致突变性的结构决定因素，并克服生物实验数据固有的噪声与不平衡性。在构建过程中，研究团队面临数据清洗与标准化的难题，需从异构来源中整合并验证艾姆斯试验结果，同时确保分子表征的化学一致性。此外，数据分割策略需模拟真实研发场景，避免信息泄漏，以保障模型在外部验证集上的泛化能力，这对构建可靠且可解释的毒性优化规则提出了严峻考验。

常用场景

经典使用场景

在药物化学与计算毒理学领域，MutagenLou2023数据集为研究人员提供了一个系统评估化合物致突变性的基准平台。该数据集通过整合大量经过验证的Ames试验数据，支持机器学习模型进行二分类任务，即准确区分致突变性与非致突变性分子。其经典应用场景在于构建和验证预测模型，利用分子的SMILES表示及分子量等特征，训练分类器以识别潜在的致突变结构片段，为早期药物发现中的毒性筛选提供数据支撑。

解决学术问题

该数据集有效解决了药物研发中致突变性预测的若干关键学术问题。通过提供大规模、结构多样且标签平衡的化合物数据，它支持开发高精度预测模型，克服了传统经验规则覆盖面有限的瓶颈。其意义在于将匹配分子对分析与机器学习相结合，系统揭示了致突变性的结构转化规律，推动了计算毒理学从定性描述向定量预测的范式转变，为优化化合物安全性提供了可解释的化学规则。

实际应用

在实际应用中，MutagenLou2023数据集被集成于ADMET性质优化平台，辅助药物化学家进行合理的分子设计。通过预训练模型或规则库，研究人员能够快速评估候选化合物的致突变风险，并在合成前对有害结构片段进行定向修饰。这一工具显著提升了早期药物筛选的效率，降低了实验成本与失败率，为制药工业实现更安全、更环保的化合物开发流程提供了关键技术支持。

数据集最近研究