ADMET数据集

github2025-01-30 更新2025-02-10 收录

下载链接：

https://github.com/MSDLLCpapers/QComp

下载链接

链接失效反馈

官方服务：

资源简介：

ADMET数据集是从多个公共来源编译的，包含25种不同的ADMET测定数据，以及化合物的SMILES字符串和分子量。数据集非常稀疏，并包含详细的测定信息和单位。数据集被随机分为80%的训练集和20%的测试集，使用5折交叉验证。

The ADMET dataset was compiled from multiple public sources, containing 25 distinct ADMET assay data entries, as well as compound SMILES strings and molecular weights. The dataset is highly sparse, and includes detailed assay information and corresponding units. It was randomly split into an 80% training set and a 20% test set, with 5-fold cross-validation adopted.

创建时间：

2025-01-29

原始信息汇总

QSAR-Complete (QComp) 数据集概述

数据集简介

QSAR-Complete (QComp) 是一个用于药物发现中稀疏数据集的非迭代填充框架，具有鲁棒性和可解释性。

安装依赖

操作系统：Linux
安装命令： shell conda create --name qcomp conda activate qcomp conda install pytorch torchvision torchaudio cpuonly -c pytorch pip install deepchem pip install tensorflow # deepchem 需要依赖 tensorflow pip install matplotlib

运行方式

运行命令： python python main.py

公共 ADMET 数据集与 QSAR 结果

数据来源：从各种公共来源编译的 ADMET 数据及其对应的 Chemprop 多任务模型预测结果。
数据划分：数据随机划分为 80% 训练集和 20% 测试集，使用 5 折交叉验证。
数据文件详情：
- all_data：
  - public_admet_data_all.csv：包含 25 种不同 ADMET 测试的数据，以及化合物的 SMILES 字符串和分子重量。
  - data_count_name_unit_info.csv：包含每个 ADMET 测试的详细信息及单位。
  - data_overlap_count_between_prop.csv：显示每对测试之间化合物的重叠数量。
  - spearman_corr_heatmap.pdf：显示至少有 10 个重叠化合物的测试对之间的 Spearman 相关系数热图。
- random_split_data_results：包含每个折的培训和测试集。每个折中的 chemprop_multitask_pred 文件夹包含 Chemprop 多任务模型的预测结果（例如 public_admet_data_random_fold_0_test_set_model_pred.csv）以及模型预测的集成方差（例如 public_admet_data_random_fold_0_test_set_model_ensemble_variance.csv）。
- result_figs：
  - pred_comparison_RF_Chemprop_single_multitask.pdf：显示随机分割的 5 折交叉验证中 Random Forest (RF)、Chemprop 单任务模型和 Chemprop 多任务模型之间的比较。RF 模型使用 Morgan 指纹和 MOE2D 描述符。错误评估基于 5 折交叉验证，错误条表示 5 折之间的标准差。

搜集汇总

数据集介绍

构建方式

ADMET数据集的构建，采取了对来自不同公共来源的ADMET数据进行了整合的方法。该数据集涉及25种不同的ADMET生物活性指标，包含化合物的SMILES字符串和分子重量信息。数据集在构建过程中被随机划分为80%的训练集和20%的测试集，并使用5折交叉验证的方式进行了划分，确保了数据集的可靠性和可重复性。

特点

本数据集显著的特点在于其数据的稀疏性，以及包含多种生物活性指标的综合性。数据集不仅提供了全面的ADMET生物活性信息，还包含了化合物间相互重叠的数据量统计，以及基于Spearman相关系数生成的热图，为研究不同生物活性指标间的相关性提供了直观的视觉工具。

使用方法

在使用ADMET数据集时，用户首先需要在Linux环境下安装所需的依赖项，包括PyTorch、deepchem和TensorFlow等。通过运行主程序文件main.py，用户可以加载数据集，并利用已提供的Chemprop多任务模型进行预测。数据集的预测结果和相关图形化结果均可在`public_data_results`目录下找到，方便用户进行结果验证和后续分析。

背景与挑战

背景概述

ADMET数据集，全称为定量结构-活性关系（Quantitative Structure-Activity Relationships, QSAR）数据集，是在药物发现领域中，针对化学物质的吸收、分布、代谢、排泄和毒性（ADMET）特性进行研究的宝贵资源。该数据集由多个公共来源编译而成，旨在为药物研发提供可靠的预测模型。其创建依托于QSAR-Complete（QComp）这一健壮的、可解释的非迭代插补框架，该框架特别适用于药物发现中稀疏数据集的处理。该数据集的构建，对于推动药物设计、减少实验成本以及加速药物研发流程具有重大意义。该数据集及其相关研究的详细内容，已在预印本平台arXiv上发布，供全球研究者参考。

当前挑战

在构建ADMET数据集的过程中，研究人员面临了多重挑战。首先，ADMET数据通常高度稀疏，这意味着数据集中存在大量的缺失值，这对模型的训练和预测提出了挑战。其次，不同ADMET指标之间的化合物重叠度差异较大，这增加了数据集整合和跨任务学习的难度。此外，在构建预测模型时，如何选择合适的特征描述符以及如何平衡单任务与多任务学习之间的性能，也是研究人员需要解决的关键问题。这些挑战要求研究者在数据预处理、模型选择以及性能优化等方面进行深入探索和创新。

常用场景

经典使用场景

在药物发现领域，ADMET数据集被广泛应用于构建预测模型，以评估候选化合物的吸收、分布、代谢、排泄和毒性等特性。该数据集提供了一个健壮、可解释、非迭代的填充框架，专门针对药物发现中稀疏数据集的特性，从而在化学信息学和药物设计研究中扮演着关键角色。

解决学术问题

ADMET数据集解决了学术研究中关于化合物生物活性预测的不确定性和数据稀疏性问题。它通过整合多种来源的ADMET数据，使得研究者能够在统一的框架下进行数据分析和模型构建，进而提高预测模型的准确性和鲁棒性，推动了药物研发领域的科研进展。

衍生相关工作

基于ADMET数据集，研究者们已经衍生出众多相关工作，如构建更为精确的预测模型、探索新型分子描述符、以及发展高效的特征选择方法等。这些研究不仅促进了ADMET数据集的进一步完善，也为药物设计和生物信息学领域带来了新的研究思路和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集