ADMET数据集|药物筛选数据集|ADMET分析数据集
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/iceplussss/QSAR-Complete
下载链接
链接失效反馈资源简介:
ADMET数据集从不同公共来源编译而来,包含25种不同的ADMET测定方法,以及化合物的SMILES字符串和分子量。数据集非常稀疏。
The ADMET dataset is compiled from various public sources and includes 25 different ADMET assay methods, along with the SMILES strings and molecular weights of compounds. The dataset is highly sparse.
创建时间:
2024-05-18
原始信息汇总
QSAR-Complete (QComp) 数据集概述
数据集内容
- 数据集名称: QSAR-Complete (QComp)
- 数据集描述: 该数据集包含从多个公共来源编译的ADMET数据及其对应的Chemprop多任务模型预测结果。数据集随机分为80%的训练集和20%的测试集,使用5折交叉验证。
数据集结构
public_data_results目录内容:all_data子目录:public_admet_data_all.csv: 包含所有25种不同ADMET测定的数据,以及化合物的SMILES字符串和分子量。data_count_name_unit_info.csv: 包含每种ADMET测定的详细信息和单位。data_overlap_count_between_prop.csv: 显示每对测定之间化合物重叠的数量。spearman_corr_heatmap.pdf: 展示至少有10个重叠化合物的测定对之间的Spearman相关性热图。
random_split_data_results子目录: 包含每个折叠的训练和测试集。每个折叠中,chemprop_multitask_pred文件夹包含Chemprop多任务模型的预测结果和模型预测的集成方差。result_figs子目录:pred_comparison_RF_Chemprop_single_multitask.pdf: 展示随机森林(RF)、Chemprop单任务和多任务模型之间的比较。RF模型使用Morgan指纹和MOE2D描述符。错误评估基于随机分割的5折交叉验证,误差条表示5折之间的标准偏差。
数据集特点
- 数据稀疏性: 数据集非常稀疏。
- 模型比较: 提供了随机森林、Chemprop单任务和多任务模型的性能比较,使用5折交叉验证评估误差。
AI搜集汇总
数据集介绍

构建方式
在药物发现领域,ADMET数据集的构建依托于从多个公开来源收集的数据,涵盖了25种不同的ADMET检测。数据集通过SMILES字符串和分子重量对化合物进行标识,并详细记录了每种检测的单位和信息。为确保数据的多样性和代表性,数据集被随机划分为80%的训练集和20%的测试集,采用5折交叉验证的方式进行分割。此外,数据集的稀疏性通过Spearman相关性热图进行可视化,展示了至少有10个重叠化合物的检测对之间的相关性。
特点
ADMET数据集的一个显著特点是其稀疏性,这为药物发现中的数据补全和模型训练提供了独特的挑战。数据集不仅包含了广泛的ADMET检测,还通过SMILES字符串和分子重量提供了化合物的详细描述,使得数据具有高度的可解释性。此外,数据集的随机分割和5折交叉验证设计,确保了模型训练和评估的可靠性和稳定性。
使用方法
使用ADMET数据集时,用户可以通过提供的`public_data_results`文件夹访问所有数据和模型预测结果。数据集的训练和测试集已经预先分割,用户可以直接加载这些数据进行模型训练或评估。此外,数据集还提供了Chemprop多任务模型的预测结果和模型预测的集合方差,用户可以利用这些结果进行模型比较和性能分析。通过运行`main.py`脚本,用户可以快速启动数据处理和模型训练流程。
背景与挑战
背景概述
ADMET数据集是药物发现领域中一个重要的公开数据集,主要用于定量结构-活性关系(QSAR)研究。该数据集由多个公共来源整合而成,涵盖了25种不同的ADMET检测,包括化合物的SMILES字符串和分子量等信息。其创建旨在支持药物发现中的数据补全和模型预测,特别是针对稀疏数据集的处理。该数据集的构建和发布由相关领域的研究人员通过非迭代的数据补全框架实现,显著提升了数据处理的稳健性和可解释性。
当前挑战
ADMET数据集面临的主要挑战包括数据稀疏性和多样性。由于数据来源于多个公共资源,不同检测之间的化合物重叠较少,导致数据集的稀疏性较高,这增加了模型训练的难度。此外,不同检测的单位和详细信息各异,整合这些数据并确保其一致性是一个复杂的过程。在构建过程中,研究人员还需处理数据补全和模型预测的准确性问题,特别是在多任务学习框架下,如何平衡各任务的预测性能是一个重要的技术挑战。
常用场景
经典使用场景
ADMET数据集在药物发现领域中,主要用于定量结构-活性关系(QSAR)分析。通过该数据集,研究人员可以对化合物进行多任务预测,评估其在25种不同ADMET检测中的表现。经典的使用场景包括构建和验证多任务学习模型,如Chemprop模型,以预测化合物的吸收、分布、代谢、排泄和毒性特性。
解决学术问题
ADMET数据集解决了药物发现中稀疏数据处理的关键问题。由于实验数据获取成本高且耗时,许多数据集存在稀疏性,导致模型训练困难。该数据集通过提供详细的化合物信息和多任务预测结果,帮助研究人员克服数据稀疏性,提升模型的预测精度和泛化能力,对药物筛选和优化具有重要意义。
衍生相关工作
ADMET数据集的发布催生了一系列相关研究工作。例如,基于该数据集的多任务学习模型Chemprop已被广泛应用于药物发现中的QSAR分析。此外,研究人员还开发了新的数据补全框架,如QSAR-Complete,以进一步提高稀疏数据的处理效率。这些衍生工作不仅扩展了ADMET数据集的应用范围,还推动了药物发现领域的技术进步。
以上内容由AI搜集并总结生成



