TDP1_inhibitors_PAIN_flaged

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/ivanovaml/TDP1_inhibitors_PAIN_flaged

下载链接

链接失效反馈

官方服务：

资源简介：

TDP1_inhibitors_PAIN_flagged数据集是研究“利用IUPAC名称和机器学习辅助药物发现与发展，以人类酪氨酰-DNA磷酸二酯酶1（TDP1）抑制剂为例”的一部分。该数据集包含了410,564个样本，其中有21,761个样本被标记为PAINs。数据集在应用PAIN过滤器之前，有236,226个不活跃样本，112,867个不确定样本和61,471个活跃样本。经过PAIN过滤器处理后，不活跃、不确定和活跃的样本数分别变为227,158、105,950和55,695。数据集的列包括化合物和物质的PubChem标识符、SMILES字符串、分子是否为TDP1抑制剂的标记以及PAIN标记。

创建时间：

2025-10-23

原始信息汇总

数据集概述

基本信息

数据集名称: TDP1_inhibitors_PAIN_flagged
许可证: Apache-2.0
标签: 化学、生物学、医学
数据量: 410,564个样本

研究背景

数据集来源于研究《Leveraging of the IUPAC Names and Machine Learning for Assisting Drug Discovery and Development, demonstrated on the Case of Human Tyrosyl-DNA Phosphodiesterase 1 (TDP1) Inhibitors》
研究论文链接: https://doi.org/10.48550/arXiv.2503.05591

数据来源

原始数据来自PubChem生物测定AID 686978
测定名称: "qHTS for Inhibitors of Human Tyrosyl-DNA Phosphodiesterase 1 (TDP1): qHTS in Cells in Absence of CPT"
数据链接: https://pubchem.ncbi.nlm.nih.gov/bioassay/686978

数据处理

已去除异构体
使用RDKit化学信息学工具进行PAINs过滤
源代码: https://github.com/articlesmli/IUPAC_ML_model_TDP1/blob/main/IUPAC_ML_model/PAINs_entire_data.ipynb

数据统计

PAINs分析

PAINs标记样本: 21,761个
非PAINs样本: 388,803个

活性分布

应用PAIN过滤前

非活性: 236,226个
不确定: 112,867个
活性: 61,471个

非PAINs样本

非活性: 227,158个
不确定: 105,950个
活性: 55,695个

数据结构

数据集包含5个列:

CID: PubChem化合物标识符
SID: PubChem物质标识符
SMILES: 化学结构表示
target: 抑制活性标识（1: TDP1抑制剂, 0: 非抑制剂, 2: 不确定）
PAIN flag: PAINs标记

搜集汇总

数据集介绍

构建方式

在药物发现领域，TDP1_inhibitors_PAIN_flagged数据集的构建源于对高通量筛选数据的系统整理。该数据集源自PubChem生物测定AID 686978，专注于人类酪氨酰-DNA磷酸二酯酶1（TDP1）抑制剂的定量高通量筛选。原始数据经过异构体去除处理，并应用了PAIN（泛化筛选干扰化合物）标记策略，但未直接剔除这些样本，从而保留了数据的完整性。通过RDKit化学信息学工具和过滤目录方法，对410,564个样本进行了精确标注，确保了数据在化学和生物学背景下的可靠性。

特点

该数据集在药物化学研究中展现出显著特点，涵盖超过41万条样本，其中21,761条被标记为PAIN化合物，反映了真实筛选环境中干扰物的存在。数据包含五个关键列：PubChem化合物标识符（CID）、物质标识符（SID）、SMILES字符串、TDP1抑制活性标签（活性、非活性或不确定）以及PAIN标记状态。这种多维度结构支持对抑制剂效价的深入分析，同时PAIN标记的保留为研究筛选假阳性提供了独特视角，增强了数据集在机器学习应用中的实用价值。

使用方法

在药物开发应用中，该数据集可通过标准化学信息学流程进行高效利用。用户首先利用RDKit库加载SMILES数据，进行分子结构验证和预处理；随后，基于PAIN标记列可灵活过滤或分析潜在干扰化合物，以优化模型训练。数据集的活性标签支持分类任务，如构建TDP1抑制剂预测模型，同时CID和SID标识符便于与PubChem数据库交叉引用，扩展外部验证。开源代码库提供了完整处理示例，确保研究可重现性，适用于从基础化合物筛选到高级机器学习项目的多种场景。

背景与挑战

背景概述

在药物发现领域，针对特定靶点的高通量筛选技术已成为识别先导化合物的关键手段。TDP1_inhibitors_PAIN_flaged数据集源于2025年发表的跨学科研究，由科研团队基于PubChem生物测定数据库AID 686978构建，专注于人类酪氨酰-DNA磷酸二酯酶1（TDP1）抑制剂的系统性分析。该数据集通过整合化学信息学与机器学习方法，旨在解决抗癌药物研发中DNA修复机制靶向抑制剂的精准识别问题，为优化药物设计流程提供了重要数据支撑。

当前挑战

该数据集核心挑战在于应对药物发现中化合物类药性评估的复杂性：其一，领域问题层面需克服TDP1抑制剂活性预测中生物测定数据的高噪声干扰，以及类药化合物与泛筛选干扰化合物（PAINS）的区分难题；其二，构建过程中面临化学结构异构体去重、多维度生物活性标注一致性校验，以及基于IUPAC命名规则的分子表征转换等技术障碍，这些因素共同制约着数据质量的提升与模型泛化能力的实现。

常用场景

经典使用场景

在药物发现领域，TDP1_inhibitors_PAIN_flagged数据集被广泛用于构建机器学习模型，以识别人类酪氨酰-DNA磷酸二酯酶1（TDP1）的潜在抑制剂。通过结合IUPAC命名法和SMILES表示，该数据集支持化合物活性预测任务，帮助研究人员从高通量筛选数据中筛选出具有生物活性的候选分子，从而加速先导化合物的优化过程。

衍生相关工作

该数据集衍生了多项经典研究，包括基于IUPAC名称的机器学习模型开发，以及针对PAINs过滤方法的优化工作。相关成果发表在药物化学与计算生物学领域，促进了泛筛选干扰化合物识别技术的标准化，并为类似靶点的抑制剂发现提供了可复用的框架。

数据集最近研究