TDP1_targetsInhibitors_CID_SID_IUPACs_functionalGroups

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/ivanovaml/TDP1_targetsInhibitors_CID_SID_IUPACs_functionalGroups

下载链接

链接失效反馈

官方服务：

资源简介：

TDP1_targetsInhibitors_CID_SID_IUPACs_functionalGroups数据集包含101,876行，每行代表一个独特的小生物分子样本。这些样本分为61,471个TDP1抑制剂和40,405个非抑制剂。数据集包含3个主要列：CID（TDP1抑制剂的化合物的PubChem标识符）、SID（TDP1抑制剂的物质的PubChem标识符）、目标列（分子是否为TDP1抑制剂的标签）。此外，还有5933个功能团/片段列，这些列是根据IUPAC名称的标记化结果得到的。

创建时间：

2025-10-16

原始信息汇总

数据集概述

目的

该数据集是研究"利用IUPAC名称和机器学习辅助药物发现与开发——以人酪氨酰-DNA磷酸二酯酶1（TDP1）抑制剂为例"的组成部分，研究论文发布于https://doi.org/10.48550/arXiv.2503.05591。

数据集详情

应用场景

确定对TDP1抑制剂开发最具或最不具期望性的官能团/片段
基于IUPAC名称分解为功能名称/片段的机器学习模型
定义上述机器学习模型的特征重要性并探索前10个特征中活性与非活性化合物的比例

数据规模

总样本量：101,876行
TDP1抑制剂：61,471个样本
非抑制剂：40,405个样本

数据结构

列描述

CID：TDP1抑制剂化合物的PubChem标识符
SID：TDP1抑制剂物质的PubChem标识符
target：目标变量
- "1"：分子为TDP1抑制剂
- "0"：分子不是TDP1抑制剂
IUPAC names：研究中考虑的小生物分子的IUPAC名称
Columns 5-5966：小生物分子的官能团/片段，为IUPAC名称标记化的结果

数据来源

主要数据源

PubChem AID 686978：来自美国国立卫生研究院PubChem的"qHTS for Inhibitors of Human Tyrosyl-DNA Phosphodiesterase 1 (TDP1)"
来源地址：https://pubchem.ncbi.nlm.nih.gov/bioassay/686978
原始数据包含424,003个小生物分子，其中61,471个为活性化合物

非活性样本处理

通过将上述数据集与PubChem AID 1996生物测定数据集合并
合并数据集地址：https://pubchem.ncbi.nlm.nih.gov/bioassay/1996
保留两个生物测定中共同的化合物，最终获得40,405个非活性样本

搜集汇总

数据集介绍

构建方式

在药物发现领域，TDP1_targetsInhibitors_CID_SID_IUPACs_functionalGroups数据集的构建依托于权威生物医学数据库PubChem。研究团队整合了来自PubChem AID 686978的高通量筛选数据，其中包含424,003个小分子生物样本，通过精确筛选得到61,471个TDP1抑制剂活性化合物。为构建平衡数据集，进一步与PubChem AID 1996生物测定数据基于CID进行交集处理，最终保留40,405个非抑制剂样本，形成共计101,876条数据的完整集合。该过程通过系统化数据清洗与融合，确保了样本的生物学代表性和统计可靠性。

使用方法

在计算药物设计应用中，该数据集支持多层次的科研工作流程。研究人员可基于功能基团特征矩阵开发预测性机器学习模型，通过特征重要性分析识别影响TDP1抑制活性的关键化学片段。数据集提供的CID和SID标识符支持与PubChem数据库的交叉验证，而标准化标注体系便于构建分类模型评估化合物活性。特别适用于探索功能基团与生物活性间的构效关系，为理性药物设计提供数据驱动的决策支持。

背景与挑战

背景概述

在药物发现领域，人类酪氨酰-DNA磷酸二酯酶1（TDP1）作为修复DNA损伤的关键酶，其抑制剂开发对增强化疗疗效具有重要价值。TDP1_targetsInhibitors数据集由美国国立卫生研究院与PubChem平台于2025年联合构建，通过整合生物测定数据AID 686978与AID 1996，收录了101,876个小生物分子样本。该数据集创新性地采用IUPAC命名法解析功能基团，为机器学习模型识别TDP1抑制剂结构特征提供了标准化数据基础，显著推进了计算机辅助药物设计的发展进程。

当前挑战

该数据集面临双重挑战：在科学问题层面，需精准区分TDP1抑制剂与非抑制剂的结构差异，而功能基团的复杂组合模式增加了特征重要性分析的难度；在构建过程中，从42万原始样本中筛选10万高质量数据需解决生物测定数据异构性问题，同时IUPAC名称的语法解析与功能基团拆分需要克服化学命名体系的语义歧义，这些技术瓶颈对数据标准化与机器学习模型泛化能力提出了更高要求。

常用场景

经典使用场景

在药物化学与计算生物学交叉领域，该数据集通过整合IUPAC命名与功能基团信息，为机器学习模型构建提供了结构化数据基础。其经典应用场景聚焦于人类酪氨酰-DNA磷酸二酯酶1（TDP1）抑制剂的虚拟筛选，通过解析十万余个小分子生物样本的功能片段分布，系统评估化合物与靶点的相互作用机制。

解决学术问题

该数据集有效解决了传统药物发现中活性化合物筛选效率低下的核心难题。通过功能基团重要性量化与活性-非活性化合物比例分析，为靶向TDP1的抗癌药物设计提供了可解释的分子特征框架，显著提升了基于结构的药物优化过程的预测精度与可靠性。

实际应用

在医药研发实践中，该数据集支撑了抗肿瘤药物先导化合物的快速鉴定。通过PubChem生物测定数据的交叉验证，实现了从海量化合物库中精准定位TDP1抑制剂候选分子，为拓扑异构酶抑制剂联合疗法提供了重要的分子基础，加速了临床前研究的进程。

数据集最近研究