TDP1_targetInhibitors_CID_SID
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/ivanovaml/TDP1_targetInhibitors_CID_SID
下载链接
链接失效反馈官方服务:
资源简介:
TDP1_targetInhibitors_CID_SID数据集包含101,876个样本,每个样本代表一种独特的小生物分子。这些样本分为61,471个TDP1抑制剂和40,405个非抑制剂。数据集包括三列:CID(TDP1抑制剂的化合物的PubChem标识符)、SID(TDP1抑制剂的物质的PubChem标识符)和target(分子是否为TDP1抑制剂的标签)。
创建时间:
2025-10-16
原始信息汇总
数据集概述
基本描述
- 数据集名称:TDP1_targetInhibitors_CID_SID
- 数据规模:101,876行
- 样本类型:小生物分子样本
- 数据划分:
- TDP1抑制剂:61,471个
- 非抑制剂:40,405个
数据内容
列结构
- CID:PubChem化合物标识符(TDP1抑制剂)
- SID:PubChem物质标识符(TDP1抑制剂)
- target:
- "1":分子为TDP1抑制剂
- "0":分子为非TDP1抑制剂
数据来源
主要来源
- PubChem AID 686978:https://pubchem.ncbi.nlm.nih.gov/bioassay/686978
- 来源描述:美国国立卫生研究院PubChem提供的"qHTS for Inhibitors of Human Tyrosyl-DNA Phosphodiesterase 1 (TDP1): qHTS in Cells in Absence of CPT"
- 原始数据:424,003个小生物分子中包含61,471个活性化合物
辅助来源
- PubChem AID 1996:https://pubchem.ncbi.nlm.nih.gov/bioassay/1996
- 处理方式:通过CID合并两个数据集,仅保留共同化合物,将非活性样本减少至40,405个
应用背景
- 研究目的:开发CID_SID机器学习模型,用于预测未针对TDP1抑制优化但具有PubChem标识符的预设计小分子中的TDP1抑制剂
- 相关研究:"Leveraging of the IUPAC Names and Machine Learning for Assisting Drug Discovery and Development, demonstrated on the Case of Human Tyrosyl-DNA Phosphodiesterase 1 (TDP1) Inhibitors" https://doi.org/10.48550/arXiv.2503.05591
技术信息
- 许可证:apache-2.0
- 领域标签:化学、生物学、医学
- 规模分类:100K<n<1M
搜集汇总
数据集介绍

构建方式
在药物发现领域,TDP1_targetInhibitors_CID_SID数据集的构建依托于PubChem生物测定数据库的系统整合。该数据集从PubChem AID 686978中提取了61,471个TDP1抑制剂活性化合物,并通过与AID 1996生物测定数据的交叉匹配,将非抑制剂样本精炼至40,405个,最终形成包含101,876个独特小生物分子的结构化集合。每个样本通过PubChem标识符(CID/SID)与二元分类标签建立对应关系,确保了数据来源的权威性与可追溯性。
特点
该数据集在化学生物学研究中展现出鲜明的专业特征,其样本规模达到十万量级且类别分布均衡,为机器学习模型提供了稳健的训练基础。所有化合物均标注明确的PubChem标识符,支持研究者直接关联至分子结构与理化属性数据库。数据标签基于高通量筛选实验生成,通过“1/0”二元编码清晰区分TDP1抑制剂与非抑制剂,这种设计既保留了生物活性数据的准确性,又契合分类算法的输入需求。
使用方法
针对计算药物筛选场景,研究者可借助该数据集构建TDP1抑制剂预测模型。通过解析CID与SID字段可关联PubChem数据库获取分子描述符,结合目标标签开展监督学习任务。建议将数据按比例划分为训练集与测试集,利用分类算法挖掘分子标识符与抑制活性间的潜在关联。最终模型可用于快速筛选未经TDP1特异性优化的化合物库,显著加速靶向药物的早期发现进程。
背景与挑战
背景概述
在药物发现领域,人类酪氨酰-DNA磷酸二酯酶1(TDP1)作为DNA修复关键酶,其抑制剂研究对癌症治疗策略具有重要价值。TDP1_targetInhibitors_CID_SID数据集源于2025年发表的跨学科研究,由科研机构基于美国国立卫生研究院PubChem数据库的公开生物测定数据构建。该数据集聚焦于从非特异性小分子库中精准识别TDP1抑制剂这一核心问题,通过整合高通量筛选数据与溶解度特征,为机器学习辅助药物重定位提供了标准化实验基准。
当前挑战
该数据集致力于解决TDP1抑制剂识别中的化合物活性预测难题,其核心挑战在于如何从结构多样性分子中区分微弱活性信号。数据构建过程中面临双重困难:一方面需处理原始生物测定中424,003个化合物的高维稀疏特征,另一方面通过跨数据集融合实现负样本优化,这要求精确匹配PubChem标识符并保持类别平衡,最终在保持生物活性可靠性的同时完成数据蒸馏。
常用场景
经典使用场景
在药物发现领域,TDP1_targetInhibitors_CID_SID数据集被广泛应用于机器学习模型的训练与验证,特别是针对人类酪氨酰-DNA磷酸二酯酶1(TDP1)抑制剂的预测任务。通过整合PubChem生物活性数据,该数据集为研究人员提供了标准化的分子标识符与抑制活性标签,支持分类模型的开发与优化,助力高效筛选潜在抑制剂分子。
解决学术问题
该数据集有效解决了药物化学中靶向抑制剂识别效率低下的学术难题,通过大规模标注数据支撑机器学习方法在虚拟筛选中的应用。其构建显著降低了实验验证成本,并为理解小分子与TDP1酶的相互作用机制提供了数据基础,推动了计算机辅助药物设计领域的方法创新与理论发展。
衍生相关工作
基于该数据集衍生的经典研究包括采用图神经网络与描述符融合的混合预测框架,以及跨生物测定数据的迁移学习模型。这些工作进一步拓展了分子属性预测的边界,催生了多项关于多任务学习与可解释性人工智能在化学信息学中的应用探索。
以上内容由遇见数据集搜集并总结生成



