Interacting Compound-Target Pairs in ChEMBL
收藏github2024-03-28 更新2024-05-31 收录
下载链接:
https://github.com/chembl/compound_target_pairs_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集从开放源生物活性数据库ChEMBL中提取了化合物-目标对,这些对因在ChEMBL中至少有一个相应的测量活性值或属于ChEMBL中手动整理的已知交互集合而被称为已知交互。此外,数据集包含多种化合物和目标注释,以便于未来的分析。
This dataset extracts compound-target pairs from the open-source bioactivity database ChEMBL. These pairs are referred to as known interactions because they have at least one corresponding measured activity value in ChEMBL or belong to a manually curated set of known interactions within ChEMBL. Additionally, the dataset includes various compound and target annotations to facilitate future analysis.
创建时间:
2022-10-13
原始信息汇总
数据集概述
数据集名称
Dataset of Interacting Compound-Target Pairs in ChEMBL
数据集来源
数据集从开放源生物活性数据库ChEMBL提取,该数据库提供了多种生物活性数据类型和时间段的药物发现平台。
数据集内容
数据集包含化合物-目标对,这些对因以下原因被认为相互作用:
- 在ChEMBL中至少有一个相应的测量活性值
- 是ChEMBL中手动精选的已知交互集的一部分
此外,数据集还包括多种化合物和目标注释,以便于未来的分析。
数据集版本
数据集适用于ChEMBL 26及以后的版本。
数据集获取
数据集可从这里获取。
数据集生成
默认版本的数据集(基于最新ChEMBL版本的完整数据集CSV文件)可通过运行以下命令生成:
python main.py -o <output_path>
更多参数以修改输出可通过以下命令查看:
python main.py --help
搜集汇总
数据集介绍

构建方式
Interacting Compound-Target Pairs in ChEMBL数据集的构建基于开源生物活性数据库ChEMBL,通过提取已知相互作用的化合物-靶点对生成。这些相互作用对在ChEMBL中至少具有一个对应的测量活性值,或属于手动整理的已知相互作用集合。此外,数据集还包含了丰富的化合物和靶点注释,为后续分析提供了基础。该数据集支持从ChEMBL 26版本开始的所有版本,能够生成扩展版本的数据集。
特点
该数据集的特点在于其全面性和可扩展性。它不仅涵盖了ChEMBL数据库中的化合物-靶点相互作用对,还提供了详细的注释信息,便于进行深入的生物活性分析。数据集支持从ChEMBL 26版本开始的所有版本,确保了数据的时效性和广泛适用性。此外,数据集的生成过程自动化,能够根据用户需求灵活调整输出格式。
使用方法
使用该数据集时,首先需要安装所需的依赖项,包括Pandas和RDKit等工具。通过运行`python main.py -o <output_path>`命令,可以生成默认版本的CSV格式数据集。用户还可以通过调用`python main.py --help`查看所有可用的参数,以定制化生成符合特定需求的数据集。完整的文档和预印本提供了详细的使用说明和背景信息,便于用户快速上手。
背景与挑战
背景概述
Interacting Compound-Target Pairs in ChEMBL数据集源于ChEMBL数据库,该数据库是一个开源的生物活性数据平台,广泛应用于药物发现领域。该数据集由Zdrazil等人于2023年创建,旨在提取化合物与靶标之间的相互作用对,这些相互作用对在ChEMBL中具有至少一个测量的活性值或属于手动整理的已知相互作用集合。数据集还包含化合物和靶标的注释信息,为未来的分析提供了丰富的基础。此前,Leeson等人于2021年手动整理了一个类似的数据集,用于研究基于靶标的药物样性质和配体效率的差异。该数据集的生成代码可以从ChEMBL 26版本开始,为每个ChEMBL版本生成扩展版本,进一步推动了药物发现和生物活性研究的发展。
当前挑战
Interacting Compound-Target Pairs in ChEMBL数据集在解决药物发现中的化合物与靶标相互作用问题时,面临多重挑战。首先,ChEMBL数据库中的数据来源多样,数据质量和一致性存在差异,如何有效筛选和整合这些数据以构建可靠的相互作用对是一个关键问题。其次,化合物与靶标相互作用的复杂性要求数据集不仅包含基本的活性值,还需提供丰富的注释信息,这对数据集的构建提出了更高的技术要求。此外,随着ChEMBL数据库的不断更新,如何确保数据集与最新版本保持同步,并兼容不同版本的数据格式,也是构建过程中需要克服的难题。这些挑战共同构成了该数据集在药物发现领域应用中的核心问题。
常用场景
经典使用场景
在药物发现领域,Interacting Compound-Target Pairs in ChEMBL数据集被广泛应用于化合物与靶点相互作用的研究。通过从ChEMBL数据库中提取已知的化合物-靶点对,该数据集为研究人员提供了丰富的生物活性数据,支持药物筛选和靶点验证等关键步骤。特别是在药物设计过程中,该数据集能够帮助识别潜在的药物候选分子及其作用机制,从而加速新药的开发进程。
实际应用
在实际应用中,Interacting Compound-Target Pairs in ChEMBL数据集被广泛用于药物筛选和靶点验证。制药公司和研究机构利用该数据集进行高通量筛选,识别具有潜在治疗效果的化合物。此外,该数据集还被用于构建药物-靶点相互作用网络,帮助研究人员理解复杂疾病的多靶点调控机制,从而为个性化医疗和精准药物设计提供数据支持。
衍生相关工作
基于Interacting Compound-Target Pairs in ChEMBL数据集,衍生了一系列经典研究工作。例如,Leeson等人利用该数据集研究了药物样性质和配体效率的靶点差异,为药物设计提供了新的评价标准。此外,该数据集还被用于开发药物-靶点相互作用预测模型,推动了人工智能在药物发现中的应用。这些研究不仅扩展了数据集的应用范围,还为药物化学和生物信息学领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



