ChEMBL v25

github2021-11-23 更新2024-05-31 收录

下载链接：

https://github.com/melloddy/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

所有处理过的数据集均基于从ChEMBL第25版提取的数据，该版本数据提供在Creative Commons Attribution-ShareAlike 3.0 Unported许可下。

所有经过处理的数据集均源自ChEMBL第25版的数据，该版数据依照Creative Commons Attribution-ShareAlike 3.0 Unported许可发布。

创建时间：

2021-05-17

原始信息汇总

数据集概述

数据集来源

所有处理过的数据集基于ChEMBL数据库的第25版数据提取。
ChEMBL v25的原始数据和许可证信息可从以下链接获取：ChEMBL v25。

数据集内容

ChEMBL相关数据集

数据集由ChEMBL v25输出文件提取并处理，处理代码公开可用：数据处理代码。

MELLODDY-TUNER相关数据集

版本1.0

用于运行MELLODDY-TUNER版本1.0的公开数据来自ChEMBL (版本25)：MELLODDY-TUNER v1.0。

版本2.0

用于运行MELLODDY-TUNER版本2.0的公开数据来自ChEMBL (版本25) 和 PubChem：MELLODDY-TUNER v2.0。

数据集许可证

本数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License。

搜集汇总

数据集介绍

构建方式

ChEMBL v25数据集的构建基于ChEMBL数据库的第25版发布，该数据库是一个广泛使用的生物活性分子数据库，专注于药物发现和化学信息学领域。数据集的构建过程包括从ChEMBL数据库中提取原始数据，并通过公开的数据准备代码进行处理和格式化，以确保数据的可用性和一致性。所有处理后的数据集均遵循Creative Commons Attribution-ShareAlike 3.0 Unported许可协议。

使用方法

ChEMBL v25数据集的使用方法多样，研究人员可以通过访问ChEMBL数据库的官方网站或MELLODDY Zenodo社区获取数据集。数据集支持直接下载和使用，适用于药物筛选、分子对接、化学信息学分析等多种研究场景。此外，数据集还提供了详细的文档和示例代码，帮助用户快速上手并进行深入的数据分析。对于特定的研究需求，如MELLODDY-TUNER项目，数据集还提供了专门的版本和工具支持。

背景与挑战

背景概述

ChEMBL v25数据库是由欧洲生物信息学研究所（EBI）于2017年发布的一个综合性化学数据库，专注于药物发现和化学生物学领域。该数据库由Gaulton等人主导开发，旨在为研究人员提供高质量的生物活性数据和化合物信息。ChEMBL v25包含了大量经过验证的化合物及其生物活性数据，广泛应用于药物筛选、靶点识别和化学信息学研究。其影响力不仅体现在药物研发领域，还为化学信息学和生物信息学的交叉研究提供了重要支持。

当前挑战

ChEMBL v25在解决药物发现中的化合物活性预测和靶点识别问题时，面临数据质量与一致性的挑战。由于数据来源多样，实验条件和测量方法的差异可能导致数据噪声和不一致性，影响模型的泛化能力。此外，构建过程中，数据整合与标准化处理也面临技术难题，尤其是如何将不同来源的生物活性数据进行统一格式化和质量控制。这些挑战要求研究人员在数据预处理和模型训练中投入大量精力，以确保数据的可靠性和模型的准确性。

常用场景

经典使用场景

ChEMBL v25数据集在药物发现和化学生物学研究中扮演着至关重要的角色。研究人员利用该数据集进行药物靶点预测、化合物活性筛选以及药物-靶点相互作用分析。通过整合大量的生物活性数据和化学结构信息，ChEMBL v25为药物设计提供了丰富的参考资源，极大地加速了新药的研发进程。

解决学术问题

ChEMBL v25数据集解决了药物研发中的多个关键学术问题。首先，它提供了大量经过验证的生物活性数据，帮助研究人员更准确地预测化合物的药理活性。其次，数据集中的化学结构信息为药物分子设计提供了重要参考，使得药物优化过程更加高效。此外，ChEMBL v25还为药物靶点识别和药物再利用研究提供了宝贵的数据支持，推动了药物研发领域的创新。

实际应用

ChEMBL v25数据集在实际应用中展现了广泛的价值。制药公司和研究机构利用该数据集进行高通量筛选，快速识别潜在的药物候选分子。此外，ChEMBL v25还被用于构建药物-靶点相互作用网络，帮助研究人员理解药物的作用机制。在个性化医疗领域，该数据集为药物反应预测和个体化治疗方案设计提供了数据基础，推动了精准医学的发展。

数据集最近研究