five

ChemBL|化学信息学数据集|药物发现数据集

收藏
www.ebi.ac.uk2024-11-02 收录
化学信息学
药物发现
下载链接:
https://www.ebi.ac.uk/chembl/
下载链接
链接失效反馈
资源简介:
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
提供机构:
www.ebi.ac.uk
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChemBL数据集的构建基于对大量化学文献和数据库的系统性整合。通过自动化工具和人工验证相结合的方式,从PubMed、Reaxys等权威数据库中提取化学结构、生物活性数据以及相关的实验条件。这一过程确保了数据的准确性和完整性,为化学和生物学研究提供了坚实的基础。
特点
ChemBL数据集以其广泛性和多样性著称,涵盖了超过200万个独特的化学实体和超过1.5亿个生物活性记录。该数据集不仅包括小分子化合物,还涉及蛋白质、核酸等多种生物分子。此外,ChemBL提供了详细的元数据,如实验条件、生物活性单位和参考文献,极大地增强了数据的可解释性和可重复性。
使用方法
ChemBL数据集可广泛应用于药物发现、化学信息学和生物信息学研究。研究人员可以通过API接口或直接下载数据集,进行化合物筛选、药物设计、生物活性预测等任务。此外,ChemBL还支持多种数据分析工具和可视化平台,如RDKit和ChEMBL-GLIDE,帮助用户高效地探索和利用数据集中的信息。
背景与挑战
背景概述
ChemBL数据集,由欧洲生物信息学研究所(EBI)于2000年代初创建,是化学信息学领域的重要资源。该数据集汇集了大量化学实体及其生物活性数据,涵盖了从药物发现到毒理学研究的广泛应用。主要研究人员包括John Overington及其团队,他们的工作极大地推动了药物设计与开发领域的进展。ChemBL的核心研究问题在于如何高效地整合和标准化化学与生物数据,以支持新药研发和现有药物的再利用。其影响力不仅限于学术界,还广泛应用于工业界,成为药物发现和开发过程中不可或缺的工具。
当前挑战
尽管ChemBL数据集在化学信息学领域具有重要地位,但其构建和维护过程中仍面临诸多挑战。首先,数据的标准化和整合是一个复杂的过程,涉及多种数据源和格式,确保数据的一致性和准确性是一大难题。其次,随着新化学实体和生物活性数据的不断增加,如何高效地更新和扩展数据集,同时保持其结构和查询性能,是一个持续的挑战。此外,数据隐私和安全问题也是不容忽视的,特别是在涉及敏感生物信息和药物研发数据时。最后,如何有效地利用这些数据进行预测模型构建和验证,以支持药物发现和开发,是该数据集面临的另一重要挑战。
发展历史
创建时间与更新
ChemBL数据集由欧洲生物信息学研究所(EBI)于2000年创建,旨在整合和标准化化学和生物活性数据。自创建以来,ChemBL经历了多次重大更新,最近一次主要更新发生在2021年,引入了更多结构和生物活性数据,以保持其作为化学信息学领域领先资源的角色。
重要里程碑
ChemBL的重要里程碑包括2003年首次公开发布,这一事件标志着化学信息学领域数据共享和整合的重要进展。2008年,ChemBL与美国国家癌症研究所(NCI)的合作,进一步扩展了其数据覆盖范围,涵盖了更多药物发现相关的化学和生物数据。2012年,ChemBL数据库的全面升级,引入了更先进的化学结构搜索和分析工具,显著提升了数据的可访问性和利用率。
当前发展情况
当前,ChemBL作为全球领先的化学和生物活性数据资源,持续为药物发现和化学信息学研究提供支持。其数据库不仅包含了超过2亿个化学实体和超过1.5亿个生物活性记录,还集成了多种先进的分析工具和API接口,使得研究人员能够高效地进行数据挖掘和模型构建。ChemBL的发展不仅推动了药物发现领域的技术进步,还为跨学科研究提供了宝贵的数据资源,进一步促进了科学研究的深入和创新。
发展历程
  • ChemBL项目由欧洲生物信息学研究所(EBI)启动,旨在创建一个全面的化学数据库,用于药物发现和化学信息学研究。
    1980年
  • ChemBL数据库首次公开发布,提供了一个包含大量化学实体和生物活性数据的资源,为学术界和工业界的研究人员提供了宝贵的工具。
    1994年
  • ChemBL数据库进行了重大升级,引入了更多的化学和生物数据,增强了其作为药物发现平台的功能。
    2000年
  • ChemBL数据库被整合到ChEMBLdb中,这是一个更为先进和用户友好的平台,提供了更强大的搜索和分析工具。
    2008年
  • ChEMBLdb发布了第17版,引入了新的数据类型和改进的数据处理算法,进一步提升了其作为化学信息学工具的价值。
    2012年
  • ChEMBLdb发布了第24版,增加了对大规模数据集的支持,并引入了机器学习算法,以提高数据分析的准确性和效率。
    2017年
  • ChEMBLdb发布了第30版,继续扩展其数据覆盖范围,并引入了新的数据可视化工具,以支持更复杂的药物发现研究。
    2021年
常用场景
经典使用场景
在药物发现领域,ChemBL数据集被广泛用于分子数据库的构建与分析。其经典使用场景包括药物靶点的识别与验证、化合物活性预测以及药物相互作用的研究。通过整合大量化学和生物学数据,ChemBL为研究人员提供了一个全面的平台,以探索和理解分子结构与生物活性之间的关系。
解决学术问题
ChemBL数据集解决了药物发现中的多个关键学术问题,如化合物活性预测的准确性、药物靶点的多样性识别以及药物相互作用模型的建立。其丰富的数据资源和结构化的信息为学术界提供了强大的支持,推动了药物设计与开发的前沿研究,显著提升了新药研发的效率和成功率。
衍生相关工作
基于ChemBL数据集,衍生出了众多经典工作,如基于机器学习的药物活性预测模型、药物靶点网络的构建以及药物相互作用数据库的开发。这些工作不仅深化了对药物作用机制的理解,还为药物发现和开发提供了新的工具和方法,进一步推动了药物科学的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。

hugging_face 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录