awesome-drug-discovery-knowledge-graphs

github2026-06-01 更新2026-06-04 收录

下载链接：

https://github.com/AstraZeneca/awesome-drug-discovery-knowledge-graphs

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于药物发现知识图谱的数据集合集资源，收集和整理了适用于构建药物发现知识图谱的公开数据集、研究论文和软件工具。合集覆盖了生物医学领域的数据源，包括基因、疾病、药物等实体及其相互关系的数据，旨在帮助机器学习和知识图谱从业者应用新技术于药物发现领域。

This is a curated dataset collection resource focused on knowledge graphs for drug discovery. It collects and organizes publicly available datasets, research papers, and software tools suitable for constructing knowledge graphs in the drug discovery domain. The collection covers biomedical data sources, including data on entities such as genes, diseases, and drugs, as well as their interrelationships. It aims to assist practitioners in machine learning and knowledge graph research to apply new technologies to the field of drug discovery.

创建时间：

2021-10-16

原始信息汇总

数据集详情概述

该数据集详情页是一个名为 Awesome Drug Discovery Knowledge Graphs 的资源集合，专注于药物发现领域适用的知识图谱相关数据集与研究论文。

核心目标

收集并整理公开可用的、适合构建药物发现知识图谱的数据源。
帮助机器学习与知识图谱从业者熟悉相关数据资源，推动知识图谱在药物发现中的应用。

关键组成

主要列表：Drug Discovery Knowledge Graphs – 提供药物发现知识图谱的汇总，包含相关论文、下载链接及构建代码。
补充列表：
1. Source Datasets – 常用于组成知识图谱的关键生物医学数据集。
2. Biomedical Ontologies – 生物医学本体资源。
3. Applications – 知识图谱在药物发现中的典型应用案例。
4. Other Resources – 其他相关资源。

许可与版本

许可证：Apache 2.0。
历史版本：如要查看与发表论文匹配的初始版本，可使用 v1.0.0 发布版本。

搜集汇总

数据集介绍

构建方式

该数据集以综述性研究为核心，系统性地收集并整理了适用于药物发现领域的公开知识图谱资源。其构建过程基于严格的筛选标准，将数据集按照所含信息的主要类型进行分类，并考量从中提取信息以构建知识图谱的可行性。此外，项目还收录了用于组成这些图谱的关键生物医学资源、本体论以及相关应用案例，最终形成了一份层次分明、内容全面的资源清单。

使用方法

使用者可直接通过GitHub仓库访问分类清晰的资源列表，包括药物发现知识图谱、源数据集、生物医学本体及应用案例等章节。每个条目均附有指向原始论文、数据下载地址及构建代码的链接，便于研究人员快速获取并复现相关资源。项目还鼓励社区贡献，通过提交新资源的方式持续丰富该集合，以保持其时效性与完整性。

背景与挑战

背景概述

药物发现与开发是一个高度复杂且成本高昂的过程，近年来，机器学习方法被广泛探索以提升药物研发管线的效率与速度。其中，基于知识图谱（Knowledge Graph, KG）的技术在药物重定位、毒性预测及靶点基因-疾病优先级排序等任务中展现出巨大潜力。由阿斯利康（AstraZeneca）主导，Stephen Bonner、Ian P. Barrett等研究人员于2021年发布了该数据集，并配套发表了综述论文《A Review of Biomedical Datasets Relating to Drug Discovery: A Knowledge Graph Perspective》。该数据集系统收集了适用于药物发现领域的公开知识图谱资源，涵盖基因、疾病、药物等关键实体及其相互作用关系，旨在为机器学习和知识图谱从业者提供数据指南，推动知识图谱在药物发现中的深度应用，对生物医学信息学领域产生了重要影响。

当前挑战

该数据集所解决的领域问题核心在于药物发现过程中数据异构性与知识整合的挑战：现有生物医学数据分散于不同来源，格式与语义标准不统一，难以直接构建高质量的知识图谱。具体挑战包括：1）数据来源多样，如文献、数据库、本体等，需严格筛选与分类；2）实体关系复杂，如药物-靶点相互作用、基因-疾病关联等，需确保关系抽取的准确性与完整性；3）知识图谱构建需兼顾可扩展性与更新频率，以应对快速演进的生物医学知识。在构建过程中，研究人员面临数据集选取标准制定、信息提取一致性保障以及跨领域专家协作等难题，同时需解决图谱评估与案例验证的方法论挑战，为后续研究提供了重要参考。

常用场景

经典使用场景

在药物研发的复杂征程中，知识图谱凭借其强大的关系建模能力，成为整合多源异构生物医学数据的关键工具。该数据集最经典的使用场景聚焦于药物重定位，即通过挖掘基因、疾病与药物之间的潜在关联，为已有药物发现新的治疗适应症。此外，在药物毒性预测中，研究者利用知识图谱中化合物与靶点、通路间的交互信息，构建预测模型以评估候选药物的安全风险。靶点基因-疾病优先级排序亦是核心应用之一，通过图谱中的拓扑结构与语义关系，系统性地识别与特定疾病最相关的基因靶点，从而加速药物靶点的发现过程。这些场景共同体现了知识图谱在连接离散生物医学知识、揭示隐藏规律方面的独特价值。

解决学术问题

该数据集系统性地解决了药物发现领域中数据碎片化与语义鸿沟的学术难题。传统研究方法往往局限于单一数据源，难以捕捉基因、疾病、药物间复杂的多维交互关系。通过整合公开可用的生物医学资源，该数据集为构建高质量知识图谱提供了标准化基准，从而支持图神经网络等先进方法的应用。它有效缓解了药物研发早期阶段靶点识别效率低、候选药物筛选成本高的困境，推动了从关联分析到因果推断的范式转变。其意义在于为计算药物发现奠定了数据基础设施，使得跨模态知识融合成为可能，显著提升了药物重定位、不良反应预测等任务的准确性与可解释性，对加速新药研发进程具有深远影响。

实际应用

在实际应用层面，该数据集已被广泛部署于制药工业与生物技术公司的研发管线中。例如，在药物重定位流程里，企业利用知识图谱快速筛选已批准药物与罕见病或耐药性肿瘤之间的潜在关联，大幅缩短临床前研究周期。在安全性评估环节，毒理学家借助图谱中化合物与器官毒性信号的链接，提前规避高风险候选分子，降低临床试验失败率。此外，精准医学领域亦受益于此，通过整合患者基因组数据与疾病知识图谱，实现个性化靶点推荐与用药方案优化。这些实践不仅节约了巨额研发成本，更使得那些因传统方法难以推进的难治性疾病研究获得了新的突破口。

数据集最近研究

awesome-drug-discovery-knowledge-graphs

数据集详情概述

核心目标

关键组成

相关研究论文

许可与版本