PrimeKG++

Name: PrimeKG++
Creator: 胡志明市信息技术大学, FPT软件AI中心, 圣路易斯华盛顿大学, 伯明翰阿拉巴马大学
Published: 2025-01-03T13:29:12+08:00

arXiv2025-01-03 更新2025-01-07 收录

生物医学知识图谱

药物研究

数据链接：

https://github.com/HySonLab/BioMedKG 数据链接链接失效反馈

官方服务：

资源简介：

PrimeKG++是一个增强的生物医学知识图谱，由胡志明市信息技术大学、FPT软件AI中心、圣路易斯华盛顿大学和伯明翰阿拉巴马大学的研究团队开发。该数据集包含了超过100,000个节点和400万条关系，涵盖了基因、蛋白质、药物和疾病等多种生物实体。PrimeKG++通过整合生物序列（如氨基酸序列、核酸序列）和详细的文本描述，丰富了节点的属性信息，从而提高了知识图谱的实用性和研究价值。数据集的创建过程包括从权威来源（如Entrez Gene和DrugBank）收集数据，并通过多模态融合技术将不同属性的信息整合到一个统一的嵌入空间中。PrimeKG++的应用领域主要集中在生物医学研究，特别是药物-疾病关系预测和药物重定位等领域，旨在通过更精确的链接预测加速生物医学研究的进展。

PrimeKG++ is an enhanced biomedical knowledge graph developed by research teams from Ho Chi Minh City University of Information Technology, FPT Software AI Center, Washington University in St. Louis, and University of Alabama at Birmingham. This dataset contains over 100,000 nodes and 4 million relationships, covering various biological entities such as genes, proteins, drugs, and diseases. PrimeKG++ enriches the attribute information of nodes by integrating biological sequences (e.g., amino acid sequences, nucleic acid sequences) and detailed textual descriptions, thereby improving the practicality and research value of the knowledge graph. The dataset creation process involves collecting data from authoritative sources including Entrez Gene and DrugBank, and integrating information with different attributes into a unified embedding space via multimodal fusion technology. The application fields of PrimeKG++ are primarily focused on biomedical research, especially in areas such as drug-disease relationship prediction and drug repurposing, aiming to accelerate the progress of biomedical research through more accurate link prediction.

提供机构：

胡志明市信息技术大学, FPT软件AI中心, 圣路易斯华盛顿大学, 伯明翰阿拉巴马大学

创建时间：

2025-01-03

原始信息汇总

数据集概述

数据集名称

PrimeKG++
DrugBank DTI

数据集来源

PrimeKG++：基于PrimeKG数据集，增加了多模态数据，包括生物序列和文本描述。
DrugBank DTI：来自DrugBank知识库的药物-靶点相互作用数据集。

数据集内容

PrimeKG++：包含多模态特征和处理后的三元组数据，用于增强生物医学知识图谱中的节点关系。
DrugBank DTI：包含药物-靶点相互作用数据，用于药物靶点预测任务。

数据集用途

PrimeKG++：用于生物医学知识图谱中的链接预测任务，增强节点类型内的关系。
DrugBank DTI：用于药物-靶点相互作用的预测任务。

数据集下载

通过Hugging Face Hub下载： shell huggingface-cli download tienda02/BioMedKG --repo-type=dataset --local-dir ./data

数据集训练与测试

PrimeKG++：
- 对比学习训练： shell bash scripts/gcl.sh
- 链接预测训练： shell bash scripts/kge.sh
- 链接预测测试： shell bash scripts/test_kge.sh
DrugBank DTI：
- 药物-靶点相互作用微调： shell bash scripts/dpi.sh
- 药物-靶点相互作用测试： shell bash scripts/test_dpi.sh

数据集引用

PrimeKG++： bibtex @misc{dang2025multimodalcontrastiverepresentationlearning, title={Multimodal Contrastive Representation Learning in Augmented Biomedical Knowledge Graphs}, author={Tien Dang and Viet Thanh Duy Nguyen and Minh Tuan Le and Truong-Son Hy}, year={2025}, eprint={2501.01644}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.01644}, }
DrugBank DTI： bibtex @article{knox2023drugbank, title={Drugbank 6.0: the drugbank knowledgebase for 2024}, author={Craig Knox, Mike Wilson, Christen M Klinger, et al.}, journal={Nucleic Acids Research}, year={2023}, url={https://academic.oup.com/nar/article/52/D1/D1265/7416367}, }

数据集相关论文

PrimeKG++：
- Building a knowledge graph to enable precision medicine
DrugBank DTI：
- Drugbank 6.0: the drugbank knowledgebase for 2024

搜集汇总

数据集介绍

构建方式

PrimeKG++的构建基于PrimeKG，通过整合多模态数据进一步丰富了知识图谱的内容。具体而言，PrimeKG++在PrimeKG的基础上，为每个实体类型添加了生物序列和详细的文本描述。例如，基因/蛋白质节点被进一步细分为编码蛋白质的基因和非编码基因，分别用氨基酸序列和核苷酸序列表示；药物节点则分为小分子和抗体，分别用SMILES字符串和氨基酸序列表示。这些数据来源于权威数据库如Entrez Gene和DrugBank，确保了数据的准确性和可靠性。通过这种方式，PrimeKG++不仅扩展了原始知识图谱的覆盖范围，还增强了其在生物医学研究中的实用性。

使用方法

PrimeKG++的使用方法主要围绕其多模态嵌入的生成和应用展开。首先，通过预训练的语言模型（如ProtBERT、DNABERT等）对每个实体的生物序列和文本描述进行编码，生成初始嵌入。接着，利用图对比学习（GCL）模块优化节点内部的表示，增强同类节点之间的关系。最后，通过知识图谱嵌入（KGE）模型进行链接预测任务，进一步优化不同节点类型之间的关系表示。这种多阶段的嵌入生成方法确保了PrimeKG++能够生成高质量的节点表示，适用于多种下游任务，如药物-靶点相互作用预测、疾病-基因关联分析等。此外，PrimeKG++的嵌入可以直接用于初始化机器学习模型，显著提升模型在生物医学任务中的表现。

背景与挑战

背景概述

PrimeKG++是由Tien Dang等人于2025年提出的一个增强型生物医学知识图谱，旨在解决现有生物医学知识图谱（BKGs）在节点属性表示上的不足。该数据集基于PrimeKG，通过整合多模态数据（如生物序列和文本描述）来丰富节点属性，从而提升知识图谱在链接预测任务中的表现。PrimeKG++的构建由多个研究机构合作完成，包括越南信息技术大学、FPT软件AI中心、圣路易斯华盛顿大学和阿拉巴马大学伯明翰分校。该数据集的核心研究问题是通过多模态对比表示学习，增强生物医学知识图谱中的节点表示，进而提高链接预测的准确性。PrimeKG++的发布为生物医学研究提供了宝贵的资源，推动了药物重定位、疾病-药物关系发现等领域的研究进展。

当前挑战

PrimeKG++在构建和应用过程中面临多重挑战。首先，现有生物医学知识图谱通常缺乏详细的节点属性，导致节点表示不够丰富，难以捕捉复杂的生物医学关系。PrimeKG++通过整合多模态数据解决了这一问题，但在数据融合过程中，如何有效整合不同模态的信息（如生物序列与文本描述）仍是一个技术难题。其次，链接预测任务本身具有挑战性，尤其是在处理未见节点时，模型需要具备较强的泛化能力。PrimeKG++通过引入图对比学习（GCL）和知识图谱嵌入（KGE）模型来优化节点表示，但在处理大规模图谱时，计算复杂度和模型训练效率仍需进一步优化。此外，数据集的构建依赖于多源数据的整合，数据质量和一致性也是需要克服的关键问题。

常用场景

经典使用场景

PrimeKG++数据集在生物医学知识图谱（BKG）领域中被广泛应用于链接预测任务。通过整合多模态数据，如生物序列和文本描述，PrimeKG++能够捕捉生物实体之间的复杂关系，从而帮助研究人员发现潜在的药物-疾病关系、药物-蛋白质相互作用等。该数据集的使用场景主要集中在生物医学研究中的知识发现、药物重定位和疾病治疗靶点的识别。

解决学术问题

PrimeKG++解决了现有生物医学知识图谱中节点属性稀疏和缺乏多模态数据的问题。通过引入生物序列和详细的文本描述，PrimeKG++增强了节点表示的丰富性和上下文理解能力，从而提高了链接预测的准确性。该数据集为研究人员提供了一个强大的工具，能够更好地捕捉生物实体之间的语义和关系信息，推动了生物医学知识图谱领域的研究进展。

实际应用

PrimeKG++在实际应用中具有广泛的潜力，特别是在药物开发和疾病治疗领域。通过该数据集，研究人员可以识别潜在的药物靶点，预测药物与蛋白质之间的相互作用，甚至发现新的药物重定位机会。这些应用能够加速药物研发过程，降低研发成本，并为个性化医疗提供支持。此外，PrimeKG++还可以用于构建更精确的生物医学知识图谱，帮助临床医生和研究人员更好地理解疾病的分子机制。

数据集最近研究