five

PrimeKG++

收藏
arXiv2025-01-03 更新2025-01-07 收录
下载链接:
https://github.com/HySonLab/BioMedKG
下载链接
链接失效反馈
资源简介:
PrimeKG++是一个增强的生物医学知识图谱,由胡志明市信息技术大学、FPT软件AI中心、圣路易斯华盛顿大学和伯明翰阿拉巴马大学的研究团队开发。该数据集包含了超过100,000个节点和400万条关系,涵盖了基因、蛋白质、药物和疾病等多种生物实体。PrimeKG++通过整合生物序列(如氨基酸序列、核酸序列)和详细的文本描述,丰富了节点的属性信息,从而提高了知识图谱的实用性和研究价值。数据集的创建过程包括从权威来源(如Entrez Gene和DrugBank)收集数据,并通过多模态融合技术将不同属性的信息整合到一个统一的嵌入空间中。PrimeKG++的应用领域主要集中在生物医学研究,特别是药物-疾病关系预测和药物重定位等领域,旨在通过更精确的链接预测加速生物医学研究的进展。

PrimeKG++ is an enhanced biomedical knowledge graph developed by research teams from Ho Chi Minh City University of Information Technology, FPT Software AI Center, Washington University in St. Louis, and The University of Alabama at Birmingham. This dataset contains over 100,000 nodes and 4 million relationships, covering various biological entities such as genes, proteins, drugs, and diseases. PrimeKG++ enriches the attribute information of nodes by integrating biological sequences (e.g., amino acid sequences, nucleic acid sequences) and detailed textual descriptions, thereby improving the practicality and research value of the knowledge graph. The creation of the dataset involves collecting data from authoritative sources such as Entrez Gene and DrugBank, and integrating information of different modalities into a unified embedding space via multimodal fusion technology. The application scenarios of PrimeKG++ are mainly focused on biomedical research, particularly in areas such as drug-disease relationship prediction and drug repurposing, aiming to accelerate the progress of biomedical research through more precise link prediction.
提供机构:
胡志明市信息技术大学, FPT软件AI中心, 圣路易斯华盛顿大学, 伯明翰阿拉巴马大学
创建时间:
2025-01-03
原始信息汇总

数据集概述

数据集名称

  • PrimeKG++
  • DrugBank DTI

数据集来源

  • PrimeKG++:基于PrimeKG数据集,增加了多模态数据,包括生物序列和文本描述。
  • DrugBank DTI:来自DrugBank知识库的药物-靶点相互作用数据集。

数据集内容

  • PrimeKG++:包含多模态特征和处理后的三元组数据,用于增强生物医学知识图谱中的节点关系。
  • DrugBank DTI:包含药物-靶点相互作用数据,用于药物靶点预测任务。

数据集用途

  • PrimeKG++:用于生物医学知识图谱中的链接预测任务,增强节点类型内的关系。
  • DrugBank DTI:用于药物-靶点相互作用的预测任务。

数据集下载

  • 通过Hugging Face Hub下载: shell huggingface-cli download tienda02/BioMedKG --repo-type=dataset --local-dir ./data

数据集训练与测试

  • PrimeKG++

    • 对比学习训练: shell bash scripts/gcl.sh

    • 链接预测训练: shell bash scripts/kge.sh

    • 链接预测测试: shell bash scripts/test_kge.sh

  • DrugBank DTI

    • 药物-靶点相互作用微调: shell bash scripts/dpi.sh

    • 药物-靶点相互作用测试: shell bash scripts/test_dpi.sh

数据集引用

  • PrimeKG++: bibtex @misc{dang2025multimodalcontrastiverepresentationlearning, title={Multimodal Contrastive Representation Learning in Augmented Biomedical Knowledge Graphs}, author={Tien Dang and Viet Thanh Duy Nguyen and Minh Tuan Le and Truong-Son Hy}, year={2025}, eprint={2501.01644}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.01644}, }

  • DrugBank DTI: bibtex @article{knox2023drugbank, title={Drugbank 6.0: the drugbank knowledgebase for 2024}, author={Craig Knox, Mike Wilson, Christen M Klinger, et al.}, journal={Nucleic Acids Research}, year={2023}, url={https://academic.oup.com/nar/article/52/D1/D1265/7416367}, }

数据集相关论文

AI搜集汇总
数据集介绍
main_image_url
构建方式
PrimeKG++的构建基于PrimeKG,通过整合多模态数据进一步丰富了知识图谱的内容。具体而言,PrimeKG++在PrimeKG的基础上,为每个实体类型添加了生物序列和详细的文本描述。例如,基因/蛋白质节点被进一步细分为编码蛋白质的基因和非编码基因,分别用氨基酸序列和核苷酸序列表示;药物节点则分为小分子和抗体,分别用SMILES字符串和氨基酸序列表示。这些数据来源于权威数据库如Entrez Gene和DrugBank,确保了数据的准确性和可靠性。通过这种方式,PrimeKG++不仅扩展了原始知识图谱的覆盖范围,还增强了其在生物医学研究中的实用性。
使用方法
PrimeKG++的使用方法主要围绕其多模态嵌入的生成和应用展开。首先,通过预训练的语言模型(如ProtBERT、DNABERT等)对每个实体的生物序列和文本描述进行编码,生成初始嵌入。接着,利用图对比学习(GCL)模块优化节点内部的表示,增强同类节点之间的关系。最后,通过知识图谱嵌入(KGE)模型进行链接预测任务,进一步优化不同节点类型之间的关系表示。这种多阶段的嵌入生成方法确保了PrimeKG++能够生成高质量的节点表示,适用于多种下游任务,如药物-靶点相互作用预测、疾病-基因关联分析等。此外,PrimeKG++的嵌入可以直接用于初始化机器学习模型,显著提升模型在生物医学任务中的表现。
背景与挑战
背景概述
PrimeKG++是由Tien Dang等人于2025年提出的一个增强型生物医学知识图谱,旨在解决现有生物医学知识图谱(BKGs)在节点属性表示上的不足。该数据集基于PrimeKG,通过整合多模态数据(如生物序列和文本描述)来丰富节点属性,从而提升知识图谱在链接预测任务中的表现。PrimeKG++的构建由多个研究机构合作完成,包括越南信息技术大学、FPT软件AI中心、圣路易斯华盛顿大学和阿拉巴马大学伯明翰分校。该数据集的核心研究问题是通过多模态对比表示学习,增强生物医学知识图谱中的节点表示,进而提高链接预测的准确性。PrimeKG++的发布为生物医学研究提供了宝贵的资源,推动了药物重定位、疾病-药物关系发现等领域的研究进展。
当前挑战
PrimeKG++在构建和应用过程中面临多重挑战。首先,现有生物医学知识图谱通常缺乏详细的节点属性,导致节点表示不够丰富,难以捕捉复杂的生物医学关系。PrimeKG++通过整合多模态数据解决了这一问题,但在数据融合过程中,如何有效整合不同模态的信息(如生物序列与文本描述)仍是一个技术难题。其次,链接预测任务本身具有挑战性,尤其是在处理未见节点时,模型需要具备较强的泛化能力。PrimeKG++通过引入图对比学习(GCL)和知识图谱嵌入(KGE)模型来优化节点表示,但在处理大规模图谱时,计算复杂度和模型训练效率仍需进一步优化。此外,数据集的构建依赖于多源数据的整合,数据质量和一致性也是需要克服的关键问题。
常用场景
经典使用场景
PrimeKG++数据集在生物医学知识图谱(BKG)领域中被广泛应用于链接预测任务。通过整合多模态数据,如生物序列和文本描述,PrimeKG++能够捕捉生物实体之间的复杂关系,从而帮助研究人员发现潜在的药物-疾病关系、药物-蛋白质相互作用等。该数据集的使用场景主要集中在生物医学研究中的知识发现、药物重定位和疾病治疗靶点的识别。
解决学术问题
PrimeKG++解决了现有生物医学知识图谱中节点属性稀疏和缺乏多模态数据的问题。通过引入生物序列和详细的文本描述,PrimeKG++增强了节点表示的丰富性和上下文理解能力,从而提高了链接预测的准确性。该数据集为研究人员提供了一个强大的工具,能够更好地捕捉生物实体之间的语义和关系信息,推动了生物医学知识图谱领域的研究进展。
实际应用
PrimeKG++在实际应用中具有广泛的潜力,特别是在药物开发和疾病治疗领域。通过该数据集,研究人员可以识别潜在的药物靶点,预测药物与蛋白质之间的相互作用,甚至发现新的药物重定位机会。这些应用能够加速药物研发过程,降低研发成本,并为个性化医疗提供支持。此外,PrimeKG++还可以用于构建更精确的生物医学知识图谱,帮助临床医生和研究人员更好地理解疾病的分子机制。
数据集最近研究
最新研究方向
近年来,PrimeKG++数据集在生物医学知识图谱(BKG)领域的研究方向主要集中在多模态对比表示学习与知识图谱嵌入的结合上。通过整合语言模型(LMs)和图对比学习(GCL),研究者能够生成更具鲁棒性的节点表示,从而提升链接预测的准确性。PrimeKG++作为增强版的多模态知识图谱,不仅包含了丰富的生物序列数据(如蛋白质的氨基酸序列、基因的核酸序列等),还引入了详细的文本描述,进一步丰富了节点的上下文信息。这种多模态数据的融合使得模型能够更好地捕捉生物实体之间的复杂关系,尤其是在药物-疾病、药物-蛋白质等关键关系的预测中表现出色。此外,PrimeKG++的引入为生物医学研究提供了更全面的数据支持,推动了精准医学和药物重定位等领域的发展。通过公开源代码和预训练模型,PrimeKG++也为后续研究提供了重要的实验基础,进一步促进了生物医学知识图谱的广泛应用。
相关研究论文
  • 1
    Multimodal Contrastive Representation Learning in Augmented Biomedical Knowledge Graphs胡志明市信息技术大学, FPT软件AI中心, 圣路易斯华盛顿大学, 伯明翰阿拉巴马大学 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作