Know2BIO

arXiv2023-10-05 更新2024-07-31 收录

下载链接：

https://github.com/Yijia-Xiao/Know2BIO/

下载链接

链接失效反馈

官方服务：

资源简介：

Know2BIO是一个面向生物医学领域的通用异构知识图谱基准，整合了来自30个不同来源的数据，涵盖11个生物医学类别，包含约219,000个节点和约6,200,000条边。该数据集支持用户指导的自动化更新，以反映最新的生物医学科学知识，并伴随有多模态数据，如文本描述、蛋白质和化合物序列及结构，支持新兴的自然语言处理方法和多模态数据集成策略。

Know2BIO is a general-purpose heterogeneous knowledge graph benchmark targeting the biomedical domain. It integrates data from 30 distinct sources, spanning 11 biomedical categories, and comprises approximately 219,000 nodes and around 6.2 million edges. This dataset supports user-guided automated updates to reflect the latest biomedical scientific knowledge, and is accompanied by multimodal data including textual descriptions, protein and compound sequences and structures, which supports emerging natural language processing (NLP) methods and multimodal data integration strategies.

创建时间：

2023-10-05

搜集汇总

数据集介绍

构建方式

在生物医学知识图谱构建领域，Know2BIO通过整合30个异构数据源，构建了一个包含约219,000个节点和6,200,000条边的综合性图谱。其构建过程涉及复杂的实体对齐机制，通过映射不同数据源的标识符（如基因的Entrez ID与蛋白质的UniProt ID）来消除冗余并确保数据一致性。该数据集采用自动化脚本实现持续更新，能够动态反映生物医学科学的最新进展，同时支持多模态节点特征的集成，包括文本描述、蛋白质序列和化合物结构等。

特点

Know2BIO的显著特点在于其双视图结构，涵盖实例视图与本体视图，分别描述实体间的交互关系和概念层次结构。图谱覆盖11个生物医学类别，包含108种独特的关系类型，其中化合物与蛋白质间的关系多达51种，体现了生物医学知识的复杂性。此外，数据集提供丰富的多模态节点特征，如自然语言描述、分子序列和三维结构，为融合语言模型与多模态学习策略提供了基础。其规模与多样性使其成为评估知识图谱表示学习模型的理想基准。

使用方法

Know2BIO可作为生物医学知识发现与模型评估的核心资源。用户可通过其开源框架自动更新数据，并利用提供的训练、验证和测试分割进行链接预测等任务。数据集支持多视图学习，允许分别对实例视图、本体视图及整体视图进行建模，以评估模型在层次结构与复杂关系中的表现。研究者还可整合多模态节点特征，结合自然语言处理或图神经网络方法，探索药物重定位、疾病基因预测等下游应用。

背景与挑战

背景概述

在生物医学信息学领域，知识图谱已成为整合复杂异构数据的关键框架。然而，现有生物医学知识图谱普遍面临数据来源分散、实体对齐困难、更新滞后以及多模态信息融合不足等挑战。为应对这些挑战，由加州大学洛杉矶分校和清华大学的研究团队于2023年联合构建了Know2BIO数据集。该数据集整合了来自30个权威生物医学数据库的信息，涵盖解剖学、疾病、化合物、基因、蛋白质等11个核心生物医学类别，包含约21.9万个节点和618万条边。Know2BIO创新性地采用双视图架构，将实例视图与本体视图有机结合，并首次实现了用户导向的自动化更新机制，确保知识图谱能够持续反映生物医学领域的最新进展。该数据集通过提供文本描述、蛋白质序列、化合物结构等多模态节点特征，为知识表示学习、多模态融合及药物发现等前沿研究提供了高质量的基准平台。

当前挑战

Know2BIO数据集致力于解决生物医学知识图谱构建与应用中的核心挑战。在领域问题层面，其首要挑战在于如何精准建模生物医学实体间复杂多样的关系类型，例如化合物与蛋白质间存在的51种不同相互作用关系，这对知识表示模型的表达能力提出了极高要求。其次，生物医学知识具有快速演进的特性，要求知识图谱必须具备动态更新能力以保持时效性。在构建过程中，研究团队面临多重技术挑战：其一是跨数据库实体对齐的复杂性，不同数据源采用各异的标识符体系，需要通过多级映射实现实体统一，其中化合物标识符的对齐尤为艰巨；其二是多视图融合的技术难题，需要设计有效的桥梁节点连接机制，实现实例数据与本体知识的协同表示；其三是多模态数据整合的挑战，需将序列、结构、文本等异构特征与图结构有机融合，这对表示学习方法的创新提出了新的需求。

常用场景

经典使用场景

在生物医学知识图谱表示学习领域，Know2BIO数据集作为综合性基准，其经典使用场景体现在对异构知识图谱嵌入模型的系统性评估。该数据集通过整合30个异构数据源，构建了包含约21.9万个节点和618万条边的多视图知识图谱，为研究者提供了评估模型在链接预测任务中性能的标准化平台。其独特的双视图结构——实例视图与本体视图——使得模型能够同时学习实体间的具体交互关系和概念间的层次化语义关联，为复杂生物医学关系的建模提供了多维度的验证环境。

解决学术问题

Know2BIO数据集有效解决了生物医学知识图谱构建中的若干核心学术问题。针对实体对齐的挑战，该数据集通过精细化的标识符映射机制，实现了跨数据源的实体统一表示，显著减少了冗余和错误信息。在知识更新层面，其设计的自动化更新框架克服了传统知识图谱难以跟上科学进展的局限，确保了知识的时效性。此外，数据集通过整合多模态节点特征（如文本描述、蛋白质序列、化合物结构），突破了传统知识图谱表征能力受限的瓶颈，为融合自然语言处理与多模态学习的交叉研究提供了基础设施。

衍生相关工作

基于Know2BIO数据集，已衍生出多个重要的研究方向与改进工作。在模型架构层面，研究者利用其双视图特性开发了多视图知识图谱嵌入算法，如通过桥接节点联合学习实例与本体表示的方法。针对其多模态特征，出现了融合图神经网络与语言模型的混合架构，以同时利用结构关系与文本语义信息。此外，该数据集还促进了专门针对生物医学图谱的负采样策略和评估指标的研究，例如考虑生物医学先验知识的类型约束负采样方法。这些衍生工作共同推动了生物医学知识推理领域的方法学进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集