VITAGRAPH
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://www.kaggle.com/datasets/gianlucadecarlods/vitagraph/
下载链接
链接失效反馈官方服务:
资源简介:
VITAGRAPH是一个综合的多用途生物知识图谱,通过整合和精炼多个公开可用的数据集构建而成。基于药物再利用知识图谱(DRKG),该数据集旨在解决生物学中的复杂问题,如基因-疾病关联预测、药物再利用和药物副作用研究。该数据集由罗马第一大学和意大利国家研究委员会的研究人员构建,通过引入生物化学相关特征向量,如分子指纹和基因本体,增强了图节点的表达性。VITAGRAPH旨在为网络医学提供先进的平台,并可作为图机器学习和网络医学模型在相关任务上的基准测试数据集。
VITAGRAPH is a comprehensive, multi-purpose biomedical knowledge graph constructed by integrating and curating multiple publicly available datasets. Built upon the Drug Repurposing Knowledge Graph (DRKG), it is designed to tackle complex biological challenges such as gene-disease association prediction, drug repurposing, and drug side effect investigation. Developed by researchers from Sapienza University of Rome and the National Research Council of Italy, VITAGRAPH boosts the representational capacity of graph nodes by incorporating biochemical-related feature vectors including molecular fingerprints and Gene Ontology terms. This dataset aims to provide an advanced platform for network medicine and can serve as a benchmark dataset for graph machine learning and network medicine models on relevant tasks.
提供机构:
DIAG, Sapienza University of Rome and CNR Consiglio Nazionale delle Ricerche
创建时间:
2025-05-16
搜集汇总
数据集介绍
构建方式
VITAGRAPH数据集的构建基于Drug Repurposing Knowledge Graph (DRKG),通过一系列严谨的数据清洗和标准化流程,整合了多个公开的生物医学数据库。首先,研究人员对DRKG中的不一致性、冗余和非人类基因信息进行了过滤和标准化处理,包括实体标识符的统一和关系标签的标准化。随后,通过引入Reactome和OnSIDES等高质量数据源,进一步扩展了数据集的覆盖范围,并增加了通路和药物副作用信息。最后,通过生成Morgan指纹和基因功能特征向量,增强了节点的生物化学表达力。
特点
VITAGRAPH数据集的特点在于其高度标准化和丰富的生物化学特征。数据集经过严格的清洗和去冗余处理,确保了数据的准确性和一致性。此外,通过整合多个权威数据库,数据集涵盖了广泛的生物医学实体和关系,包括基因、化合物、疾病和通路等。特别值得注意的是,数据集中的节点附带了Morgan指纹和基因功能特征向量,这些特征显著提升了机器学习模型在生物医学任务中的表现。数据集的异构性和多关系结构使其成为网络医学和计算生物学研究的理想基准平台。
使用方法
VITAGRAPH数据集适用于多种生物医学任务,特别是那些可以建模为链接预测问题的场景,如药物重定位、蛋白质相互作用预测和副作用检测。研究人员可以利用该数据集训练和评估图神经网络模型,如关系图卷积网络(RGCN)和组合多关系图卷积网络(CompGCN)。数据集提供了标准化的训练、验证和测试划分,支持模型性能的可靠比较。此外,用户可以根据具体需求选择是否包含非人类基因信息或特定类型的关系,灵活调整数据集的适用范围。
背景与挑战
背景概述
VITAGRAPH数据集是由意大利罗马萨皮恩扎大学及德国波恩大学等研究机构联合构建的生物医学知识图谱,旨在支持基于图机器学习的生物医学研究任务。该数据集基于Drug Repurposing Knowledge Graph (DRKG)进行深度优化与扩展,整合了多种公开生物医学数据库,如Reactome、OnSIDES等,并引入了分子指纹和基因本体等生化特征。VITAGRAPH的核心研究问题聚焦于通过知识图谱建模复杂生物系统,支持药物重定位、基因-疾病关联预测等关键生物医学任务。其创新性体现在数据清洗流程的严谨性和节点特征的生物化学可解释性,为计算生物学和精准医学研究提供了标准化基准平台。
当前挑战
VITAGRAPH面临的挑战主要体现在两个维度:领域问题层面,生物系统的复杂性导致基因-蛋白质互作预测存在高噪声和稀疏性问题,而多模态生物数据的异构性增加了药物副作用预测的建模难度;数据构建层面,原始DRKG存在标识符冗余(如2,508个重复化合物ID)、跨数据库实体映射不完整(如62个基因无法标准化到NCBI ID)、以及语义关系标签不一致(107种原始边类型需标准化)等问题。此外,非人类基因数据过滤(移除17,553个节点)和SMILES表征缺失化合物的剔除(影响3,872个化合物)进一步凸显了生物数据整合的挑战。
常用场景
经典使用场景
VITAGRAPH作为一个综合性的生物知识图谱,广泛应用于计算生物学和网络医学领域。其经典使用场景包括基因-疾病关联预测、药物重定位以及蛋白质-蛋白质相互作用(PPI)预测。通过整合多个公开数据源并优化数据结构,VITAGRAPH为研究人员提供了一个高质量的平台,用于建模复杂的生物系统。
衍生相关工作
VITAGRAPH的发布催生了一系列相关研究,特别是在图神经网络和知识图谱嵌入领域。许多后续工作基于该数据集开发了新的算法,用于解决更复杂的生物医学问题,如多关系链接预测和异构网络分析。此外,该数据集还被用于评估和比较不同模型在生物任务中的性能,推动了计算生物学方法的进步。
数据集最近研究
最新研究方向
在计算生物学和网络医学领域,VITAGRAPH知识图谱的构建标志着生物医学数据整合与机器学习应用的重要进展。该数据集通过整合多源生物医学数据并引入生物化学特征,为药物重定位、基因-疾病关联预测及蛋白质相互作用等任务提供了高质量基准平台。近期研究聚焦于利用图神经网络模型在VITAGRAPH上进行多关系链接预测,其创新性体现在数据清洗流程的标准化和节点特征的生化意义增强。特别是在COVID-19相关药物发现和精准医疗的背景下,该数据集通过消除原始DRKG中的冗余与非人类基因信息,显著提升了预测任务的可靠性。当前前沿探索包括基于异构图神经网络的跨模态表征学习,以及将知识图谱与单细胞多组学数据结合以揭示更深层次的生物机制。
相关研究论文
- 1VitaGraph: Building a Knowledge Graph for Biologically Relevant Learning TasksDIAG, Sapienza University of Rome and CNR Consiglio Nazionale delle Ricerche · 2025年
以上内容由遇见数据集搜集并总结生成



