OpenBioLink

Name: OpenBioLink
Creator: 维也纳医科大学
Published: 2020-02-19 22:53:06
License: 暂无描述

arXiv2020-02-19 更新2024-06-21 收录

下载链接：

https://github.com/OpenBioLink/OpenBioLink

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBioLink是由维也纳医科大学开发的用于生物医学链接预测的大型基准数据集。该数据集整合了多种公共数据源，包含7种节点类型和30种边类型，覆盖广泛的生物医学实体及其关系。创建过程中特别注意排除可轻易从训练集推断的测试集内容，确保数据集的挑战性。OpenBioLink主要用于评估和推动生物医学领域的链接预测算法发展，旨在通过算法改进促进生物医学研究的进步，验证新的研究假设。

OpenBioLink is a large-scale benchmark dataset for biomedical link prediction, developed by the Medical University of Vienna. This dataset integrates multiple public data sources, encompasses 7 node types and 30 edge types, and covers a wide range of biomedical entities and their relationships. Special care was taken during its development to exclude test set samples that could be easily inferred from the training set, so as to ensure the dataset's challenging nature. OpenBioLink is primarily used to evaluate and advance the development of link prediction algorithms in the biomedical field, aiming to promote progress in biomedical research via algorithmic improvements and validate novel research hypotheses.

提供机构：

维也纳医科大学

创建时间：

2019-12-10

搜集汇总

数据集介绍

构建方式

在生物医学知识图谱领域，构建高质量基准数据集面临诸多挑战，如避免训练集与测试集间的信息泄露、排除可简单推断的关系等。OpenBioLink通过整合多个公开数据源，精心设计了一套构建流程。其图创建模块从丰富的生物医学数据库中提取节点与边，涵盖基因、蛋白质、疾病等七类节点及三十种关系类型。为确保数据质量，该模块支持基于置信度分数进行高、中、低及全量四种级别的过滤，并可根据需要生成有向或无向图版本。训练-测试分割模块则采用随机或时间切片策略，严格保证测试集中仅包含训练集内已有的实体，并剔除了可通过对称、逆反或超关系简单推导的边，从而构建出具有高度挑战性的评估基准。

特点

OpenBioLink基准数据集展现出规模宏大、结构复杂且评估严谨的鲜明特点。它包含超过50万条三元组，覆盖了从分子相互作用到表型关联的广泛生物医学关系，真实反映了领域知识图谱的异构性与规模性。数据集特别提供了真实负例，这些负例或直接源自数据源，或通过不相交关系类型对推断生成，增强了评估的可靠性。其提供的四种质量过滤设置允许研究者根据需求平衡数据的广度与精确度。此外，数据集设计充分考虑了算法评估的公平性与难度，通过精心控制的训练-测试分割，有效防止了因信息泄露或简单规则推断导致的性能虚高，为衡量链接预测算法的真实能力提供了坚实平台。

使用方法

研究者可利用OpenBioLink提供的模块化框架，系统性地进行链接预测算法的训练与评估。使用流程始于图创建模块，用户可配置数据源、关系方向性与质量阈值以生成定制化的知识图谱。随后，训练-测试分割模块将图谱划分为训练集与经过严格去偏处理的测试集，并生成负样本。在训练与评估阶段，框架提供了与PyKEEN等图嵌入库的接口，支持多种模型的便捷集成。评估指标全面，包括Hits@k、平均倒数排名、ROC曲线下面积及精确率-召回率曲线下面积等，允许从多维度量化算法性能。整个流程强调透明性与可复现性，其开源特性便于社区共同使用与拓展，旨在推动生物医学链接预测方法的实质性进步。

背景与挑战

背景概述

随着深度学习与向量空间嵌入模型的飞速发展，链接预测——即预测知识图谱中缺失链接的任务——已成为生物医学信息学领域的前沿研究方向。然而，该领域长期缺乏一个专门用于评估算法性能的高质量基准数据集。在此背景下，维也纳医科大学人工智能与决策支持部门的研究团队于2020年推出了OpenBioLink，这是一个大规模、高质量且极具挑战性的生物医学链接预测基准框架。该数据集旨在透明、可复现地评估各类链接预测算法，其核心研究问题聚焦于如何在大规模、异质的生物医学知识图谱中准确预测未知的实体关系，从而推动药物发现、疾病基因关联等关键生物医学问题的解决，对相关领域的研究标准化与算法进步产生了深远影响。

当前挑战

OpenBioLink致力于解决的领域挑战在于生物医学链接预测本身的复杂性。生物医学知识图谱通常融合了丰富的本体论层次结构与庞大的交互网络，其预测目标往往无法通过简单明确的规则推导，且图谱规模巨大，使得从小型基准数据集获得的结论缺乏说服力。在构建过程中，研究团队面临多重挑战：首先，需要从多个公开数据源整合并构建高质量的基准图谱，同时排除大量可能干扰算法性能的元数据关系；其次，为确保测试集的严谨性与难度，必须精心设计训练集与测试集的划分策略，避免出现信息泄露，并剔除那些可从训练集中简单推断的陈述（如对称关系的反向边）；最后，还需为不同类型的负样本生成建立可靠的机制，以全面评估算法的预测能力。

常用场景

经典使用场景

在生物医学知识图谱领域，OpenBioLink作为一个大规模、高质量的链接预测基准，其经典使用场景体现在为机器学习算法提供标准化评估平台。该数据集整合了多种公共数据源，涵盖基因、蛋白质、疾病等实体及其复杂关系，通过构建训练集与测试集的严格划分，避免了信息泄露问题，从而使得研究人员能够透明、可重复地比较不同嵌入模型（如TransE、TransR）在预测未知生物医学链接方面的性能。这一场景推动了算法在异构知识图谱上的优化与创新。

衍生相关工作

OpenBioLink的推出衍生了一系列经典研究工作，例如与PyKEEN库的集成，使得多种图嵌入模型能够统一应用于生物医学基准评估。后续研究扩展了基于元路径的方法（如Hetionet的整合）和可扩展规则学习技术，进一步丰富了链接预测的方法论。该数据集还启发了年度基准评测活动，鼓励社区开发更高效的算法，并促进了如BioKEEN等专用工具的发展，从而在生物医学知识图谱的构建与推理领域形成了持续的研究生态。

数据集最近研究