ibm/otter_primekg

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ibm/otter_primekg

下载链接

链接失效反馈

官方服务：

资源简介：

Otter PrimeKG数据集包含12,757,257个三元组，涉及蛋白质、药物和疾病，并包含蛋白质序列、SMILES和文本。该数据集基于PrimeKG（精准医学知识图谱），整合了20个生物医学资源，描述了17,080种疾病和400万种关系。PrimeKG包括描述基因/蛋白质（29,786个）和药物（7,957个）的节点。从PrimeKG构建的多模态知识图谱（MKG）包含13种模态，12,757,300条边（154,130条数据属性和12,603,170条对象属性），其中包括642,150条描述蛋白质之间相互作用的边，25,653条描述药物-蛋白质相互作用的边，以及2,672,628条描述药物之间相互作用的边。

The Otter PrimeKG dataset contains 12,757,257 triples, covering proteins, drugs and diseases, and includes protein sequences, SMILES strings and textual data. This dataset is built upon PrimeKG (Precision Medicine Knowledge Graph), which integrates 20 biomedical resources and describes 17,080 diseases as well as 4 million relationships. PrimeKG includes nodes representing genes/proteins (29,786 in total) and drugs (7,957 in total). The multimodal knowledge graph (MKG) constructed from PrimeKG encompasses 13 modalities, with a total of 12,757,300 edges, including 154,130 data attributes and 12,603,170 object attributes. Specifically, there are 642,150 edges describing protein-protein interactions, 25,653 edges describing drug-protein interactions, and 2,672,628 edges describing drug-drug interactions.

提供机构：

ibm

原始信息汇总

Otter PrimeKG 数据集概述

数据集描述

名称: Otter PrimeKG
内容: 包含12,757,257个三元组，涉及蛋白质、药物和疾病。数据集包括蛋白质序列、SMILES和文本信息。

数据集详情

PrimeKG: 整合了20个生物医学资源，描述了17,080种疾病，包含400万关系。节点包括29,786个基因/蛋白质和7,957个药物。
Multimodal Knowledge Graph (MKG): 从PrimeKG构建，包含13种模态，12,757,300条边（154,130条数据属性和12,603,170条对象属性），包括642,150条蛋白质间相互作用，25,653条药物-蛋白质相互作用，以及2,672,628条药物间相互作用。

原始数据集信息

来源: GitHub Repo
引用: Chandak, P., Huang, K. & Zitnik, M. Building a knowledge graph to enable precision medicine. Sci Data 10, 67 (2023). https://doi.org/10.1038/s41597-023-01960-3

许可证

类型: MIT

数据集相关模型

分类器: ibm/otter_primekg_classifier
DistMult: ibm/otter_primekg_distmult
TransE: ibm/otter_primekg_transe

搜集汇总

数据集介绍

构建方式

Otter PrimeKG数据集的构建，是在Precision Medicine Knowledge Graph（PrimeKG）的基础上，通过整合20个生物医学资源，构建了一个包含13种模态的Multimodal Knowledge Graph（MKG）。该数据集包含12,757,257个三元组，涵盖蛋白质、药物和疾病，其中包括蛋白质序列、SMILES和文本信息。

特点

本数据集的特点在于其丰富的数据内容和多模态特性，包含29,786个描述基因/蛋白质的节点和7,957个描述药物的节点。此外，数据集中的边描述了蛋白质间的交互、药物-蛋白质的交互以及药物间的交互，为精确医学研究提供了重要的数据基础。

使用方法

使用Otter PrimeKG数据集，研究者可以通过其提供的GitHub仓库和论文资源来获取详细的使用方法。该数据集遵循MIT许可，用户可以在遵守许可协议的前提下，自由使用和共享数据。此外，HuggingFace上已提供了基于该数据集训练的模型，如otter_primekg_classifier、otter_primekg_distmult和otter_primekg_transe，方便用户进行模型训练和评估。

背景与挑战

背景概述

在生物医学领域，知识图谱作为一种高效的信息组织与检索工具，正日益受到重视。IBM的Otter PrimeKG数据集，便是在此背景下应运而生。该数据集由哈佛大学的Zitnik实验室构建，并于2023年以《构建知识图谱以实现精准医疗》为题发表在《科学数据》期刊上。它整合了20个生物医学资源，描述了17080种疾病及其400万种关联关系。数据集涵盖了蛋白质、药物和疾病三者之间的交互信息，为精准医疗研究提供了宝贵的多模态知识图谱资源。

当前挑战

尽管Otter PrimeKG数据集为精准医疗领域的研究提供了丰富的信息，但在构建与应用过程中也面临着诸多挑战。首先，整合20个不同来源的生物医学资源，确保数据的准确性与一致性，是一大挑战。其次，数据集构建过程中涉及到的多模态信息融合、数据关系的精确描述，以及大规模知识图谱的有效存储与查询，均对研究团队提出了较高的技术要求。此外，如何将这一复杂的数据集应用于实际的精准医疗场景，解决实际问题，也是当前研究的一大挑战。

常用场景

经典使用场景

在生物医学领域，ibm/otter_primekg数据集的经典使用场景在于构建和训练知识图谱模型，以实现对药物、蛋白质与疾病之间复杂交互关系的深入理解和预测。该数据集的多模态特性使得研究者能够从不同角度探索生物医学实体间的联系，进而促进精准医疗的研究与应用。

解决学术问题

ibm/otter_primekg数据集解决了生物医学研究中对于大规模、高质量知识图谱的需求。它通过整合20个生物医学资源，描述了疾病、基因蛋白质与药物之间的数百万关系，为学术研究提供了宝贵的多维度数据，有助于揭示疾病的分子机制和药物的作用靶点，推动相关领域的学术进展。

衍生相关工作

基于ibm/otter_primekg数据集，研究者已经衍生出了一系列相关工作，包括但不限于知识图谱嵌入模型的开发、药物发现算法的优化以及生物医学文本挖掘技术的提升。这些工作进一步扩展了数据集的应用范围，为生物医学领域的知识发现和技术创新提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集