five

ibm/otter_primekg|生物医学知识图谱数据集|精准医疗数据集

收藏
hugging_face2023-06-26 更新2024-03-04 收录
生物医学知识图谱
精准医疗
下载链接:
https://hf-mirror.com/datasets/ibm/otter_primekg
下载链接
链接失效反馈
资源简介:
Otter PrimeKG数据集包含12,757,257个三元组,涉及蛋白质、药物和疾病,并包含蛋白质序列、SMILES和文本。该数据集基于PrimeKG(精准医学知识图谱),整合了20个生物医学资源,描述了17,080种疾病和400万种关系。PrimeKG包括描述基因/蛋白质(29,786个)和药物(7,957个)的节点。从PrimeKG构建的多模态知识图谱(MKG)包含13种模态,12,757,300条边(154,130条数据属性和12,603,170条对象属性),其中包括642,150条描述蛋白质之间相互作用的边,25,653条描述药物-蛋白质相互作用的边,以及2,672,628条描述药物之间相互作用的边。
提供机构:
ibm
原始信息汇总

Otter PrimeKG 数据集概述

数据集描述

  • 名称: Otter PrimeKG
  • 内容: 包含12,757,257个三元组,涉及蛋白质、药物和疾病。数据集包括蛋白质序列、SMILES和文本信息。

数据集详情

  • PrimeKG: 整合了20个生物医学资源,描述了17,080种疾病,包含400万关系。节点包括29,786个基因/蛋白质和7,957个药物。
  • Multimodal Knowledge Graph (MKG): 从PrimeKG构建,包含13种模态,12,757,300条边(154,130条数据属性和12,603,170条对象属性),包括642,150条蛋白质间相互作用,25,653条药物-蛋白质相互作用,以及2,672,628条药物间相互作用。

原始数据集信息

  • 来源: GitHub Repo
  • 引用: Chandak, P., Huang, K. & Zitnik, M. Building a knowledge graph to enable precision medicine. Sci Data 10, 67 (2023). https://doi.org/10.1038/s41597-023-01960-3

许可证

  • 类型: MIT

数据集相关模型

AI搜集汇总
数据集介绍
main_image_url
构建方式
Otter PrimeKG数据集的构建,是在Precision Medicine Knowledge Graph(PrimeKG)的基础上,通过整合20个生物医学资源,构建了一个包含13种模态的Multimodal Knowledge Graph(MKG)。该数据集包含12,757,257个三元组,涵盖蛋白质、药物和疾病,其中包括蛋白质序列、SMILES和文本信息。
特点
本数据集的特点在于其丰富的数据内容和多模态特性,包含29,786个描述基因/蛋白质的节点和7,957个描述药物的节点。此外,数据集中的边描述了蛋白质间的交互、药物-蛋白质的交互以及药物间的交互,为精确医学研究提供了重要的数据基础。
使用方法
使用Otter PrimeKG数据集,研究者可以通过其提供的GitHub仓库和论文资源来获取详细的使用方法。该数据集遵循MIT许可,用户可以在遵守许可协议的前提下,自由使用和共享数据。此外,HuggingFace上已提供了基于该数据集训练的模型,如otter_primekg_classifier、otter_primekg_distmult和otter_primekg_transe,方便用户进行模型训练和评估。
背景与挑战
背景概述
在生物医学领域,知识图谱作为一种高效的信息组织与检索工具,正日益受到重视。IBM的Otter PrimeKG数据集,便是在此背景下应运而生。该数据集由哈佛大学的Zitnik实验室构建,并于2023年以《构建知识图谱以实现精准医疗》为题发表在《科学数据》期刊上。它整合了20个生物医学资源,描述了17080种疾病及其400万种关联关系。数据集涵盖了蛋白质、药物和疾病三者之间的交互信息,为精准医疗研究提供了宝贵的多模态知识图谱资源。
当前挑战
尽管Otter PrimeKG数据集为精准医疗领域的研究提供了丰富的信息,但在构建与应用过程中也面临着诸多挑战。首先,整合20个不同来源的生物医学资源,确保数据的准确性与一致性,是一大挑战。其次,数据集构建过程中涉及到的多模态信息融合、数据关系的精确描述,以及大规模知识图谱的有效存储与查询,均对研究团队提出了较高的技术要求。此外,如何将这一复杂的数据集应用于实际的精准医疗场景,解决实际问题,也是当前研究的一大挑战。
常用场景
经典使用场景
在生物医学领域,ibm/otter_primekg数据集的经典使用场景在于构建和训练知识图谱模型,以实现对药物、蛋白质与疾病之间复杂交互关系的深入理解和预测。该数据集的多模态特性使得研究者能够从不同角度探索生物医学实体间的联系,进而促进精准医疗的研究与应用。
解决学术问题
ibm/otter_primekg数据集解决了生物医学研究中对于大规模、高质量知识图谱的需求。它通过整合20个生物医学资源,描述了疾病、基因蛋白质与药物之间的数百万关系,为学术研究提供了宝贵的多维度数据,有助于揭示疾病的分子机制和药物的作用靶点,推动相关领域的学术进展。
衍生相关工作
基于ibm/otter_primekg数据集,研究者已经衍生出了一系列相关工作,包括但不限于知识图谱嵌入模型的开发、药物发现算法的优化以及生物医学文本挖掘技术的提升。这些工作进一步扩展了数据集的应用范围,为生物医学领域的知识发现和技术创新提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

多源数据融合的中国高分辨多要素气象驱动产品(ChinaMet)

  ChinaMet 一个中国高分辨率(1km)和长时间序列(1980-2024)全要素气象驱动产品,通过融合多源遥感数据、再分析资料以及超过 2000 个气象站的观测数据研制而成。ChinaMet 包括 8个气象要素,分别为:降水量(pre)、近地面2米平均气温(tmpmean)、最高...

国家冰川冻土沙漠科学数据中心 收录