ibm/otter_primekg|生物医学知识图谱数据集|精准医疗数据集
收藏Otter PrimeKG 数据集概述
数据集描述
- 名称: Otter PrimeKG
- 内容: 包含12,757,257个三元组,涉及蛋白质、药物和疾病。数据集包括蛋白质序列、SMILES和文本信息。
数据集详情
- PrimeKG: 整合了20个生物医学资源,描述了17,080种疾病,包含400万关系。节点包括29,786个基因/蛋白质和7,957个药物。
- Multimodal Knowledge Graph (MKG): 从PrimeKG构建,包含13种模态,12,757,300条边(154,130条数据属性和12,603,170条对象属性),包括642,150条蛋白质间相互作用,25,653条药物-蛋白质相互作用,以及2,672,628条药物间相互作用。
原始数据集信息
- 来源: GitHub Repo
- 引用: Chandak, P., Huang, K. & Zitnik, M. Building a knowledge graph to enable precision medicine. Sci Data 10, 67 (2023). https://doi.org/10.1038/s41597-023-01960-3
许可证
- 类型: MIT
数据集相关模型
- 分类器: ibm/otter_primekg_classifier
- DistMult: ibm/otter_primekg_distmult
- TransE: ibm/otter_primekg_transe

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
多源数据融合的中国高分辨多要素气象驱动产品(ChinaMet)
ChinaMet 一个中国高分辨率(1km)和长时间序列(1980-2024)全要素气象驱动产品,通过融合多源遥感数据、再分析资料以及超过 2000 个气象站的观测数据研制而成。ChinaMet 包括 8个气象要素,分别为:降水量(pre)、近地面2米平均气温(tmpmean)、最高...
国家冰川冻土沙漠科学数据中心 收录
