five

MIMIC-III Clinical Database

收藏
github2024-05-31 更新2024-06-06 收录
下载链接:
https://github.com/geniusrise/awesome-healthcare-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
去标识化的健康数据,关联约40,000名重症监护患者。包括人口统计、生命体征、实验室测试、药物等。

De-identified health data associated with approximately 40,000 intensive care patients. Includes demographics, vital signs, laboratory tests, medications, and more.
创建时间:
2024-05-30
原始信息汇总

数据集概述

临床数据

  1. MIMIC-III Clinical Database - 包含约40,000名重症监护患者的去标识化健康数据,包括人口统计学、生命体征、实验室测试、药物等。
  2. eICU Collaborative Research Database - 一个多中心数据库,包含2014-2015年美国各地ICU超过200,000次入院的去标识化健康数据。
  3. MIMIC-IV - MIMIC-III的更新版本,包含2008-2019年波士顿三级学术医疗中心患者的去标识化数据。
  4. AmsterdamUMCdb - 包含阿姆斯特丹大学医学中心患者的去标识化健康数据,包括结构化和非结构化患者记录数据。
  5. MIMIC-IV-ED - MIMIC-IV数据库中的急诊部门数据。
  6. MIMIC-IV-Note - MIMIC-IV数据库中的去标识化自由文本临床笔记。
  7. MIMIC-III Waveform Database - MIMIC-III数据库中的波形数据。
  8. MIMIC-IV Waveform Database - MIMIC-IV数据库中的波形数据。
  9. MIMIC-II Clinical Database - MIMIC数据库的旧版本,包含2001至2008年的数据。
  10. MIMIC-IV-ECHO - MIMIC-IV数据库中的超声心动图数据。
  11. AMR-UTI - 尿路感染中的抗菌药物耐药性数据集。
  12. Abdominal and Direct Fetal ECG Database - 来自5名分娩妇女的多通道胎儿心电图记录。
  13. OpenPrescribing - 英格兰全科医生和其他NHS处方者处方的所有药物和器械的数据库。

影像数据

  1. TCIA (The Cancer Imaging Archive) - 一个大型癌症医学影像档案,可供公众下载。
  2. Chest X-Ray Dataset - 包含5,863张胸部X光片,标注有肺炎的存在。
  3. RSNA Intracranial Hemorrhage Detection - 头部CT扫描数据集,标注有颅内出血标签。
  4. MICCAI 2015 Challenge on Multimodal Brain Tumor Segmentation - 脑肿瘤分割数据集。
  5. Non-Small Cell Lung Cancer CT Scan Dataset - 非小细胞肺癌患者的CT扫描数据集。
  6. PROSTATEx - 前列腺MRI扫描,带有分割和注释。
  7. Labeled Optical Coherence Tomography - 带有层分割和液体标签的视网膜OCT图像。
  8. MosMedData: Chest CT Scans with COVID-19 Related Findings - COVID-19患者的胸部CT扫描数据集。
  9. LUng Nodule Analysis (LUNA16) - 带有注释肺结节的胸部CT扫描数据集。
  10. NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories - 带有疾病标签的胸部X光片数据集。
  11. DeepLesion - 带有注释病变的CT图像大型数据集。
  12. Medical Segmentation Decathlon Datasets - 用于分割任务的各种医学影像数据集。
  13. cataracts-2018-train - 白内障图像数据集。
  14. dHCP 2nd data release - 发展性人类连接组项目数据集。
  15. PADCHEST_SJ - 带有多种标签的西班牙语胸部X光片数据集。
  16. CAMELYON17 breast cancer - 淋巴结切片,注释有转移。
  17. A multimodal dental dataset facilitating machine learning research and clinic services - 牙科X射线、CBCT扫描和牙科记录。
  18. MIMIC-IV-ECG - MIMIC-IV数据库中的诊断心电图数据。
  19. MURA (musculoskeletal radiographs) - 标注有异常的骨骼X光片数据集。
  20. National COVID-19 Chest Image Database (NCCID) - 英国COVID-19患者的胸部X光片、CT扫描和MRI。
  21. Cell Painting Gallery - 用于药物发现和基础研究的细胞图像集合。
  22. International Neuroimaging Data-Sharing Initiative (INDI) - 来自各种来源的神经影像数据集。
  23. Cancer Imaging Archive - 大型癌症影像数据档案。
  24. Open Access Series of Imaging Studies (OASIS) - 年轻人、中年人和老年人的MRI数据。
  25. Allen Cell Imaging Collections - 用于基础研究和计算工具开发的3D细胞成像数据。
  26. BossDB Open Neuroimagery Datasets - 各种神经影像数据集。
  27. Clinical Proteomic Tumor Analysis Consortium 3 (CPTAC-3) - 来自癌症样本的蛋白质组数据。
  28. IBL Neuropixels Reproducible Ephys Data on AWS - 国际脑实验室的电生理记录。
  29. NYU Langone & FAIR FastMRI Dataset - 用于加速MRI重建研究的膝关节MRI。
  30. The Human Connectome Project - 神经影像和行为数据的集合。
  31. RadGraph - 带有实体和关系的放射学报告注释。
  32. RadNLI - 放射学报告的自然语言推理数据集。
  33. RadQA - 放射学报告的问答数据集。
  34. UK Biobank Brain Imaging - 超过100,000名UK Biobank参与者的详细脑部、心脏、腹部、骨骼和颈动脉MRI扫描。
  35. Allen Brain Atlas - 一个不断增长的在线公共资源,整合了广泛的基因表达和神经解剖学数据。
  36. ADNI (Alzheimers Disease Neuroimaging Initiative) - 一个纵向多中心研究,旨在开发临床、影像、遗传和生化生物标志物,用于早期检测和追踪阿尔茨海默病。

Omics数据

  1. TCGA (The Cancer Genome Atlas) - 一个标志性的癌症基因组学项目,对超过20,000个原发性癌症和匹配的正常样本进行了分子特征分析,涵盖33种癌症类型。
  2. GTEx (Genotype-Tissue Expression) - 一个资源,用于研究组织特异性基因表达和调控,数据来自近1000个个体的54个非疾病组织站点。
  3. 1000 Genomes Project - 人类遗传变异目录,包括基于26个种群2,504个个体的基因组中的SNP和结构变异。
  4. Cancer Cell Line Encyclopedia (CCLE) - 对大型人类癌症细胞系面板进行详细的遗传和药理特征分析。
  5. Genome Aggregation Database - 大型测序项目中聚合和协调的序列数据。
  6. Open Bioinformatics Reference Data for Galaxy - 用于Galaxy平台的生物信息学参考数据。
  7. CoMMpass from the Multiple Myeloma Research Foundation - 多发性骨髓瘤患者的基因组和临床数据。
  8. NIH NCBI Sequence Read Archive (SRA) on AWS - 来自各种研究的次世代测序数据。
  9. Basic Local Alignment Sequences Tool (BLAST) Databases - 用于BLAST工具的序列数据库。
  10. Encyclopedia of DNA Elements (ENCODE) - ENCODE项目的数据,旨在识别人类基因组中的所有功能元素。
  11. Genome in a Bottle on AWS - 参考基因组和基因组测序和组装基准数据。
  12. OpenCell on AWS - 细胞和细胞器的3D图像和网格。
  13. Refgenie reference genome assets - 标准化、版本化和程序可访问的参考基因组资产集合。
  14. Gene Expression Omnibus (GEO) - 一个公共存储库,用于归档和自由分发微阵列、次世代测序和其他形式的高通量功能基因组学数据。
  15. ArrayExpress - 包括基因表达、甲基化和蛋白质数据在内的功能基因组学实验数据库。
  16. Protein Data Bank (PDB) - 大型生物分子(如蛋白质和核酸)的3D结构数据数据库。
  17. Human Protein Atlas - 使用各种omics技术在细胞、组织和器官中绘制所有人类蛋白质的瑞典项目。
  18. cBioPortal - 探索、可视化和分析多维癌症基因组学数据的网络资源。
  19. Human Cell Atlas - 一个国际合作联盟,旨在创建所有人类细胞的综合参考图,以描述和定义健康和疾病的细胞基础。
  20. Tox21 - 用于更好地理解化学品如何影响人类健康和环境的毒性测试化合物数据库。
  21. GDC (Genomic Data Commons) - 一个统一的数据存储库,支持癌症基因组学研究中的数据共享。
  22. CTRP (Cancer Therapeutics Response Portal) - 一个公共数据库,将癌症细胞系的遗传、谱系和其他细胞特征与小分子敏感性联系起来。
  23. UniProt - 蛋白质序列和注释数据的全面资源。
  24. European Nucleotide Archive (ENA) - 世界核酸测序信息的全面记录,涵盖原始测序数据、序列组装信息和功能注释。

Biomedical Knowledge Graphs

  1. UMLS (Unified Medical Language System) - 生物医学科学中许多受控词汇表的汇编,提供这些词汇表之间的映射结构。
  2. SNOMED CT - 用于临床文档和报告的综合多语言临床医疗术语。
  3. RxNorm - 通用和品牌药物的规范化命名系统。
  4. LOINC (Logical Observation Identifiers Names and Codes) - 医疗实验室观察的识别名称和代码的数据库和通用标准。
  5. MeSH (Medical Subject Headings) - 用于索引PubMed中文章的受控词汇表。
  6. DrugBank - 一个全面的、自由访问的在线数据库,包含药物和药物靶点的信息。
  7. Orphanet Rare Disease Ontology - 捕捉疾病、基因和其他相关特征之间关系的罕见疾病词汇表。
  8. GWAS Catalog - 发表的全基因组关联研究(GWAS)及其发现的数据库。
  9. ICD-10 (International Classification of Diseases, 10th Revision) - 世界卫生组织(WHO)的医学分类列表。
  10. ICD-9 (International Classification of Diseases, 9th Revision) - ICD医学分类列表的旧版本。
  11. CPT (Current Procedural Terminology) - 美国医学协会(AMA)维护的医学代码集。
  12. Gene Ontology - 使用本体提供基因产物功能信息的生物信息学资源。
  13. Disease Ontology - 提供人类疾病术语、表型特征和相关医学词汇的标准化描述的本体。
  14. RxMix - 处方药物及其成分的数据库。
  15. RxTerms - 基于RxNorm的药物接口术语。
  16. Dailymed - 上市药物及其标签的数据库。
  17. Experimental Factor Ontology - 描述生物医学实验中实验变量的本体。
  18. UBERON anatomy - 跨物种解剖学本体。
  19. Open-targets - 访问和分析药物靶点数据的平台。
  20. Genetic and Rare Diseases - 罕见疾病及其相关基因的信息。
  21. International Classification of Diseases for Oncology - 肿瘤疾病的国际疾病分类的域特定扩展。
  22. Kyoto Encyclopedia of Genes and Genomes - 理解生物系统高阶功能和效用的资源。
  23. Medical Dictionary for Regulatory Activities Terminology - 监管通信的标准化医学术语。
  24. Online Mendelian Inheritance in Man - 人类基因和遗传疾病的目录。
  25. DisGeNET - 包含与人类疾病相关的基因和变体的公共可用集合的发现平台。
  26. PharmGKB - 药物基因组学知识资源,包括临床信息,如剂量指南和药物标签,可能具有临床可操作性的基因-药物关联,以及基因型-表型关系。

Public Health Data

  1. Global Health Observatory (GHO) - 世界卫生组织的数据库,包含各种健康主题和SDG的全球健康数据。
  2. CDC WONDER - 美国疾病控制与预防中心(CDC)的广泛在线流行病学研究数据。
  3. Medicare.gov Data - 美国官方医疗保险网站,包含医院、疗养院、医生等的数据。
  4. World Bank Health Data - 世界银行关于各种健康指标和相关数据的数据集。
  5. Global Burden of Disease (GBD) - 对主要疾病、伤害和风险因素的死亡率和残疾的区域和全球评估。
  6. UNICEF Data - 全球儿童状况的数据。
  7. OECD Health Statistics - OECD国家健康和卫生系统比较统计数据的综合来源。
  8. Humanitarian Data Exchange - 跨越危机和组织的数据共享开放平台。

Biomedical Literature

  1. PubMed Central Open Access Subset - PubMed Central中包含全文开放获取文章的子集。
  2. CORD-19 - 关于COVID-19、SARS-CoV-2和相关冠状病毒的学术文章数据集。
  3. LitCovid - 跟踪有关COVID-19的最新科学信息的精选文献中心。
  4. PubMed - 来自MEDLINE、生命科学期刊和在线书籍的超过3300万条生物医学文献引文的数据库。
  5. Europe PMC - 提供全球生命科学出版物和预印本的开放科学平台。
  6. Microsoft Academic Graph - 包含科学出版物记录、出版物之间的引用关系以及作者、机构、期刊、会议和领域信息的异构图。
搜集汇总
数据集介绍
main_image_url
构建方式
MIMIC-III Clinical Database的构建基于对约40,000名重症监护患者的去识别化健康数据进行收集与整理。该数据集涵盖了患者的多种临床信息,包括人口统计学数据、生命体征、实验室检测结果、药物治疗等。通过系统化的数据采集与处理流程,确保了数据的高质量和一致性,为后续的临床研究和机器学习应用提供了坚实的基础。
特点
MIMIC-III Clinical Database以其广泛的数据覆盖和高质量的数据处理著称。该数据集不仅包含了丰富的临床变量,还通过去识别化处理保护了患者的隐私。此外,其多中心的数据来源和长时间的随访记录,使得该数据集在研究疾病进展、治疗效果评估以及预测模型构建等方面具有显著优势。
使用方法
MIMIC-III Clinical Database的使用方法多样,适用于多种临床研究和机器学习项目。研究者可以通过访问其官方网站获取数据,并根据研究需求进行数据提取和分析。常见的使用场景包括疾病预测模型的开发、治疗效果的评估以及临床决策支持系统的构建。在使用过程中,需遵循相关的数据使用协议,确保数据的合法和道德使用。
背景与挑战
背景概述
MIMIC-III Clinical Database,由麻省理工学院和哈佛大学联合开发,是一个匿名的临床数据集,涵盖了约40,000名重症监护患者的健康数据。该数据集包括人口统计学信息、生命体征、实验室测试、药物治疗等,旨在支持机器学习和医疗研究。自其创建以来,MIMIC-III已成为医疗数据分析领域的重要资源,为研究人员提供了丰富的数据集,以探索和解决临床决策中的复杂问题。
当前挑战
MIMIC-III Clinical Database在构建和应用过程中面临多项挑战。首先,数据匿名化过程需确保患者隐私,同时保留数据的有效性。其次,数据集的多样性和复杂性增加了数据预处理的难度,包括数据清洗、标准化和特征提取。此外,临床数据的异质性要求研究人员开发新的方法来整合和分析不同类型的数据。最后,数据集的规模和复杂性对计算资源和算法效率提出了高要求,尤其是在进行大规模机器学习模型训练时。
常用场景
经典使用场景
MIMIC-III临床数据库的经典使用场景主要集中在重症监护患者的临床数据分析上。研究者们利用该数据集进行患者入院后的病情演变、治疗效果评估以及预后预测等研究。通过分析患者的生命体征、实验室检测结果、用药记录等多维度数据,研究者能够构建复杂的预测模型,以提高重症监护的效率和准确性。
解决学术问题
MIMIC-III临床数据库解决了重症监护领域中多个关键的学术研究问题。首先,它为研究者提供了大规模、多维度的临床数据,使得深入分析重症患者的病情变化和治疗反应成为可能。其次,该数据集支持了多种机器学习和数据挖掘技术的应用,帮助识别潜在的疾病模式和治疗策略。此外,MIMIC-III还促进了跨学科的合作,推动了临床医学与数据科学的融合。
衍生相关工作
MIMIC-III临床数据库的广泛应用催生了众多相关研究和工作。例如,基于该数据集的研究成果已被用于开发新的医疗算法和软件工具,以支持临床决策。此外,MIMIC-III还激发了其他类似数据库的创建,如MIMIC-IV,进一步扩展了重症监护数据的覆盖范围和深度。这些衍生工作不仅丰富了重症监护领域的研究资源,也为未来的临床实践提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作