MIMIC-IV

github2024-04-29 更新2024-05-31 收录

下载链接：

https://github.com/MadhumitaSushil/clinical_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含仅限ICU的EHR结构化数据、文本和图像，涵盖近30万名患者

This dataset contains structured data, text, and images exclusively from ICU (Intensive Care Unit) Electronic Health Records (EHR), covering nearly 300,000 patients.

创建时间：

2024-02-20

原始信息汇总

数据集概述

EHR记录数据集

MIMIC-IV
- 包含近30万患者的ICU专用EHR结构化数据、文本和图像。
MIMIC-III
- 包含近4万患者的ICU专用EHR结构化数据、文本和图像。
MIMIC-III CareVue子集
- 包含未包含在MIMIC-IV中的MIMIC-III患者子集。
eICU
- 包含来自美国各地的20万次ICU入院的EHR结构化数据。
MOVER
- 包含UCI手术患者的医院访问数据。
- 每个患者遭遇的全面EMR记录和波形。
- 包含患者信息、医疗历史和特定手术程序信息，包括使用的药物、使用的线路或引流以及术后并发症。
- 58,799名独特患者，数据来自83,468次手术，数据跨越超过4年。
CARMEN-I
- 包含具有多种合并症（如肾衰竭、心血管疾病、恶性肿瘤和免疫抑制）的COVID-19患者。
- 2,000份临床记录，包括出院信、转诊和放射学报告，来自巴塞罗那医院诊所，时间跨度为2020年3月至2022年3月。
- 主要为西班牙语，部分为加泰罗尼亚语。
- 由专家精心标注医学概念，包括症状、疾病、程序、药物、物种和人类（包括家庭成员）。

手动标注数据集

CORAL
- 专家标注：20份乳腺癌和20份胰腺癌的去识别化进展笔记，来自UCSF，全面标注。
- 未标注：100份乳腺癌和100份胰腺癌的去识别化进展笔记，来自UCSF，自动标注使用GPT-4。
- 专家标注子集仅应用于测试集。
RadQA
- 超过1000份来自MIMIC-III的专家标注放射学报告。
CliniQG4QA
- 36份MIMIC-III临床笔记中的1287个标注QA对。
MedAlign
- 983个问题/指令的指令调整数据集，来自7个专业。
- 专业包括：内科、神经病学、放射学、心脏病学、肿瘤学、外科和初级保健。
- 303个专家标注，包含正确答案的EHR参考也已标注。
- 参考EHR包含结构化和笔记数据。

其他数据集

CliCR
- 近10万次自动查询，来自11,846份临床病例报告，用于问答/阅读理解。
EMR-QA
- i2b2数据集重新用于问答。
- 超过40万个问题-答案证据对和100万个问题-逻辑形式。
PMC-Patients
- 来自PMC病例报告的16.7万份患者摘要。
- 310万份患者-文章相关性和29.3万份患者-患者相似性标注，由PubMed引用图定义。
Med-HALT
- 医学考试和PubMed QA数据集。
- 结合7个数据集：MedMCQA, HEADQA, MedQA USMILE, MedQA Taiwan, PubMed。
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions
- JAMA临床挑战数据集，包含基于挑战性临床病例的问题。
- Medbullets，包含USMLE Step 2&3风格的临床问题。
- 所有都是多项选择问答任务。
- 每个问题都附有专家编写的解释。
A Dataset for Pharmacovigilance in German, French, and Japanese
- 关于ADR的多语言文本语料库，从患者论坛和社交媒体收集，涉及德语、法语和日语。
- 12个实体类型，四种属性类型，和13种关系类型。
Exploring the Generalization of Cancer Clinical Trial Eligibility Classifiers Across Diseases
- 2,490个标注的资格标准，跨越七种排除类型，分为以下组：(1) 额外的第3阶段癌症试验，(2) 第1和第2阶段癌症试验，(3) 心脏病试验，(4) 第2型糖尿病试验，(5) 任何疾病的观察性试验。
CT-ADE
- 从临床试验结果中提取的12,000个实例。
- 整合药物、患者群体和上下文信息，用于单药治疗中的多标签ADE分类任务。

合成数据

Asclepius

搜集汇总

数据集介绍

构建方式

MIMIC-IV数据集的构建基于近30万患者的重症监护室（ICU）电子健康记录（EHR），涵盖结构化数据、文本和图像。该数据集通过严格的去识别化处理，确保患者隐私的同时，保留了临床数据的完整性。其构建过程包括数据收集、清洗、标准化和注释，确保数据的高质量和一致性，为临床研究和机器学习应用提供了坚实的基础。

特点

MIMIC-IV数据集的显著特点在于其广泛的数据覆盖和多样性。不仅包含患者的临床数据，还包括详细的文本记录和图像资料，为多模态分析提供了可能。此外，数据集的高质量注释和标准化处理，使其在临床决策支持系统和医疗AI模型训练中具有极高的应用价值。

使用方法

MIMIC-IV数据集的使用方法多样，适用于多种临床研究和机器学习任务。研究者可以通过访问PhysioNet平台获取数据，并根据研究需求进行数据预处理和分析。该数据集支持多种编程语言和工具，如Python、R等，便于进行数据挖掘和模型训练。使用时需遵循相关伦理规范和数据使用协议，确保数据的合法和道德使用。

背景与挑战

背景概述

MIMIC-IV数据集，作为医疗信息学领域的重要资源，由麻省理工学院计算生理学实验室于2022年发布。该数据集包含了近30万患者的重症监护室（ICU）电子健康记录（EHR）结构化数据、文本和图像，旨在支持临床决策和医疗数据分析的研究。MIMIC-IV的推出，不仅继承了其前身MIMIC-III的丰富数据资源，还通过增加更多元化的数据类型和样本量，进一步推动了医疗数据科学的发展。其核心研究问题聚焦于如何利用大规模的临床数据来提升医疗服务的质量和效率，对临床研究、机器学习模型训练以及医疗政策制定具有深远影响。

当前挑战

MIMIC-IV数据集在构建和应用过程中面临多项挑战。首先，数据隐私和安全问题是其首要挑战，如何在确保患者隐私的前提下，有效利用这些敏感的医疗数据进行研究，是一个亟待解决的问题。其次，数据集的异质性和复杂性增加了数据处理的难度，如何从海量的结构化和非结构化数据中提取有价值的信息，需要先进的算法和工具支持。此外，数据集的更新和维护也是一个持续的挑战，确保数据的实时性和准确性对于保持其研究价值至关重要。最后，跨学科的合作和数据共享机制的建立，是推动MIMIC-IV数据集广泛应用的关键。

常用场景

经典使用场景

在重症监护领域，MIMIC-IV数据集以其丰富的结构化数据、文本和图像资源，成为研究者们探索患者病情演变和治疗效果的宝贵工具。该数据集涵盖了近30万患者的重症监护记录，为临床决策支持系统、疾病预测模型和个性化治疗方案的开发提供了坚实的基础。

衍生相关工作

基于MIMIC-IV数据集，众多研究工作得以展开，推动了重症监护领域的技术进步。例如，有研究利用该数据集开发了先进的疾病预测模型，显著提高了预测准确性。此外，还有工作专注于构建个性化治疗方案，通过分析患者的历史数据，提供更为精准的治疗建议。这些衍生工作不仅丰富了重症监护的研究内容，也为实际临床应用提供了有力支持。

数据集最近研究