MIMIC-IV-ED

Name: MIMIC-IV-ED
Creator: 新加坡国立大学数据科学研究所
Published: 2022-03-20 15:12:13
License: 暂无描述

arXiv2022-03-20 更新2024-06-21 收录

下载链接：

https://github.com/nliulab/mimic4ed-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MIMIC-IV-ED数据集是由新加坡国立大学数据科学研究所创建，包含了2011年至2019年间超过40万次的急诊部门访问记录。该数据集通过详细的电子健康记录，涵盖了患者的年龄、性别、生命体征、疾病诊断等多维度信息。创建过程中，研究团队严格筛选和整合了原始数据，确保了数据的质量和可用性。该数据集主要用于急诊部门的预测模型开发，旨在通过机器学习和数据分析技术，提高急诊部门的资源分配效率和患者治疗效果。

The MIMIC-IV-ED Dataset was developed by the Institute of Data Science, National University of Singapore, and encompasses over 400,000 emergency department (ED) visit records from 2011 to 2019. This dataset contains multi-dimensional patient information via comprehensive electronic health records (EHRs), including age, gender, vital signs, disease diagnoses, and other relevant metrics. During the dataset development, the research team rigorously screened and integrated the raw data to ensure data quality and usability. It is primarily utilized for developing predictive models in emergency care settings, with the goal of enhancing emergency department resource allocation efficiency and patient treatment outcomes through machine learning and data analysis technologies.

提供机构：

新加坡国立大学数据科学研究所

创建时间：

2021-11-22

搜集汇总

数据集介绍

构建方式

MIMIC-IV-ED数据集的构建基于MIMIC-IV数据库，涵盖了2011年至2019年间的超过40万次急诊室访问记录。该数据集通过标准化术语和数据处理流程，整合了多个原始表格，形成了包含患者历史、急诊室分诊信息和主要急诊相关结果的高级主数据集。数据处理过程中，研究人员排除了不完整或未成年患者的访问记录，并采用领域知识确定的生理范围来处理异常值和缺失值，确保数据质量。最终，数据集被随机分为80%的训练集和20%的测试集，以支持模型训练和性能评估。

使用方法

MIMIC-IV-ED数据集的使用方法多样，适用于多种急诊医学相关的预测模型开发和验证。研究人员可以通过访问数据集的GitHub仓库，获取数据处理代码和基准模型构建步骤，从而复现实验或开发新模型。数据集支持多种机器学习和深度学习方法的应用，如逻辑回归、随机森林、梯度提升、多层感知器和长短期记忆网络等。此外，数据集还提供了临床评分系统的实现，如紧急严重性指数（ESI）和修改早期预警评分（MEWS），以支持可解释性模型的开发。通过这些方法，研究人员可以针对急诊室住院、危重结果和72小时内急诊室再就诊等关键临床任务进行预测模型的构建和评估。

背景与挑战

背景概述

随着全球急诊部门（ED）服务需求的增加，特别是在当前COVID-19大流行期间，临床分诊和风险评估变得越来越具有挑战性。医疗资源的短缺和医院基础设施的压力使得开发预测模型和决策支持系统变得尤为重要。MIMIC-IV-ED数据集由Duke-NUS医学中心等多个机构的研究人员创建，包含了2011年至2019年间超过40万次急诊访问的数据。该数据集的核心研究问题是如何利用大规模的公共电子健康记录（EHR）数据来开发和验证急诊分诊预测模型。这一研究不仅为急诊医学领域提供了宝贵的数据资源，还为未来的研究提供了标准化的数据处理和模型构建流程。

当前挑战

MIMIC-IV-ED数据集在构建过程中面临了多个挑战。首先，数据集的构建需要处理大量的电子健康记录，这些记录中包含了缺失值、异常值和重复记录等问题。其次，急诊分诊预测模型的开发需要解决领域问题，如图像分类中的挑战，即如何准确预测患者的住院、危重结果和72小时内再次就诊的情况。此外，模型的可解释性和在实际临床环境中的验证也是重要的挑战。尽管机器学习模型在预测准确性上表现优异，但其在临床实践中的应用仍受限于缺乏解释性，这使得前线医生难以理解和信任模型的输出。

常用场景

经典使用场景

MIMIC-IV-ED数据集的经典使用场景主要集中在急诊部门（ED）的分类预测模型开发。该数据集包含了从2011年到2019年的超过40万次急诊访问记录，涵盖了患者的基本信息、急诊分类、生命体征、诊断代码等详细数据。研究者可以利用这些数据构建机器学习模型，预测患者是否需要住院、是否会出现危急情况以及72小时内是否再次就诊等关键临床结果。这些预测模型有助于优化急诊资源的分配，提高医疗服务的效率和质量。

解决学术问题

MIMIC-IV-ED数据集解决了急诊部门分类预测模型缺乏大规模公共电子健康记录（EHR）数据支持的学术研究问题。通过提供标准化和公开的数据处理流程，该数据集促进了不同研究方法和模型之间的比较，增强了模型的可重复性和通用性。这对于推动急诊医学领域的机器学习和数据科学研究具有重要意义，有助于开发更准确、更可靠的临床决策支持系统。

实际应用

在实际应用中，MIMIC-IV-ED数据集支持的预测模型可以帮助急诊医生快速评估患者的病情严重程度，优化资源分配，减少患者等待时间，并提高急诊部门的整体运作效率。例如，通过预测患者是否需要住院，医院可以提前准备床位和医疗资源；通过预测危急情况，可以及时采取干预措施，降低患者风险；通过预测72小时内的再次就诊，可以改进初次诊疗的质量，减少不必要的医疗资源消耗。

数据集最近研究