five

MIMIC-IV-ED|急诊医疗数据集|数据分析数据集

收藏
arXiv2022-03-20 更新2024-06-21 收录
急诊医疗
数据分析
下载链接:
https://github.com/nliulab/mimic4ed-benchmark
下载链接
链接失效反馈
资源简介:
MIMIC-IV-ED数据集是由新加坡国立大学数据科学研究所创建,包含了2011年至2019年间超过40万次的急诊部门访问记录。该数据集通过详细的电子健康记录,涵盖了患者的年龄、性别、生命体征、疾病诊断等多维度信息。创建过程中,研究团队严格筛选和整合了原始数据,确保了数据的质量和可用性。该数据集主要用于急诊部门的预测模型开发,旨在通过机器学习和数据分析技术,提高急诊部门的资源分配效率和患者治疗效果。
提供机构:
新加坡国立大学数据科学研究所
创建时间:
2021-11-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMIC-IV-ED数据集的构建基于MIMIC-IV数据库,涵盖了2011年至2019年间的超过40万次急诊室访问记录。该数据集通过标准化术语和数据处理流程,整合了多个原始表格,形成了包含患者历史、急诊室分诊信息和主要急诊相关结果的高级主数据集。数据处理过程中,研究人员排除了不完整或未成年患者的访问记录,并采用领域知识确定的生理范围来处理异常值和缺失值,确保数据质量。最终,数据集被随机分为80%的训练集和20%的测试集,以支持模型训练和性能评估。
使用方法
MIMIC-IV-ED数据集的使用方法多样,适用于多种急诊医学相关的预测模型开发和验证。研究人员可以通过访问数据集的GitHub仓库,获取数据处理代码和基准模型构建步骤,从而复现实验或开发新模型。数据集支持多种机器学习和深度学习方法的应用,如逻辑回归、随机森林、梯度提升、多层感知器和长短期记忆网络等。此外,数据集还提供了临床评分系统的实现,如紧急严重性指数(ESI)和修改早期预警评分(MEWS),以支持可解释性模型的开发。通过这些方法,研究人员可以针对急诊室住院、危重结果和72小时内急诊室再就诊等关键临床任务进行预测模型的构建和评估。
背景与挑战
背景概述
随着全球急诊部门(ED)服务需求的增加,特别是在当前COVID-19大流行期间,临床分诊和风险评估变得越来越具有挑战性。医疗资源的短缺和医院基础设施的压力使得开发预测模型和决策支持系统变得尤为重要。MIMIC-IV-ED数据集由Duke-NUS医学中心等多个机构的研究人员创建,包含了2011年至2019年间超过40万次急诊访问的数据。该数据集的核心研究问题是如何利用大规模的公共电子健康记录(EHR)数据来开发和验证急诊分诊预测模型。这一研究不仅为急诊医学领域提供了宝贵的数据资源,还为未来的研究提供了标准化的数据处理和模型构建流程。
当前挑战
MIMIC-IV-ED数据集在构建过程中面临了多个挑战。首先,数据集的构建需要处理大量的电子健康记录,这些记录中包含了缺失值、异常值和重复记录等问题。其次,急诊分诊预测模型的开发需要解决领域问题,如图像分类中的挑战,即如何准确预测患者的住院、危重结果和72小时内再次就诊的情况。此外,模型的可解释性和在实际临床环境中的验证也是重要的挑战。尽管机器学习模型在预测准确性上表现优异,但其在临床实践中的应用仍受限于缺乏解释性,这使得前线医生难以理解和信任模型的输出。
常用场景
经典使用场景
MIMIC-IV-ED数据集的经典使用场景主要集中在急诊部门(ED)的分类预测模型开发。该数据集包含了从2011年到2019年的超过40万次急诊访问记录,涵盖了患者的基本信息、急诊分类、生命体征、诊断代码等详细数据。研究者可以利用这些数据构建机器学习模型,预测患者是否需要住院、是否会出现危急情况以及72小时内是否再次就诊等关键临床结果。这些预测模型有助于优化急诊资源的分配,提高医疗服务的效率和质量。
解决学术问题
MIMIC-IV-ED数据集解决了急诊部门分类预测模型缺乏大规模公共电子健康记录(EHR)数据支持的学术研究问题。通过提供标准化和公开的数据处理流程,该数据集促进了不同研究方法和模型之间的比较,增强了模型的可重复性和通用性。这对于推动急诊医学领域的机器学习和数据科学研究具有重要意义,有助于开发更准确、更可靠的临床决策支持系统。
实际应用
在实际应用中,MIMIC-IV-ED数据集支持的预测模型可以帮助急诊医生快速评估患者的病情严重程度,优化资源分配,减少患者等待时间,并提高急诊部门的整体运作效率。例如,通过预测患者是否需要住院,医院可以提前准备床位和医疗资源;通过预测危急情况,可以及时采取干预措施,降低患者风险;通过预测72小时内的再次就诊,可以改进初次诊疗的质量,减少不必要的医疗资源消耗。
数据集最近研究
最新研究方向
在急诊医学领域,MIMIC-IV-ED数据集的最新研究方向主要集中在利用大规模电子健康记录(EHR)数据开发和验证急诊科(ED)分诊预测模型。这些模型旨在通过机器学习和深度学习技术,预测患者在急诊科的住院、危重结果和72小时内再次就诊等关键临床结局。研究者们通过构建公开的基准套件,标准化数据预处理流程,并引入多种流行方法进行模型评估和比较,以提高模型的准确性、解释性和实用性。这些研究不仅有助于优化急诊科资源的分配,还能为未来基于EHR数据的急诊科研究提供标准化的数据处理和模型开发协议。
相关研究论文
  • 1
    Benchmarking emergency department triage prediction models with machine learning and large public electronic health records新加坡国立大学数据科学研究所 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Kaggle Stock Market Data

该数据集包含多个股票市场的历史数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。

www.kaggle.com 收录

WeChat Social Network Dataset

该数据集包含了微信社交网络的用户关系数据,包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。

www.aminer.cn 收录