MIMIC-IV and MIMIC-CXR
收藏github2023-12-04 更新2024-05-31 收录
下载链接:
https://github.com/BrahimFakri/Patient-Health-Data-Analysis-And-Feature-Extraction-For-Machine-Learning
下载链接
链接失效反馈官方服务:
资源简介:
本仓库使用MIMIC-IV和MIMIC-CXR数据集进行嵌入生成,这些数据集包含多种模态(表格、时间序列、文本和图像)的数据,用于机器学习特征提取和分析。
This repository utilizes the MIMIC-IV and MIMIC-CXR datasets for embedding generation. These datasets encompass data of multiple modalities (tabular, time series, text, and images), which are employed for machine learning feature extraction and analysis.
创建时间:
2023-02-13
原始信息汇总
数据集概述
数据集来源
- 数据集基于HAIM multimodal dataset,包含4种数据模态(表格数据、时间序列、文本和图像)和11个独特的数据源。
数据集内容
- 数据集包括多种数据类型,如MIMIC-CXR-JPG(胸部放射图像与结构化标签)和MIMIC-IV v1.0。
数据集使用
- 数据集用于生成嵌入(embeddings),用户可通过下载相应的CSV文件获取这些嵌入。
- 数据集还用于生成特征,包括从人口统计和时间序列数据中提取的特征,以及从图像数据中提取的特征。
数据集操作指南
- 用户应首先运行
general tutorial notebook.ipynb以熟悉数据库中的不同表和数据。 - 随后,用户应使用
Demographics_TimeSeries_features_Tutorial.ipynb和Extract_vision_features_Tutorial.ipynb生成特征。 - 最后,使用
Generate_Final_Features函数将所有类型的特征合并,生成最终的嵌入文件。
数据集重要信息
- 数据集中有382278个独特的
subject_id在patient表中,但在icustays表中只有53150个独特的subject_id。 - 并非所有患者都有胸部放射学图像,只有65379个独特的
subject_id在mimic_cxr_chexpert表中。 - 有20245名患者同时拥有胸部放射学图像和ICU停留记录。
搜集汇总
数据集介绍

构建方式
MIMIC-IV和MIMIC-CXR数据集的构建基于HAIM多模态数据集,涵盖了表格、时间序列、文本和图像四种模态,并整合了11个独特的数据源。通过使用Python代码,数据集的嵌入生成过程以subject_id为基础,用户可以选择生成stay_id嵌入,但需注意这可能导致时间序列分析中同一患者的多行数据。数据处理过程中,时间事件数据被分散在多行中,可能影响机器学习算法的预测准确性。
特点
该数据集的显著特点在于其多模态数据的整合,包括表格、时间序列、文本和图像,以及来自多个医疗数据源的丰富信息。此外,数据集提供了详细的嵌入生成方法,用户可以通过特定的Jupyter笔记本逐步生成不同模态的特征,最终生成包含多种特征的嵌入文件。
使用方法
使用该数据集时,用户应首先运行'general tutorial notebook.ipynb'笔记本,以熟悉MIMIC数据库中的不同表格和数据。随后,通过'Demographics_TimeSeries_features_Tutorial.ipynb'笔记本生成人口统计和时间序列数据特征,并保存为'fusion_ts_dem_dataframe.csv'文件。接着,使用'Extract_vision_features_Tutorial.ipynb'笔记本生成图像数据特征,并保存为'fusion_vision.csv'文件。最后,通过'Generate_Final_Features'函数将所有特征合并,生成最终的嵌入文件。
背景与挑战
背景概述
MIMIC-IV和MIMIC-CXR数据集是由麻省理工学院的研究团队创建的,旨在为医疗领域的多模态数据分析提供一个开放的资源。该数据集包含了多种数据类型,包括表格数据、时间序列数据、文本数据和图像数据,涵盖了11个不同的数据源。MIMIC-IV数据集主要用于研究患者在医院内的动态行为和健康状况,而MIMIC-CXR则专注于胸部X光图像的分析。这些数据集的创建旨在推动医疗数据科学的发展,特别是在机器学习和人工智能的应用方面,为研究人员提供了一个丰富的数据资源,以开发和验证新的医疗诊断和治疗模型。
当前挑战
MIMIC-IV和MIMIC-CXR数据集在构建过程中面临了多重挑战。首先,数据的多模态特性要求开发者在处理和整合不同类型的数据时,确保数据的一致性和完整性。其次,由于医疗数据的敏感性和隐私保护需求,数据集的构建必须严格遵守相关的法律法规,确保患者信息的保密性。此外,数据集中的时间序列数据和图像数据的处理,尤其是时间序列数据的分布和图像数据的标注,对算法的设计和实现提出了较高的要求。最后,如何有效地从这些多模态数据中提取有用的特征,以支持复杂的医疗分析任务,是当前研究中的一个重要挑战。
常用场景
经典使用场景
MIMIC-IV和MIMIC-CXR数据集的经典使用场景主要集中在多模态医疗数据的特征提取与嵌入生成。通过整合来自不同数据源的信息,如表格数据、时间序列、文本和图像,研究者能够生成多维度的患者健康特征嵌入。这些嵌入不仅有助于深入理解患者的健康状况,还为后续的机器学习模型提供了丰富的输入特征,从而提升了预测和诊断的准确性。
实际应用
在实际应用中,MIMIC-IV和MIMIC-CXR数据集被广泛用于医疗诊断和预测系统的开发。例如,通过分析患者的胸部X光片和临床数据,医生可以更准确地诊断肺炎或其他呼吸系统疾病。此外,该数据集还支持个性化医疗方案的制定,通过整合患者的多种健康数据,为每位患者提供定制化的治疗建议,从而提高治疗效果和患者满意度。
衍生相关工作
基于MIMIC-IV和MIMIC-CXR数据集,研究者们开发了多种多模态数据分析工具和模型。例如,有研究利用该数据集进行深度学习模型的训练,以提高胸部X光片的诊断准确性。此外,还有工作探索了如何将时间序列数据与图像数据结合,以预测患者的病情发展趋势。这些衍生工作不仅丰富了医疗数据分析的方法论,还为临床实践提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成



