five

MIMIC-IV数据库|重症医学数据集|医疗信息数据集

收藏
github2025-04-24 更新2025-04-25 收录
重症医学
医疗信息
下载链接:
https://github.com/liuxinyuan123/MIMIC_database_translation_project
下载链接
链接失效反馈
资源简介:
MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。
创建时间:
2025-04-18
原始信息汇总

MIMIC-IV数据库汉化项目概述

项目背景

  • 项目旨在汉化MIMIC-IV数据库的说明文档,助力临床研究。
  • 默认用户已获得MIMIC数据库使用权限及CIIT官方认证。

MIMIC数据库介绍

  • 全称:Medical Information Mart for Intensive Care(重症医学数据库)。
  • 建立机构:贝斯以色列女执事医疗中心、麻省理工、牛津大学、麻省总医院。
  • 用途:广泛应用于科研项目。

汉化内容

  • 英文版说明文档汉化。
  • 说明文档汉化。
  • ICD版本汉化(ICD-9和ICD-10)。

文档版本

  • 背景介绍:英文原版、中英文混合版、中文翻译版。
  • 说明文档:英文版、中英文混合版、中文版。
  • ICD诊断代码手册:ICD-9和ICD-10的中英对照汉化版。
  • ICD操作代码:ICD-9操作代码汉化版、ICD-10操作代码中英对照汉化版。
  • 化验检查ID对照字典:中英对照版。

参与人员

  • 刘鑫源:青岛大学医学部,医学硕士。
  • 白洪翔:知右传感技术(上海)有限公司,软件工程师。

通信方式

  • 邮箱:17386506353@189.cn
  • QQ群:934942955
  • 需求收集文档:https://docs.qq.com/aio/DSEJaZHRyUU1zZklI

官方资源

  • MIMIC-IV官网:https://physionet.org/content/mimiciv/3.1/
  • 安装教程:https://mimic.mit.edu/docs/
  • 本地安装文件:https://github.com/MIT-LCP/mimic-code/
  • 使用教程:https://mimic.mit.edu/docs/iv/
  • 申请步骤教程:https://physionet.org/content/mimiciv/view-required-training/3.1/#1
  • 伦理审批网站:https://about.citiprogram.org/

软件准备

  • PostgreSQL数据库16.0版本及以上。
  • 官网下载:https://www.postgresql.org/download/

运行环境

  • Windows 10, 64位。
  • Windows 11, 64位。

捐赠方式

  • 支付宝:见项目详情页。
  • 银行账户:知右传感技术(上海)有限公司。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMIC-IV数据库作为重症医学领域的权威数据集,其构建过程体现了多学科协作的科研范式。该数据库由贝斯以色列女执事医疗中心联合麻省理工、牛津大学等顶尖机构,在NIH资助下历时多年完成。数据采集严格遵循医疗信息标准化流程,涵盖ICU患者的临床记录、生命体征、实验室检查等结构化数据,并通过PostgreSQL数据库系统实现高效存储与管理。项目团队特别提供了英文原版、中英对照版和中文版三重文档体系,确保全球研究者的无障碍使用。
特点
该数据库最显著的特点是实现了重症监护医学数据的深度结构化与多模态整合。包含超过20万例ICU患者的完整诊疗轨迹,时间跨度长达十余年,数据维度覆盖人口统计学特征、临床检验结果、用药记录等关键医疗要素。特别值得注意的是,项目团队对ICD-9/ICD-10诊断编码系统进行了专业汉化,并配套提供化验检查ID对照字典,极大提升了中文研究者的使用效率。数据集严格遵循HIPAA隐私标准,所有患者信息均经过专业脱敏处理。
使用方法
研究者需通过PhysioNet平台完成伦理认证和官方申请流程获取访问权限。数据集支持PostgreSQL 16.0及以上版本的环境部署,推荐使用Navicat或pgAdmin等专业工具进行数据查询与分析。项目文档详细阐述了数据库安装指南和SQL查询范例,特别针对Windows系统提供了本地化支持。对于中文用户,可充分利用汉化版的ICD编码手册和说明文档,快速定位所需临床变量。研究团队还提供技术支持的邮件沟通渠道,协助解决数据提取过程中的具体问题。
背景与挑战
背景概述
MIMIC-IV数据库作为重症医学领域的重要科研资源,诞生于2003年,由美国国立卫生研究院(NIH)资助,贝斯以色列女执事医疗中心、麻省理工学院、牛津大学及麻省总医院的多学科团队联合开发。该数据库整合了重症监护病房的临床数据,涵盖患者诊疗记录、生理参数及实验室结果等多维度信息,旨在为重症医学研究提供真实世界数据支持。其跨机构协作模式与标准化数据处理方法,显著提升了临床决策支持系统的研发效率,已成为全球重症医学研究中引用率最高的开源数据库之一。
当前挑战
在应用层面,MIMIC-IV需解决重症医学数据异构性难题,包括多源设备数据的时间序列对齐、非结构化临床文本的信息抽取等问题。数据库构建过程中面临患者隐私保护的技术挑战,需通过严格的去标识化处理满足HIPAA合规要求。汉化工程则需克服医学术语体系的中英映射复杂性,特别是ICD-9/ICD-10诊断代码与操作代码的精准转换,这对保持临床研究的数据一致性提出了较高要求。
常用场景
经典使用场景
在重症医学研究领域,MIMIC-IV数据库因其丰富的临床数据和详细的病历记录,成为评估患者预后和优化治疗方案的宝贵资源。研究人员通过分析数据库中的生命体征、实验室检测结果和药物使用记录,能够深入探究重症患者的病理生理变化,为临床决策提供数据支持。该数据库尤其适用于开发预测模型,如败血症早期预警系统或急性呼吸窘迫综合征的风险评估工具。
解决学术问题
MIMIC-IV数据库有效解决了重症医学研究中数据获取困难的问题,为学者提供了大规模、高质量的临床数据集。通过整合电子健康记录、影像学数据和生化指标,该数据库支持多中心研究,促进了疾病机制探索和诊疗标准优化。其标准化编码系统(如ICD-9/10)显著提升了临床研究的可重复性,推动了循证医学的发展。
衍生相关工作
围绕MIMIC-IV数据库已产生诸多创新性研究,包括基于深度学习的死亡率预测模型(如InceptionTime架构)、多模态数据融合的疾病分类系统等。这些工作不仅发表在《Nature Digital Medicine》等顶级期刊,更衍生出开源工具包MIMIC-Extract,实现了从原始数据到特征工程的自动化流程。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

ner_training_stanza

该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。

huggingface 收录

emotions-dataset

情绪数据集是一个精心策划的文本数据集,包含131,306个文本条目,标注了13种不同的情绪,如快乐、悲伤、中性、愤怒等。该数据集旨在提升情感分类、情感分析和自然语言处理的能力,适用于构建富有同情心的聊天机器人、心理健康工具、社交媒体分析器等。数据集文件大小为7.41MB,便于在边缘设备和大型项目中使用。

huggingface 收录

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录