reprodICU
收藏github2025-05-02 更新2025-05-22 收录
下载链接:
https://github.com/CUB-CORR/reprodICU
下载链接
链接失效反馈官方服务:
资源简介:
reprodICU是一个自由访问的重症监护数据集,整合了来自美国和欧洲多个医疗中心的超过47万次入院的数据。该数据集由柏林Charité - Universitätsmedizin的医学信息学研究所开发,包含去标识化的人口统计信息和136个常规收集的生理变量、诊断测试结果和治疗参数,涵盖2001年至2022年期间的近35万名患者。
reprodICU is a freely accessible intensive care dataset, integrating over 470,000 admission records from multiple medical centers in the United States and Europe. Developed by the Institute of Medical Informatics at Charité - Universitätsmedizin Berlin, the dataset contains de-identified demographic information and 136 commonly collected physiological variables, diagnostic test results, and treatment parameters, encompassing nearly 350,000 patients over the period from 2001 to 2022.
创建时间:
2025-04-30
原始信息汇总
reprodICU数据集概述
基本介绍
- 开发机构:柏林夏里特医学院医学信息学研究所(IMI)
- 数据内容:包含超过47万例ICU入院记录,涵盖美国和欧洲多个医疗中心
- 时间跨度:2001年至2022年
- 患者数量:近35万名患者
- 变量数量:136个常规采集的生理变量、诊断测试结果和治疗参数
- 数据特点:已去标识化的人口统计信息和临床数据
包含的子数据集
- AmsterdamUMCdb v1.0.2
- eICU Collaborative Research Database v2.0
- HiRID (高时间分辨率ICU数据集) v1.1.1
- MIMIC-III临床数据库 v1.4
- MIMIC-IV v3.1
- Northwestern ICU (NWICU)数据库 v0.1.0
- Salzburg重症监护数据库(SICdb) v1.0.8
核心特点
规模与范围
- 整合了来自4个国家7个主要公共数据集的469,822例ICU入院记录
- 目前公开可用的最大规模标准化ICU数据集
标准化处理
- 使用SNOMED、LOINC、RxNorm等临床标准词汇表进行标准化
- 遵循德国医学信息学倡议模块结构
- 保持最小预处理以保留原始数据保真度
研究效率
- 内置复制管道可在标准设备上几分钟内重建复杂研究队列
- 显著减少临床模型外部验证所需时间和精力
临床概念库
- 包含大量预定义的临床变量目录
- 涵盖从呼吸机指标到多种死亡率和严重程度评分系统(如SOFA、APACHE、MODS等)
- 提供可直接使用的组件,减少研究人员手动定义需求
数据分类原则
- Axioms(公理数据点):完全不可推导的数据(如患者心率)
- Concepts(概念数据点):可通过python函数基于公理或其他概念计算得出的数据
搜集汇总
数据集介绍

构建方式
在重症医学领域,数据标准化与整合是推动临床研究的关键。reprodICU数据集通过融合来自欧美四大国家七个主要公共ICU数据库的469,822例入院记录,采用德国医学信息学倡议模块结构进行系统整合。项目团队运用临床标准术语体系(如SNOMED、LOINC等)进行数据映射,同时严格区分基础指标(Axioms)与衍生变量(Concepts),后者通过Python函数实现自动化计算,在保持原始数据完整性的前提下构建出高度结构化的数据集。
特点
作为目前规模最大的标准化ICU数据集,reprodICU囊括2001-2022年间近35万患者的136项生理参数、诊断指标和治疗数据。其独特价值体现在三方面:跨机构数据的语义级标准化实现了真正的国际多中心研究可行性;精心设计的衍生变量库包含SOFA、APACHE等数十种临床评分系统的预定义计算逻辑;特别构建的复制管道技术使得复杂研究队列能在普通计算机上数分钟内完成重建,为模型验证提供前所未有的便利。
使用方法
研究者可通过访问项目文档网站获取完整的数据字典和技术规范。数据集采用模块化设计理念,用户既可直接调用预定义的临床概念变量快速构建分析模型,也能基于原始指标开发新的衍生变量。配套的Python工具链支持从原始数据提取、概念计算到结果验证的全流程研究,其开箱即用的特性显著降低了多中心ICU数据分析的技术门槛。值得注意的是,所有衍生计算均保持透明可追溯,确保研究结果的可重复性。
背景与挑战
背景概述
reprodICU数据集由柏林夏里特医学院医学信息学研究所(IMI)开发,是一个面向重症监护领域的大规模、多中心临床数据资源。该数据集整合了来自欧美多个医疗中心2001年至2022年间超过47万例ICU入院记录,涵盖34万患者的人口统计学特征、136项生理参数及治疗指标。作为当前全球最大的标准化ICU数据集,其创新性地融合了AmsterdamUMCdb、eICU、HiRID等七项权威数据源,采用德国医学信息学倡议模块化结构,通过SNOMED等临床术语体系实现跨机构数据的语义互操作,为重症医学的跨国比较研究提供了前所未有的基础设施支持。
当前挑战
该数据集面临的核心挑战体现在两个维度:在临床问题层面,重症监护数据的时序异质性、设备依赖偏差以及跨中心诊疗协议差异,使得生理参数的可比性与死亡率预测等关键研究面临重大方法学挑战;在数据构建层面,如何平衡136个变量的原始数据保真度与标准化需求成为关键难题,项目团队通过建立'公理-概念'分级体系(如心率作为不可推导的公理数据,SOFA评分等衍生指标通过Python函数动态计算),在保持数据可追溯性的同时实现复杂临床概念的自动化复现。多源数据的地理分布差异与隐私保护要求,进一步加剧了数据去标识化与临床实用价值之间的权衡难度。
常用场景
经典使用场景
在重症监护医学研究领域,reprodICU数据集通过整合来自多个医疗中心的47万例ICU入院数据,为研究者提供了一个前所未有的跨机构、跨国界的研究平台。该数据集最经典的使用场景在于支持大规模临床预测模型的开发与验证,例如脓毒症早期预警、机械通气脱机成功率预测等关键临床问题的研究。其标准化的数据结构和丰富的临床变量定义,使得研究人员能够快速构建研究队列,进行高效可靠的回顾性分析。
解决学术问题
reprodICU数据集有效解决了重症医学研究中长期存在的几个关键问题:数据碎片化导致的样本量不足、不同医疗系统间数据标准不统一、临床变量定义不一致等。通过整合七个主要公共数据集并采用标准化临床术语体系,该数据集使得跨中心验证研究成为可能,显著提升了临床预测模型的外部效度。特别在危重病评分系统验证、治疗策略比较效果研究等方面,为学术界提供了可靠的数据基础。
衍生相关工作
reprodICU数据集已衍生出多个具有影响力的研究工作。基于该数据集开发的ricu软件包实现了R语言对重症监护数据的标准化处理,显著提升了分析效率。BlendedICU项目则进一步扩展了数据集的国际覆盖范围,为比较医疗系统差异研究奠定了基础。在算法层面,多篇顶会论文利用该数据集开发了新型时序预测模型,推动了临床机器学习方法学的进步。
以上内容由遇见数据集搜集并总结生成



