CRITICAL
收藏arXiv2025-09-10 更新2025-09-12 收录
下载链接:
https://critical.fsm.northwestern.edu
下载链接
链接失效反馈官方服务:
资源简介:
CRITICAL数据集是首个跨CTSA的倡议,创建了一个多站点、多模式、匿名化的临床数据集,结合了深度纵向覆盖和广泛的机构多样性。该数据集由四个CTSA站点(Northwestern、Tufts、华盛顿大学圣路易斯分校和阿拉巴马大学伯明翰分校)合作开发,包含了来自371,365名患者的19.5亿条记录,是迄今为止最大的公开共享、疾病无关的基准数据集,用于重症监护研究。CRITICAL数据集基于OMOP CDM v5.3,包含17张表,总计278.97GB,其中MEASUREMENT表包含14亿行。该数据集包括3800万次访问和2800万条单位级记录,平均每名患者有5,242行。CRITICAL提供了全面的病人护理历程,中位观察期为3.11年,最长跨度为31.8年,捕获了住院和门诊环境中ICU前、ICU和ICU后的遭遇。这种多机构、纵向的观点引入了大量的词汇异质性,需要在统一的标准下进行系统性的协调。CRITICAL数据集的这种大规模、机构多样性和纵向深度改善了AI研究人员对大规模临床数据的访问。
The CRITICAL dataset is the first cross-CTSA initiative that creates a multi-site, multi-modal, anonymized clinical dataset combining deep longitudinal coverage and broad institutional diversity. Developed collaboratively by four CTSA sites including Northwestern, Tufts, Washington University in St. Louis, and University of Alabama at Birmingham, the dataset contains 1.95 billion records from 371,365 patients, making it the largest publicly shared, disease-agnostic benchmark dataset for critical care research to date. Based on OMOP CDM v5.3, the dataset comprises 17 tables with a total size of 278.97 GB, among which the MEASUREMENT table contains 1.4 billion rows. It also covers 38 million visits and 28 million unit-level records, with an average of 5,242 rows per patient. The CRITICAL dataset provides a comprehensive view of patient care trajectories, with a median observation period of 3.11 years and a maximum span of 31.8 years, capturing pre-ICU, ICU, and post-ICU encounters in both inpatient and outpatient settings. This multi-institutional, longitudinal perspective introduces significant lexical heterogeneity, requiring systematic harmonization under a unified standard. The scale, institutional diversity and longitudinal depth of the CRITICAL dataset improve access to large-scale clinical data for AI researchers.
提供机构:
哈佛大学
创建时间:
2025-09-10
原始信息汇总
CRITICAL 数据集概述
数据集名称
CRITICAL(Collaborative Resource for Intensive-care Translational science, Informatics, Comprehensive Analytics, and Learning)
资助信息
- 资助机构:NIH National Center for Advancing Translational Sciences
- 奖项编号:U01TR003528
数据集目标
- 创建首个跨CTSA的多中心、多模态、去标识化数据集,兼具深度和广度。
- 解决临床人工智能(AI)转化研究中共享数据资源不足的问题。
数据内容
- 数据类型:纵向住院和门诊数据,包括ICU入院前和后的数据。
- 数据规模:来自超过40万名重症患者的临床数据。
- 数据特点:
- 目前最大的公开共享、疾病无关的基准临床数据集。
- 涵盖多样化的种族、民族和地理特征。
应用领域
- 人工智能(AI)和机器学习(ML)研究。
- 结局相关研究。
- 支持公平和可泛化的AI转化,用于高级患者监测和决策支持。
访问条件
- 适用对象:
- 美国认证大学的教师、学生和工作人员(个人申请)。
- 美国认证大学(机构申请)。
- 要求:机构需与CRITICAL Consortium签订数据使用协议(DUA)。
相关资源
- 数据访问:https://critical.fsm.northwestern.edu
- 数据代码书
- 常见问题解答(FAQ)
- 联系方式
参与机构
- 西北大学(Northwestern University)
- 西北医学(Northwestern Medicine)
- 其他CTSA站点:Tufts、WUSTL、UAB
搜集汇总
数据集介绍

构建方式
CRITICAL数据集构建基于多中心临床数据整合框架,采用OMOP CDM v5.3标准模型,汇聚了来自四家临床与转化科学奖(CTSA)机构的371,365名患者的19.5亿条医疗记录。数据采集涵盖住院与门诊场景,通过系统化的去标识化处理确保患者隐私,并利用标准化管道CRISP实现异构医疗术语到SNOMED-CT标准的映射,以及测量单位的统一化转换,最终形成跨机构的纵向医疗轨迹数据库。
特点
该数据集的核心特点在于其多中心性与全病程覆盖,包含ICU前、ICU期间及ICU后的完整医疗历程,时间跨度中位数达3.11年,最大跨度超过31年。数据维度涵盖测量记录、观察项、药物暴露等17张OMOP表,其中MEASUREMENT表独占14亿条记录,呈现显著的词汇异质性——涉及30种医疗术语体系共15万余个独立概念。这种规模与多样性为开发跨机构可泛化模型提供了独特基础,同时亦对数据协调提出高阶挑战。
使用方法
研究者可通过CRISP管道高效处理该数据集,其模块化架构支持五阶段流水线操作:探索性分析、数据清洗、词汇映射、标准化及患者数据提取。管道采用并行优化技术,可在24小时内完成全部278.97GB数据的处理,并输出适用于机器学习的患者中心化结构。基准测试涵盖死亡率预测、再入院风险等四大临床预测任务,支持逻辑回归、LSTM等七类模型验证,为跨机构医疗AI研究提供标准化起点。
背景与挑战
背景概述
电子健康记录(EHR)数据集在临床人工智能研究中扮演着核心角色,CRITICAL数据集由哈佛大学等机构于2025年推出,整合了来自四家临床与转化科学奖(CTSA)机构的19.5亿条记录,覆盖371,365名患者的全周期医疗旅程。该数据集基于OMOP CDM模型构建,旨在解决多机构数据异构性问题,推动可泛化预测模型与健康公平性研究,其规模与多样性为重症监护AI领域设立了新基准。
当前挑战
CRITICAL需应对多机构语义异构性挑战,包括30种医疗术语库中15万个概念的映射冲突、单位标准化及时序一致性处理;构建过程中需克服跨站点词汇差异导致的特征矩阵稀疏性,以及278.97GB原始数据的并行计算优化问题,同时确保临床预测任务如死亡率与再入院风险建模中的泛化性能。
常用场景
经典使用场景
在重症监护医学与临床人工智能研究领域,CRITICAL数据集通过整合来自四个地理分布广泛机构的19.5亿条记录,为多中心临床预测模型开发提供了前所未有的数据基础。其独特优势在于覆盖患者从入院前、ICU期间到出院后的全周期诊疗轨迹,支持研究者构建跨机构、跨人群的通用型预测系统,尤其在死亡率预测、住院时长估计和脓毒症早期预警等任务中展现出显著价值。
实际应用
在实际医疗场景中,CRITICAL数据集支撑的预测模型可应用于重症监护室的实时临床决策辅助系统。通过分析患者入院初期的生命体征、用药记录和诊疗操作数据,模型能够提前预测7日/30日死亡率、住院时长超限风险以及脓毒症发作概率,为医护人员提供早期干预时机。其多机构特性确保了模型在不同医院系统间的部署稳定性,显著提升医疗资源分配效率和患者预后管理水平。
衍生相关工作
基于CRITICAL数据集衍生的经典工作主要集中在多中心数据 harmonization 方法和临床预测模型创新领域。CRISP pipeline 继承并拓展了MIMIC-Extract和METRE等单中心处理框架,首次实现了跨机构OMOP CDM数据的并行化标准化处理。在模型层面,研究者开发了融合时序卷积网络(TCN)与双向LSTM的混合架构,针对多中心特征稀疏性问题提出特征融合策略,为后续跨机构医疗AI研究建立了可复现的基准范式。
以上内容由遇见数据集搜集并总结生成



