ICU-TSB (Temporal Stratification Benchmark)

Name: ICU-TSB (Temporal Stratification Benchmark)
Creator: 日内瓦大学医学院放射科和医学信息系, 圣保罗大学数学与计算机科学研究所
Published: 2025-06-06 23:52:50
License: 暂无描述

arXiv2025-06-06 更新2025-06-10 收录

下载链接：

https://github.com/ds4dh/CBMS2025stratification

下载链接

链接失效反馈

官方服务：

资源简介：

ICU-TSB是一个用于评估基于时间序列患者表征学习的患者分层任务的综合基准。该数据集包含来自三个公开可用的ICU电子健康记录(EHR)数据集，涵盖多个ICU单位和几乎所有的ICD章节。数据集的特征空间包含114个变量，包括108个每小时采样的时间序列和6个静态特征，这些特征捕捉人口统计、生命体征、机械支持指标和临床评估，代表了评估患者临床状况的关键ICU监测数据。

ICU-TSB is a comprehensive benchmark for evaluating patient stratification tasks based on time-series patient representation learning. This dataset comprises three publicly available ICU electronic health record (EHR) datasets, covering multiple ICU units and nearly all ICD chapters. The feature space contains 114 variables, including 108 hourly-sampled time series and 6 static features, which capture demographics, vital signs, mechanical support metrics and clinical assessments, representing critical ICU monitoring data for assessing patients' clinical conditions.

提供机构：

日内瓦大学医学院放射科和医学信息系, 圣保罗大学数学与计算机科学研究所

创建时间：

2025-06-06

原始信息汇总

ICU-TSB数据集概述

数据集基本信息

数据集名称: ICU-TSB: A Benchmark for Temporal Patient Representation Learning for Unsupervised Stratification into Patient Cohorts
会议信息: 提交并被CBMS2025接受 (https://2025.cbms-conference.org/)

数据获取与预处理

数据来源: 需要从Physionet下载ICU数据集(MIMIC-IC, eICU和SiCDB)，并使用rICU预处理(https://github.com/eth-mds/ricu)
证书要求: 需要CITI证书才能访问Physionet数据
演示数据集: MIMIC-III-demo

环境要求

操作系统要求:
- step_1.R脚本仅支持Windows
- 其余步骤(step2-step5)需在Linux或MacOSX运行
编程语言版本:
- R版本: 4.3.2 (2023-10-31)
- Python版本: 3.10.12

预处理流程

Rscript preprocessing/x_prep/step1.r --dataset mimic_demo
python -m preprocessing.x_prep.step2_impute --dataset mimic_demo
python -m preprocessing.x_prep.step3_encoding --dataset mimic_demo
python -m preprocessing.x_prep.step4_normalize --dataset mimic_demo
python -m preprocessing.x_prep.step5_group --dataset mimic_demo

模型训练

STAT模型: python -m models.stats --dataset mimic_demo
singleLSTM模型: python -m models.lstmv5 --dataset mimic_demo --mode train --max_steps 10000 --max_patients 10000 --learning_rate 5e-5 --batch_size 2 --timeseries_model singleLSTM
GRU模型: 在singleLSTM命令基础上添加--gru参数

无监督分层

STAT分层: python -m experiments.IR12 --dataset mimic_demo --trials 10 --optimize --mode stats --fpath data/embeddings/stats_mimic_demo/stats_test_mimic_demo_patient_embeddings.csv
GRU分层: python -m experiments.IR12 --dataset mimic_demo --trials 10 --optimize --mode gru --fpath data/embeddings/gru_train_mimic_demo_e_10_ms_10000_samples_10000__bs_2.shelve
LSTM分层: python -m experiments.IR12 --dataset mimic_demo --trials 10 --optimize --mode lstm --fpath data/embeddings/singleLSTM_train_mimic_demo_e_10_ms_10000_samples_10000__bs_2.shelve

搜集汇总

数据集介绍

构建方式

ICU-TSB数据集通过整合三个公开可用的ICU电子健康记录（EHR）数据集构建而成，涵盖了多个ICU单元和几乎所有ICD章节的疾病。数据集包含114个变量，其中108个为每小时采样的时间序列数据，6个为静态特征，如人口统计学、生命体征和临床评估等。数据预处理使用了ricu R包进行时间序列过滤、归一化和缺失值处理，确保数据的一致性和可比性。通过统计方法和深度学习模型（如LSTM和GRU）生成患者的时间序列嵌入表示，用于后续的无监督聚类分析。

特点

ICU-TSB数据集的特点在于其多层次的时间序列数据和丰富的临床特征，能够全面反映ICU患者的临床状态。数据集采用了ICD-9-CM和ICD-10编码系统，支持疾病的层次化分类，并通过频率直方图展示了疾病标签的分布情况。此外，数据集还提供了一个新颖的层次化评估框架，用于衡量聚类结果与临床验证的疾病分组之间的一致性。数据集的多样性和层次化结构使其成为评估患者分层模型的理想基准。

使用方法

ICU-TSB数据集的使用方法包括三个主要步骤：首先，通过统计方法或深度学习模型（如LSTM和GRU）生成患者的时间序列嵌入表示；其次，利用这些嵌入表示进行无监督聚类分析，以识别具有相似临床特征的患者群体；最后，通过层次化评估框架和多种标签分配策略（如基于质心、中位数和多数投票）对聚类结果进行解释和验证。数据集的使用不仅限于聚类分析，还可用于评估其他时间序列表示学习和患者分层方法。

背景与挑战

背景概述

ICU-TSB（Temporal Stratification Benchmark）是由日内瓦大学医学院与圣保罗大学联合团队于2025年提出的首个面向重症监护电子病历（EHR）的无监督患者分层基准。该数据集整合了eICU、MIMIC-IV和SiC三大公开ICU数据集，涵盖114维时序临床特征和ICD疾病分类体系，旨在通过时序表征学习技术识别具有临床意义的患者亚群。其创新性在于构建了基于疾病分类学的层次化评估框架，为个性化医疗中的诊断标记优化和治疗策略制定提供了可复现的研究基础，推动了医疗人工智能从监督学习向无监督范式拓展。

当前挑战

ICU-TSB面临的核心挑战体现在两个维度：在领域问题层面，医疗时序数据的不规则采样与高缺失率（如SiC数据集分钟级采样导致的稀疏性）对LSTM/GRU等模型的时序建模能力提出严峻考验；ICD代码的长尾分布特性（前25%诊断代码覆盖80%样本）使得细粒度分层（L3-L4级）的聚类效果显著劣于顶层分类。在构建过程层面，多中心数据的异构性（如eICU与MIMIC-IV的死亡率标签差异）迫使研究者开发鲁棒的特征对齐方法，而缺乏金标准标签则需通过疾病分类学层次结构间接验证聚类质量，导致评估指标（如v-measure）在细粒度层级降至0.40。

常用场景

经典使用场景

ICU-TSB数据集在重症监护医学领域具有广泛的应用价值，尤其在患者分层和个性化医疗方面表现突出。该数据集通过整合多个公开ICU电子健康记录（EHR）数据，为研究者提供了一个标准化的基准平台，用于评估基于时间序列的患者表征学习方法。其经典使用场景包括利用LSTM和GRU等循环神经网络模型对患者临床轨迹进行聚类分析，从而识别具有相似临床特征的患者亚群。这种分层方法有助于揭示潜在的疾病表型，为精准诊断和治疗策略的制定提供数据支持。

衍生相关工作

ICU-TSB数据集已衍生出多个具有影响力的研究方向。在方法学层面，催生了基于Transformer架构的时间序列表征学习改进方案，如Proios等人提出的图神经网络融合方法。在应用领域，Bradshaw等研究者将其扩展至罕见病亚型发现，通过层次聚类识别新的疾病表型。数据集构建理念还启发了类似基准的创建，如van de Water团队开发的YAB框架。值得注意的是，Bornet等人进一步将患者表征学习与自然语言处理技术结合，开发出可处理临床文本的多模态分层系统。

数据集最近研究