RealICU-Gench

github2026-05-18 更新2026-05-19 收录

下载链接：

https://github.com/chengzhi-leo/RealICU-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RealICU是一个基于后见之明标注的基准测试，用于在真实ICU条件下评估大语言模型，其中标签由资深医生在回顾完整患者轨迹后创建。它包含两个数据集：RealICU-Gold（由五位资深ICU医生共识标注）和RealICU-Scale（通过经医生验证的LLM后见之明标注器扩展），涵盖四个医生驱动的任务：患者状态评估、急性问题识别、推荐行动建议和危险行动避免。

RealICU is a benchmark for evaluating Large Language Models (LLMs) in real-world intensive care unit (ICU) settings, with labels created by senior physicians after reviewing full patient trajectories. It comprises two datasets: RealICU-Gold, which is consensus-annotated by five senior ICU physicians, and RealICU-Scale, which is expanded using physician-validated LLM-powered hindsight annotators. The benchmark covers four physician-driven tasks: patient status assessment, acute problem identification, recommended action suggestions, and hazardous action avoidance.

创建时间：

2026-05-13

原始信息汇总

RealICU-Bench 数据集概述

基本信息

数据集名称：RealICU-Bench
发布时间：2026年（论文预印本）
论文地址：http://arxiv.org/abs/2605.13542
项目网站：https://chengzhi-leo.github.io/RealICU-Bench/
数据集状态：即将发布

核心目标

RealICU 是一个面向重症监护病房（ICU）的大语言模型（LLM）评估基准，旨在评估 LLM 在真实 ICU 条件下对长上下文临床数据的理解与推理能力。与现有基准不同，RealICU 的标签由资深医师在回顾完整患者轨迹后标注，而非基于临床医生的即时行为。

数据集构成

RealICU 包含两个子数据集：

数据集	数据窗口数	患者数	标注方式
RealICU-Gold	930	94	五位资深 ICU 医师达成共识的标注
RealICU-Scale	11,862	—	通过经过医生验证的 LLM 标注器（Oracle）扩展

四项临床任务

任务	描述
🩺 患者状态评估	基于所有可用临床数据评估患者当前的整体状况
🔍 急性问题识别	识别需要在后续床边护理中持续关注的急性临床问题
💊 推荐治疗措施	提出适合患者病情的短期治疗建议
⚠️ 危险行为识别	识别对该患者应避免的、可能导致不安全后果的行为

配套代理系统：ICU-Evo

RealICU 同时提供了 ICU-Evo 多智能体管道，这是一个基于结构化记忆的观察驱动系统，通过将临床上下文组织成多种记忆类型（模仿临床医生的推理方式），用于研究长程推理能力。

支持的上下文模式

memory：结构化记忆
full_history_events：完整历史事件
local_events_only：仅局部事件
rag_history_events：基于 RAG 的历史事件
all：所有模式

数据格式与布局

数据以 Parquet 格式存储，默认目录结构如下：

data/mimic-demo/events # ICU事件记录（生命体征、实验室检查、用药等） data/mimic-demo/icu_stay # ICU住院元数据

评估方法

患者状态与急性问题：通过比较模型输出与 Oracle 标注进行评分
推荐措施：使用 PubMedBERT 作为匹配后端，评估推荐措施与真实标签的一致性

关键特性

事后标注（Hindsight Annotation）：标签由医生在完整了解患者轨迹后标注，避免了即时决策中的信息不完整问题
Oracle 标注器：一个经过医生验证的 LLM，用于扩展标注规模
多模态记忆：ICU-Evo 支持动态记忆组织，模拟临床医生推理流程

搜集汇总

数据集介绍

构建方式

RealICU-Bench的构建基于重症监护室中实时且密集的临床数据流，旨在评估大语言模型在长上下文医学推理中的能力。数据集包含RealICU-Gold和RealICU-Scale两个子集，其中RealICU-Gold由五位资深ICU医师通过回顾完整患者轨迹达成共识标注，涵盖930个时间窗口与94名患者；RealICU-Scale则利用经医师验证的LLM标签器Oracle扩展至11862个窗口，以增强数据规模。四个临床任务——患者状态评估、急性问题识别、治疗推荐及危险行为警示——由超过30位执业医师共同设计，确保任务与真实ICU决策场景紧密耦合。

特点

该数据集的核心创新在于其事后标注机制，利用完整临床轨迹的回顾性视角克服传统行为模仿基准中历史动作可能存在的次优性。每个标签均基于医师在掌握所有后续信息后的判断，从而更准确地反映理想决策。此外，数据集通过医师共识与LLM辅助标注的结合，在保证标注质量的同时显著扩展覆盖范围，其任务设计紧密围绕临床工作流，涵盖从状态评估到安全警示的多维度推理挑战，有效衡量模型在复杂长上下文中的理解与决策能力。

使用方法

使用该数据集需先通过pip安装依赖并配置LLM提供商密钥。数据以parquet格式存放于指定目录，包含事件记录与ICU停留元数据。流程分为三块：首先利用create_memory.py为指定患者构建ICU-Evo结构化记忆；随后通过patient_status_experiment.py和recommendation_experiment.py在不同上下文模式下执行预测，支持记忆、完整历史事件、局部事件等多种模式；最后使用eval_patient_status.py和eval_recommendation.py调用PubMedBERT匹配器评估模型输出与Oracle标签的一致性，所有产物自动保存至实验与评估结果目录。

背景与挑战

背景概述

重症监护病房（ICU）持续产生密集且动态演变的临床数据流，医护人员在时间压力下需反复评估患者状态，这凸显了可靠人工智能决策支持系统的迫切需求。RealICU-Bench 数据集于2026年由沈承志等研究者联合多机构团队创建，旨在评估大语言模型在真实ICU场景下的长上下文理解能力。与传统基准将历史临床行为视为金标准不同，RealICU引入事后标注范式，由资深医师在回顾完整患者轨迹后生成标注，从而克服了原始决策因信息不完整而可能存在的次优性。数据集包含930个临床窗口的专家共识标注版本RealICU-Gold与11,862个窗口的大规模扩展版本RealICU-Scale，并设计了四项由临床医生驱动的任务体系，为评估AI系统在复杂医疗决策中的推理能力提供了全新视角。

当前挑战

该数据集面临的核心挑战在于重症监护领域的复杂决策环境。首先，临床行为常在不完整信息与有限时间背景下产生，传统基准难以区分模型模仿行为与真实推理能力的差异，需通过事后标注打破行为模仿的评估局限。其次，ICU数据具有长序列、高密度与动态演化的特性，模型需在长达数千个事件记录中精准提取关键临床信号，这对长上下文理解与多层次记忆组织构成严峻考验。构建过程中，研究者需解决多学科专家标注的一致性难题，30余名认证医师的共识标注流程虽确保了金标准质量，但高昂的人力成本限制了数据集规模。此外，自动标注扩展所需的验证与安全机制仍待完善，现有基于动态记忆的智能体虽提升了长程推理能力，却未能彻底消除安全风险，这要求未来工作持续探索可靠的临床决策支持范式。

常用场景

经典使用场景

在重症监护室（ICU）这一高动态、高信息密度的临床环境中，医生需在有限时间内持续评估患者状态的演变并作出决策。RealICU-Gold作为RealICU基准的核心子集，由五位资深ICU医师基于完整回顾性患者轨迹达成共识标注，为评估大型语言模型（LLM）在长上下文临床推理中的能力提供了经过事后验证的金标准。该数据集最经典的使用场景涉及四项临床核心任务：患者整体状态评估、急性临床问题识别、短期治疗建议生成以及应避免的危险行为预警。通过模拟ICU床旁决策的真实认知过程，研究者和工程师可用该数据集严格测试和比较不同LLM代理在长序列临床事件上的理解与推理水平。

衍生相关工作

围绕RealICU-Gold，该工作衍生了多个重要研究方向。最直接的是ICU-Evo代理框架，一种基于动态结构记忆的多智能体管道，其通过模拟临床医生的异质性记忆组织方式整合长程临床上下文，在长程推理上取得显著提升但仍未完全消除安全错误，揭示了现有结构化记忆方法的瓶颈。此外，研究者还开发了Oracle，一种经过医师验证的LLM事后标注器，可用于大规模扩展标注数据，进而衍生出RealICU-Scale数据集，为数据驱动的方法提供更多训练和评估样本。这些衍生工作推动了事后回述标注方法在医学领域中的规范化，并促进了记忆增强推理、多轮交互评估及安全约束学习等子领域的活跃探索。

数据集最近研究