韩国脓毒症联盟全国脓毒症注册中心数据集

Name: 韩国脓毒症联盟全国脓毒症注册中心数据集
Creator: 韩国高级科学技术研究院, 首尔国立大学医院, 首尔国立大学医学院
Published: 2025-05-05 23:23:47
License: 暂无描述

arXiv2025-05-05 更新2025-05-07 收录

下载链接：

https://github.com/starmpcc/C-Reason

下载链接

链接失效反馈

官方服务：

资源简介：

韩国脓毒症联盟全国脓毒症注册中心数据集由韩国高级科学技术研究院、首尔国立大学医院、首尔国立大学医学院等机构创建，包含2019年9月至2020年12月期间登记的11,981名成年脓毒症患者的临床数据。数据集包含691个特征，如人口统计信息、实验室结果、治疗方法等。数据集旨在用于提高大型语言模型在真实临床环境中的推理能力，特别是在脓毒症相关任务的推理能力。该数据集通过构建推理密集型问题，并利用强化学习算法训练模型，以提高模型在临床推理任务中的表现。

The National Sepsis Registry Dataset of the Korean Sepsis Alliance was developed by institutions including the Korea Advanced Institute of Science and Technology, Seoul National University Hospital, and Seoul National University College of Medicine. It encompasses clinical data of 11,981 adult sepsis patients registered between September 2019 and December 2020. The dataset comprises 691 features covering demographic information, laboratory test results, treatment protocols and other related contents. The dataset aims to improve the reasoning capabilities of large language models (LLMs) in real-world clinical settings, particularly for sepsis-related tasks. Specifically, it is used to construct inference-intensive problems and train models with reinforcement learning algorithms to enhance their performance on clinical inference tasks.

提供机构：

韩国高级科学技术研究院, 首尔国立大学医院, 首尔国立大学医学院

创建时间：

2025-05-05

原始信息汇总

C-Reason 数据集概述

数据集背景

官方实现论文：Enhancing LLMs Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry
目标：通过利用真实世界临床记录增强大型语言模型（LLMs）的临床推理能力。

数据集组成

Sepsis Registry（败血症注册表）
- 私有数据集
- 预处理脚本：scripts/sepsis_preprocessing.py
- 训练命令：使用accelerate launch和deepspeed.json配置
- 评估命令：支持全量样本评估
MIMIC-III
- 唯一公开可用的数据集
- 设置步骤：需初始化子模块并加载数据
- 预处理脚本：
  - 测量预测：scripts/mimic_all_victims.py
  - 死亡率预测：scripts/mimic_mort.py
- 评估命令：支持缓存目录指定
Hospitalized Cohort（住院队列）
- 私有数据集
- 预处理脚本：
  - 基础处理：scripts/aki_preprocessing.py
  - AKI预测：scripts/aki_prediction.py
- 评估任务：
  - 去噪评估
  - AKI预测评估
Stroke Registry（中风注册表）
- 私有数据集
- 预处理脚本：
  - 基础处理：scripts/stroke_preprocessing.py
  - mRS3月预测：scripts/stroke_mrs3mo.py
- 评估任务：
  - 去噪评估
  - 预测评估

数据可用性说明

主要训练数据来自私有败血症注册表
当前仅MIMIC-III数据集可公开获取
模型发布可能性正在讨论中

引用格式

bibtex @misc{kim2025enhancingllmsclinicalreasoning, title={Enhancing LLMs Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry}, author={Junu Kim and Chaeeun Shim and Sungjin Park and Su Yeon Lee and Gee Young Suh and Chae-Man Lim and Seong Jin Choi and Song Mi Moon and Kyoung-Ho Song and Eu Suk Kim and Hong Bin Kim and Sejoong Kim and Chami Im and Dong-Wan Kang and Yong Soo Kim and Hee-Joon Bae and Sung Yoon Lim and Han-Gil Jeong and Edward Choi}, year={2025}, eprint={2505.02722}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2505.02722}, }

搜集汇总

数据集介绍

构建方式

该数据集基于韩国脓毒症联盟全国脓毒症注册中心的真实临床数据构建，采用多中心、前瞻性研究设计，覆盖16家三级医院2019-2021年收治的11,981例成人脓毒症患者。通过规则化方法生成30,000道临床推理选择题，采用特征掩码技术构建去噪任务，即随机遮蔽单个临床特征值后要求模型基于剩余特征进行推断。数据预处理阶段通过互信息分析剔除高相关性特征以避免表面模式学习，对连续变量采用高斯混合模型生成具有临床合理性的干扰选项。

特点

数据集包含691个多维临床特征，涵盖人口统计学、实验室检查、治疗方案及预后指标，具有显著的临床异质性。其突出特点包括：1) 真实世界数据的时序性与完整性，包含入院至出院全周期记录；2) 精细的脓毒症相关特征标注，如SOFA评分、初始抗生素适宜性等核心指标；3) 严格的隐私保护处理，通过特征脱敏和分布保持的选项生成技术平衡数据效用与隐私。数据分布呈现老年患者占比高(≥70岁占60.7%)、合并症复杂(糖尿病34.8%)等真实临床特征。

使用方法

该数据集专为增强LLMs临床推理能力设计，主要支持三种应用范式：1) 监督微调阶段作为去噪任务训练集，通过GRPO强化学习算法优化模型特征关联推理；2) 评估阶段提供包含1,000例患者的测试集，支持定量指标(准确率、F1值)和专家评估双重验证；3) 跨任务迁移场景下，可结合MIMIC-III等外部数据集验证模型泛化性。使用需遵循严格的伦理规范，原始数据需在受控医疗环境下访问，衍生问题集已开源供研究使用。

背景与挑战

背景概述

韩国脓毒症联盟全国脓毒症注册中心数据集（Korean Sepsis Alliance Nationwide Sepsis Registry Dataset）由韩国脓毒症联盟（KSA）于2019年9月至2021年12月期间构建，涵盖来自韩国16家三级医院的11,981名成人脓毒症患者数据。该数据集由韩国科学技术院（KAIST）、首尔国立大学盆唐医院等机构的多学科团队联合开发，旨在通过真实世界临床数据增强大型语言模型（LLMs）的临床推理能力。其核心研究问题聚焦于解决LLMs在脓毒症诊断、治疗方案选择和预后预测等复杂临床场景中因训练数据不足导致的推理局限。该数据集通过691个结构化特征（包括人口统计学、实验室指标、治疗干预和临床结局）构建了30,000个推理密集型问题，为临床人工智能研究提供了高质量、多中心的基准资源，显著推动了脓毒症精准医疗和AI辅助决策系统的发展。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题层面，脓毒症作为高度异质性的综合征，其病理生理机制复杂且临床表型多样，要求模型能够整合多模态数据（如时序生理参数、离散治疗事件）进行动态推理，而传统LLMs在理解临床指南依从性、罕见并发症识别等需专业经验的任务上表现不足；数据构建层面，挑战包括：1) 隐私保护与数据共享的平衡，需在遵守HIPAA/GDPR等法规前提下实现多中心数据标准化；2) 特征冗余与缺失值处理，需通过互信息分析消除高相关性特征对推理的干扰；3) 问题设计的临床合理性，需通过高斯混合模型生成符合医学常识的干扰选项；4) 跨疾病泛化性验证，需在急性肾损伤、卒中等其他重症数据集上测试模型迁移能力。

常用场景

经典使用场景

韩国脓毒症联盟全国脓毒症注册中心数据集在医学研究中具有重要价值，尤其在脓毒症临床决策支持系统的开发中表现突出。该数据集通过整合多中心、大规模的临床数据，为研究人员提供了丰富的患者特征和治疗方案信息。在经典使用场景中，该数据集常被用于训练和验证临床推理模型，帮助医生评估患者病情严重程度、预测治疗效果以及优化治疗方案。数据集中的多维度信息，包括患者基线特征、实验室检查结果、治疗方案和临床结局，为构建精准的预测模型提供了坚实基础。

衍生相关工作

该数据集已衍生出多项重要研究工作。基于这些数据，研究人员开发了C-Reason等先进的临床推理模型，这些模型在脓毒症预后预测、治疗方案优化等任务中表现出色。相关工作还扩展至其他重症疾病领域，如急性肾损伤和卒中预测。数据集也催生了多项关于临床数据标准化、隐私保护技术的研究。此外，基于该数据集构建的基准测试已成为评估医疗AI模型性能的重要标准，推动了整个医疗AI领域的发展。

数据集最近研究