Hospital Deterioration Dataset
收藏github2025-11-29 更新2025-11-30 收录
下载链接:
https://github.com/tarekmasryo/hospital-deterioration-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个高保真模拟医院队列数据集,包含10,000个模拟医院入院记录,每个记录跟踪最多72小时。数据集提供每小时的生命体征(心率、血压、呼吸频率等)和实验室数值(白细胞计数、乳酸、肌酐等),以及患者人口统计学信息和多种恶化结果标签。专门设计用于构建和基准测试早期预警系统和临床恶化风险模型的机器学习应用。
This is a high-fidelity simulated hospital cohort dataset comprising 10,000 simulated hospital admission records, each tracking patient data for up to 72 hours. The dataset provides hourly vital signs (including heart rate, blood pressure, respiratory rate, etc.), laboratory test values (such as white blood cell count, lactate, creatinine, etc.), patient demographic information, as well as multiple deterioration outcome labels. It is specifically designed for building and benchmarking machine learning applications for early warning systems and clinical deterioration risk models.
创建时间:
2025-11-29
原始信息汇总
医院病情恶化数据集概述
数据集基本信息
- 数据集名称:医院病情恶化数据集 - 模拟早期预警基准
- 数据规模:10,000个模拟住院病例
- 时间跨度:每个病例最多72小时
- 时间粒度:每小时记录
- 数据性质:完全模拟生成,不包含真实患者数据
数据集文件结构
核心数据文件
patients.csv:患者级别静态数据(10,000行)vitals_timeseries.csv:每小时生命体征时间序列数据labs_timeseries.csv:每小时实验室数值时间序列数据hospital_deterioration_hourly_panel.csv:完整连接的每小时面板数据hospital_deterioration_ml_ready.csv:机器学习就绪分类表格
数据特征
- 完整性:所有特征完全观测,无缺失值
- 一致性:内部数据逻辑一致
- 时间表示:以入院后小时数表示
数据内容详情
患者级别数据
- 患者标识符
- 年龄、性别
- 合并症指数
- 入院类型
- 基线风险评分
- 住院时长
- 病情恶化结局指标
生命体征时间序列
- 心率、呼吸频率
- 血氧饱和度、体温
- 收缩压、舒张压
- 氧气设备、氧气流量
- 活动能力评分
- 护士警报
实验室数值时间序列
- 白细胞计数
- 乳酸
- 肌酐
- C反应蛋白水平
- 血红蛋白
- 败血症风险评分
主要预测任务
- 预测目标:未来12小时内病情恶化风险
- 目标变量:
deterioration_next_12h(二进制) - 定义:当前小时后12小时内发生病情恶化事件
设计用途
- 早期预警系统和快速响应触发机制
- 败血症/病情恶化风险建模和评分校准
- 时间序列和序列模型开发
- 临床机器学习教学、原型设计和方法研究
数据生成与许可
- 生成方式:高保真隐私保护模拟流程
- 许可协议:CC BY 4.0 - 知识共享署名4.0国际许可
- 作者:Tarek Masryo
使用限制
- 数据完全合成,不能用于真实患者临床决策
- 模式设计为合理,不代表特定医院或人群
- 作为模拟基准使用,非真实世界验证替代品
搜集汇总
数据集介绍

构建方式
在临床预警系统研究领域,数据模拟技术为算法开发提供了可控环境。该数据集通过高保真仿真流程构建,生成包含一万例模拟住院患者的队列,每例患者从入院起持续监测72小时。构建过程采用隐私保护机制,基于患者基线特征生成潜在风险评分,并模拟生理指标随时间演变的轨迹。所有记录均保持内部一致性,例如无氧疗设备时氧流量自动归零,且不存在缺失值干扰模型训练。
特点
该数据集呈现多维度临床监测特征,涵盖每小时采集的生命体征与实验室数值,包括心率、血氧饱和度、白细胞计数等关键指标。其核心优势在于精确定义了'未来12小时恶化'的预测目标,形成符合临床预警需求的时序标注体系。数据以多层次文件结构组织,既提供融合静态特征与动态序列的整合面板,也配备开箱即用的机器学习专用表,支持从基础分类到复杂时序建模的多元研究场景。
使用方法
研究者可通过加载机器学习专用表快速构建预测模型,其中特征矩阵包含时序指标与静态变量,目标变量明确指向未来12小时的恶化风险。对于深度时序分析,可分别调用生命体征序列与实验室序列进行联合查询,或直接使用预整合的小时级面板数据。该架构支持循环神经网络、时序卷积网络等现代算法框架,同时满足传统逻辑回归模型的校准需求,为临床决策支持系统的原型开发提供完整数据基础。
背景与挑战
背景概述
在临床医疗监测领域,早期识别患者病情恶化是提升医疗安全的关键挑战。Hospital Deterioration Dataset作为高保真模拟医院队列数据集,由研究者Tarek Masryo构建,专注于为机器学习驱动的早期预警系统提供标准化基准。该数据集通过模拟10,000例住院患者72小时内的生命体征与实验室数据,结合人口统计学特征与共病负担,构建了动态病情恶化预测任务。其核心研究目标在于推动临床决策支持工具的发展,通过合成数据规避真实患者隐私风险,同时为时间序列建模与风险分层研究提供可复现的实验环境。
当前挑战
该数据集致力于解决临床早期预警系统中动态风险预测的复杂性挑战,包括多模态生理参数的时间依赖性建模与恶化事件的前瞻性识别。构建过程中面临高保真医学数据模拟的技术难点,需确保生命体征、实验室指标与临床事件之间的生理一致性,例如氧疗设备与流量参数的逻辑关联。此外,合成数据需平衡医学合理性与机器学习可用性,在避免真实数据缺失值问题的同时,维持病情恶化事件的时序分布与基线风险特征的真实性。
常用场景
经典使用场景
在临床预警系统研究领域,该数据集最经典的应用场景是构建和评估早期临床恶化风险预测模型。研究人员利用其包含的10000例模拟住院患者数据,每小时采集的生命体征和实验室指标,能够训练机器学习算法识别患者在未来12小时内发生临床恶化的风险模式。这种高频时间序列数据特别适合开发实时监测系统,为医院提供精准的患者状态预警机制。
解决学术问题
该数据集有效解决了临床机器学习研究中数据获取困难的核心问题。通过提供完整且内部一致的模拟数据,研究人员能够专注于模型开发而无需处理真实医疗数据中的隐私限制。其精心设计的'未来12小时'预测窗口,为早期预警系统的时效性研究提供了标准化评估框架,推动了临床风险预测模型在时间序列分析、特征工程和模型校准等方面的理论创新。
衍生相关工作
基于该数据集衍生的经典研究主要集中在时序预测模型的创新应用。众多学者利用其完整的时间序列特征,开发了基于循环神经网络、时序卷积网络和Transformer架构的临床预警算法。这些工作不仅推进了深度学习在医疗时序数据分析中的理论边界,还催生了针对风险评分校准、多任务学习和可解释性人工智能等方向的方法论研究,形成了完整的临床机器学习研究生态。
以上内容由遇见数据集搜集并总结生成



