five

HiRID

收藏
arXiv2022-01-17 更新2024-06-21 收录
下载链接:
https://physionet.org/content/hirid/1.1.1/
下载链接
链接失效反馈
官方服务:
资源简介:
HiRID数据集是由瑞士伯尔尼大学医院的重症医学部门提供的,包含超过33,000名患者的重症监护数据。该数据集与苏黎世联邦理工学院合作开发,包含712个常规收集的生理变量、诊断测试结果和治疗参数。HiRID具有比其他已发布的重症监护数据集更高的时序分辨率,特别是在床边监测方面,大多数生命体征每2分钟记录一次。该数据集旨在通过提供一个全面的机器学习基准,覆盖与ICU相关的广泛任务,从而改善机器学习方法在时间序列数据上的应用。HiRID的应用领域包括预测任务,如警报系统预测不同类型的器官衰竭,以及开发新的方法以支持临床决策。

The HiRID dataset, provided by the Department of Intensive Care Medicine at the University Hospital of Bern, Switzerland, contains intensive care unit (ICU) data from over 33,000 patients. Developed in collaboration with ETH Zurich, the dataset encompasses 712 routinely collected physiological variables, diagnostic test results, and therapeutic parameters. HiRID offers higher temporal resolution than other publicly available ICU datasets, particularly for bedside monitoring, with most vital signs recorded every 2 minutes. This dataset aims to improve the application of machine learning methods on time-series data by providing a comprehensive machine learning benchmark covering a wide range of ICU-related tasks. Application scenarios of HiRID include predictive tasks such as alert systems for predicting different types of organ failure, as well as the development of novel methods to support clinical decision-making.
提供机构:
苏黎世联邦理工学院
创建时间:
2021-11-16
搜集汇总
数据集介绍
main_image_url
构建方式
HiRID数据集通过整合来自瑞士伯尔尼大学医院重症监护医学部超过33,000次患者入院的数据构建而成。该数据集涵盖了从2008年1月至2016年6月期间记录的712个常规收集的生理变量、诊断测试结果和治疗参数。HiRID数据集以其高时间分辨率而著称,其中大多数生命体征每2分钟记录一次。数据集的构建过程包括数据预处理、特征提取、标签构建和模型训练与评估等环节。数据预处理阶段涉及将患者电子健康记录从长表格式转换为特征矩阵,并进行重采样以提高数据分辨率。特征提取阶段则从原始数据中提取了手动设计的特征,以供机器学习模型使用。标签构建阶段根据提供的测量值和元数据为预测任务生成标签。模型训练与评估阶段使用了一系列机器学习和深度学习算法对模型进行训练和评估,以确定其在各个任务上的表现。
特点
HiRID数据集的特点在于其高时间分辨率、多样化的预测任务和全面的管道设计。与现有的ICU数据集相比,HiRID数据集提供了更高的时间分辨率,这对于研究长期时间序列数据至关重要。数据集涵盖了广泛的临床相关预测任务,包括回归和分类任务,涵盖了所有主要器官系统和患者的整体状态。此外,HiRID数据集还包含了一个全面的管道,从数据预处理到模型评估,为研究人员提供了一个可复制的端到端解决方案。
使用方法
使用HiRID数据集的方法包括数据加载、预处理、任务实现、模型训练和评估等环节。首先,用户需要从PhysioNet网站上下载HiRID数据集,并解压数据文件。然后,使用提供的预处理脚本对数据进行预处理,包括合并变量、重采样、特征提取等步骤。接下来,根据预定义的任务生成标签,并选择合适的机器学习或深度学习模型进行训练。最后,在测试集上评估模型的性能,以确定其在各个任务上的表现。用户可以根据需要调整预处理、模型训练和评估阶段的参数,以适应不同的研究需求。
背景与挑战
背景概述
HiRID数据集是一个由瑞士联邦理工学院(ETH)和伯尔尼大学医院重症监护医学系合作开发的高分辨率重症监护数据集。该数据集包含超过33,000名患者的入院数据,涵盖从2008年1月至2016年6月在伯尔尼大学医院重症监护医学部(Inselspital)收集的712个常规收集的生理变量、诊断测试结果和治疗参数。HiRID数据集具有比其他已发布的数据集更高的时间分辨率,特别是对于床旁监测,大多数生命体征每2分钟记录一次。HiRID数据集旨在为重症监护相关任务提供全面的基准,并促进开发、比较和评估机器学习方法。该数据集的研究背景主要涉及重症监护患者的治疗和监测,以及早期识别生理恶化和快速干预的需求。HiRID数据集的核心研究问题是开发新的机器学习方法,以预测与临床决策相关的任务,例如预测不同类型的器官衰竭的警报系统。该数据集对相关领域的影响在于,它提供了一个标准化和可复现的端到端管道,用于构建数据和标签,并允许研究人员在一系列临床相关任务上公平地比较他们的方法。此外,HiRID数据集还提供了一个深入的分析,突出了深度学习方法在这种类型数据上的局限性。
当前挑战
HiRID数据集相关的挑战包括:1)构建过程中遇到的挑战,例如数据预处理、特征提取、标签构建和模型训练等步骤的复杂性;2)解决领域问题的挑战,例如预测频率、类别不平衡和器官依赖性等。在构建过程中,数据预处理是一个关键的挑战,因为HiRID数据集包含各种类型的测量值,它们以不同的分辨率和时间间隔收集。为了使数据适合机器学习模型,需要进行数据清洗、特征提取和重采样等步骤。此外,构建标签也是一个挑战,因为需要从原始数据中提取相关信息,并将其转换为可用于预测任务的格式。解决领域问题的挑战包括预测频率,即模型需要在患者住院期间的不同时间点进行预测。类别不平衡也是一个挑战,因为某些预测任务中正类和负类的分布不均匀。此外,某些预测任务可能依赖于特定的器官系统,这需要模型能够识别和处理与特定器官相关的特征。为了应对这些挑战,HiRID数据集提供了一个全面的端到端管道,包括数据预处理、特征提取、标签构建和模型训练等步骤。此外,该数据集还定义了一系列临床相关任务,并提供了用于评估模型性能的指标。通过使用这些工具和资源,研究人员可以开发新的机器学习方法,并在一系列任务上公平地比较他们的模型。
常用场景
经典使用场景
HiRID数据集在重症监护病房(ICU)时间序列分析领域具有重要应用价值。它包含了从瑞士伯尔尼大学医院重症监护室收集的高分辨率生理测量数据,为研究ICU相关临床预测任务提供了丰富的资源。该数据集被广泛用于开发、评估和比较机器学习模型,特别是在器官功能预测、患者状态评估和临床决策支持等方面。HiRID数据集的高时间分辨率使其在分析长期时间序列方面具有独特优势,有助于揭示患者生理状态的动态变化和潜在的疾病发展趋势。
实际应用
HiRID数据集在实际应用中具有广泛前景。它可以用于开发ICU相关的预测模型,如器官衰竭预测、患者状态评估和疾病进展预测等。这些模型可以帮助临床医生及时识别患者生理状态的恶化,并采取相应的干预措施,从而提高患者生存率和降低医疗成本。此外,HiRID数据集还可以用于构建临床决策支持系统,为医生提供更准确、更可靠的决策依据。
衍生相关工作
HiRID数据集的发布促进了相关研究的发展,衍生出一系列经典工作。例如,基于HiRID数据集的研究揭示了传统机器学习模型(如梯度提升树)在医疗时间序列问题上的优越性能,并指出深度学习方法在处理此类数据时的局限性。此外,HiRID数据集还推动了针对高度不平衡任务和重尾回归任务的深度学习模型的研究,为未来研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作