five

physionet2012, mimic3_mortality, mimic3_phenotyping, physionet2019

收藏
github2024-03-16 更新2024-05-31 收录
下载链接:
https://github.com/ExpectationMax/medical_ts_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个医疗时间序列数据集,用于死亡率预测和在线败血症早期预测等任务。

This dataset comprises multiple medical time series datasets, designed for tasks such as mortality prediction and early online sepsis prediction.
创建时间:
2019-12-07
原始信息汇总

数据集概述

数据集列表

  • physionet2012 (mortality prediction)
  • mimic3_mortality (mortality prediction)
  • mimic3_phenotyping (mortality prediction)
  • physionet2019 (online sepsis early prediction)

数据集结构

每个数据集实例包含以下结构:

  • statics: 包含静态变量,如人口统计信息或患者入住的单位。
  • time: 包含自入院以来的时间,以小时为单位。
  • values: 包含时间序列的观测值,默认情况下,对于给定时间点未观察到的模式包含NaN
  • targets: 包含潜在的目标值,可用的端点因数据集而异。
  • metadata: 包含个别患者的元数据,如数据集中使用的标识符。

监督学习数据集

当使用as_supervised=True加载数据集时,每个实例表示为(X, y)元组,其中X元组包含以下4个元素:time, values, measurements(值是否被测量的指示器)和length

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集模块基于TensorFlow数据集API实现,涵盖了多个医疗时间序列数据集,包括physionet2012、mimic3_mortality、mimic3_phenotyping和physionet2019。每个数据集实例以嵌套目录结构组织,包含静态变量、时间序列、观测值、目标值和元数据等关键信息。数据集的构建过程严格遵循医疗数据的标准化处理流程,确保数据的完整性和一致性。
特点
该数据集的特点在于其专注于医疗时间序列数据的多样性和复杂性,涵盖了死亡率预测和脓毒症早期预测等多个关键医疗任务。每个实例的结构化设计使得数据能够高效地用于机器学习模型的训练与评估。数据集中的时间序列数据包含缺失值处理机制,能够真实反映医疗场景中的观测不确定性。此外,数据集支持监督学习模式,能够直接与Keras等深度学习框架无缝集成。
使用方法
使用该数据集时,用户需导入tensorflow_datasets模块及本数据集模块,通过简单的API调用即可加载所需数据集。加载时,用户可选择以监督学习模式获取数据,此时每个实例将以(X, y)元组形式返回,便于直接用于模型训练。数据集的分割方式灵活,支持按训练集、验证集和测试集进行划分,满足不同场景下的需求。使用过程中,用户需注意引用相关文献,以确保学术规范。
背景与挑战
背景概述
physionet2012、mimic3_mortality、mimic3_phenotyping和physionet2019数据集是医学时间序列数据的重要代表,广泛应用于医疗健康领域的研究。这些数据集由多个研究机构共同开发,旨在通过时间序列分析解决临床中的关键问题,如死亡率预测和脓毒症早期预测。physionet2012和mimic3_mortality专注于患者死亡率预测,而physionet2019则聚焦于脓毒症的早期预警。这些数据集为机器学习模型提供了丰富的临床数据,包括患者静态信息、时间序列观测值和目标变量,极大地推动了医疗人工智能的发展。
当前挑战
这些数据集在应用过程中面临多重挑战。首先,医学时间序列数据通常具有高维性和稀疏性,如何处理缺失值和噪声数据是模型训练的关键难题。其次,不同患者的数据分布可能存在显著差异,如何设计鲁棒的模型以应对数据异质性是一大挑战。此外,构建这些数据集时,研究人员需要克服数据隐私保护和伦理审查的障碍,确保数据的合法性和安全性。最后,由于医学数据的复杂性,如何提取有效的特征并构建可解释的模型,仍然是当前研究的重点和难点。
常用场景
经典使用场景
在医疗时间序列数据分析领域,physionet2012、mimic3_mortality、mimic3_phenotyping和physionet2019数据集被广泛应用于预测患者死亡率及早期败血症检测。这些数据集通过提供丰富的患者静态信息和动态时间序列数据,为研究人员构建和验证预测模型提供了坚实的基础。
实际应用
在实际应用中,这些数据集被广泛应用于医院信息系统和临床决策支持系统中。通过实时分析患者的生命体征和病历数据,医疗机构能够提前预警潜在的健康风险,优化资源配置,提高患者的生存率和治疗效果。
衍生相关工作
基于这些数据集,研究人员开发了多种经典的时间序列分析方法和模型。例如,利用深度学习技术构建的死亡率预测模型和败血症早期检测系统,已在多个医疗场景中得到了验证和应用,推动了医疗人工智能领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作