five

PulseImpute

收藏
arXiv2023-12-16 更新2024-07-24 收录
下载链接:
https://github.com/rehg-lab/pulseimpute
下载链接
链接失效反馈
官方服务:
资源简介:
PulseImpute数据集是由乔治亚理工学院的研究团队创建的,旨在解决移动健康(mHealth)应用中脉冲信号插补的问题。该数据集包含440,953个100 Hz的5分钟ECG波形和151,738个100 Hz的5分钟PPG波形,总计约592,691个波形。数据集通过模拟真实的mHealth缺失模式,提供了丰富的基线和临床相关的下游任务,以促进机器学习社区在这一领域的研究。数据集的访问地址为GitHub仓库,地址为www.github.com/rehg-lab/pulseimpute。

The PulseImpute dataset was created by a research team at the Georgia Institute of Technology to address the problem of pulse signal imputation in mobile health (mHealth) applications. It contains 440,953 5-minute ECG waveforms sampled at 100 Hz and 151,738 5-minute PPG waveforms sampled at 100 Hz, totaling approximately 592,691 waveforms in all. The dataset simulates realistic missing data patterns specific to mHealth scenarios, and provides a rich set of baselines and clinically relevant downstream tasks to promote research in this field within the machine learning community. The dataset is available via a GitHub repository at www.github.com/rehg-lab/pulseimpute.
提供机构:
乔治亚理工学院
创建时间:
2022-12-15
原始信息汇总

PulseImpute Challenge 数据集概述

数据集内容

  • ECG 缺失模式数据:包括训练、验证和测试集的缺失模式文件(missing_ecg_{train/val/test}.csv)。
  • PPG 缺失模式数据:包括训练、验证和测试集的缺失模式文件(missing_ppg_{train/val/test}.csv)。
  • MIMIC-III ECG 数据:包括训练、验证和测试集的 ECG 数据文件(mimic_ecg_{train/val/test}.npy)。
  • MIMIC-III PPG 数据:包括训练、验证和测试集的 PPG 数据文件(mimic_ppg_{train/val/test}.npy)。
  • PTB-XL ECG 数据:ECG 数据文件(ptbxl_ecg.npy)。

数据集下载

预训练模型

  • 预训练模型下载:可通过以下脚本下载预训练模型和 imputed waveforms: bash ./get_ckpts.sh

  • 预训练模型链接:Dropbox 链接

模型训练与测试

  • 重新训练模型:通过修改配置文件并运行 train_imp.py 脚本进行模型训练。
  • 测试模型:通过修改配置文件并运行 test_imp.py 脚本进行模型测试。

引用

bibtex @article{xu2022pulseimpute, title={PulseImpute: A Novel Benchmark Task for Pulsative Physiological Signal Imputation}, author={Xu, Maxwell and Moreno, Alexander and Nagesh, Supriya and Aydemir, Varol and Wetter, David and Kumar, Santosh and Rehg, James M}, journal={Advances in Neural Information Processing Systems}, volume={35}, pages={26874--26888}, year={2022} }

搜集汇总
数据集介绍
main_image_url
构建方式
在移动健康领域,生理信号的高频采集常因传感器脱落或数据传输中断导致数据缺失,PulseImpute数据集针对这一挑战构建了首个大规模脉动信号插补基准。该数据集整合了来自MIMIC-III Waveforms和PTB-XL两大公开临床数据库的心电图与光电容积脉搏波信号,通过提取真实移动健康研究中的缺失模式,模拟了传感器附着不稳定及通信丢包等现实场景。数据构建过程中,对原始信号进行了严格的降噪与质量控制,并采用时间点遮蔽技术生成缺失片段,确保插补结果可与真实值进行量化对比。
特点
PulseImpute数据集的核心特点在于其专注于脉动生理信号的插补任务,这类信号具有准周期形态结构,如心电图中的QRS波群,其波形随时间与人群呈现动态变化。数据集不仅提供了涵盖心电图和光电容积脉搏波的大规模、高质量波形数据,还引入了基于真实移动健康缺失模式的复杂缺失场景,包括长时连续缺失与短时随机丢失。此外,数据集设计了三项临床相关的下游任务——心电图与光电容积脉搏波的心跳检测以及心电图病理多标签分类,使得研究者能够评估插补性能对实际健康监测任务的影响。
使用方法
PulseImpute数据集为机器学习社区提供了一个系统性的脉动信号插补评估框架。研究者可利用该数据集训练和测试各类插补模型,包括传统方法(如均值填充、线性插值)与深度学习方法(如循环神经网络、变换器架构)。使用流程通常包括加载预处理后的波形数据及其对应的缺失掩码,在训练集上学习信号重建,并在测试集上通过均方误差等指标评估插补精度。同时,通过集成的心跳检测与病理分类下游任务,能够进一步分析插补质量对临床指标(如F1分数、宏AUC)的影响,从而推动针对移动健康场景的鲁棒插补算法发展。
背景与挑战
背景概述
移动健康(mHealth)领域致力于通过可穿戴传感器高频监测用户生理信号,以实现精准的健康干预。然而,数据缺失问题严重阻碍了其发展,尤其在脉搏性生理信号(如心电图ECG和光电容积脉搏波PPG)的插补任务上,缺乏专门的数据集和评估基准。PulseImpute数据集由佐治亚理工学院等机构的研究团队于2022年创建,旨在填补这一空白。该数据集首次针对脉搏性信号插补任务,整合了真实的缺失模式、全面的基线模型以及临床相关的下游任务,为机器学习社区提供了首个大规模、可复现的评估框架,推动了mHealth信号处理与健康监测技术的进步。
当前挑战
PulseImpute数据集所针对的核心挑战是脉搏性生理信号的高效插补问题,这类信号具有准周期性和形态多样性,传统时间序列插补方法难以有效处理。具体挑战包括:在领域问题层面,现有方法无法应对真实mHealth环境中因传感器脱落或传输中断导致的长时缺失(可达一分钟),且难以保持信号形态的临床意义;在构建过程中,需从真实世界研究中提取缺失模式,并处理大规模波形数据(如长达5分钟、30,000时间点的高频信号),同时确保下游任务(如心跳检测和心脏病理分类)能准确评估插补性能。此外,开发适应准周期结构的模型(如基于瓶颈扩张卷积的自注意力机制)也面临计算复杂度与局部上下文建模的平衡难题。
常用场景
经典使用场景
在移动健康监测领域,PulseImpute数据集为脉冲式生理信号(如心电图ECG和光电容积脉搏波PPG)的缺失数据填补任务提供了一个标准化的评估基准。该数据集通过模拟真实世界可穿戴设备中因传感器接触不良或数据传输中断导致的复杂缺失模式,为机器学习模型提供了极具挑战性的训练与测试环境。其经典使用场景集中于开发和验证能够有效处理长时、块状缺失信号的先进填补算法,特别是在单通道、高频采样的生理信号背景下,评估模型如何利用信号的准周期性和形态学特征来恢复丢失的波形片段。
解决学术问题
PulseImpute数据集系统地解决了移动健康研究中脉冲式生理信号缺失数据填补这一长期存在的学术难题。它填补了现有时间序列填补基准在模拟真实缺失模式、提供公开可用的脉冲信号数据以及包含临床相关下游任务评估方面的空白。该数据集使得研究人员能够量化不同填补方法对信号重建精度及下游健康监测任务(如心跳检测和心脏病理分类)性能的影响,从而推动针对信号准周期结构优化的新型机器学习模型的发展,例如论文中提出的瓶颈扩张卷积自注意力变换器架构。
衍生相关工作
PulseImpute数据集的发布催生了一系列专注于脉冲信号处理与健康监测的衍生研究工作。其提出的瓶颈扩张卷积自注意力机制为后续探索适用于长序列、准周期信号的神经网络架构提供了新思路。此外,该基准促使研究社区进一步探索个性化填补模型、不确定性建模以及针对非随机缺失机制的更复杂处理方法。这些衍生工作不仅深化了对生理信号填补问题的理解,也推动了生成式模型、可解释人工智能等技术在移动健康领域的交叉应用,为构建下一代高保真、高可用的连续健康监测系统奠定了算法基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作