five

A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research

收藏
arXiv2023-11-15 更新2024-07-24 收录
下载链接:
https://humanphenotypeproject.org/home
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由魏茨曼科学研究所和Pheno.AI联合创建,包含21,412个夜间睡眠记录,使用FDA批准的WatchPAT-300设备收集自7,077名参与者。数据集涵盖三个级别的睡眠数据:原始多通道时间序列、注释的睡眠事件和计算的汇总统计,包括与睡眠结构、睡眠呼吸暂停和心率变异性相关的447个特征。数据集旨在通过提供详细的睡眠和呼吸数据,推动个性化医疗和生物医学中的机器学习应用,特别是在睡眠研究和健康相关特性的预测方面。

This dataset was co-created by the Weizmann Institute of Science and Pheno.AI, comprising 21,412 overnight sleep records collected from 7,077 participants using the FDA-cleared WatchPAT-300 device. The dataset covers three levels of sleep data: raw multi-channel time series, annotated sleep events, and calculated summary statistics, including 447 features related to sleep architecture, sleep apnea, and heart rate variability. This dataset aims to advance personalized medicine and machine learning applications in biomedicine—particularly in sleep research and health-related trait prediction—by providing detailed sleep and respiratory data.
提供机构:
魏茨曼科学研究所,雷霍沃特,以色列
创建时间:
2023-11-15
搜集汇总
数据集介绍
main_image_url
构建方式
在睡眠医学与呼吸研究领域,大规模、高质量的数据集对于深入探索睡眠障碍与健康关联至关重要。本数据集依托“10K研究”这一纵向深度表型队列,作为人类表型项目的重要组成部分,招募了7077名40至70岁的参与者。数据采集采用经FDA批准的WatchPAT-300家庭睡眠呼吸暂停测试设备,在受试者居家环境中连续记录三个夜晚的睡眠,总计获得21412晚的多模态监测数据。数据构建涵盖三个层次:原始多通道时间序列传感器数据、标注的睡眠事件(如睡眠分期、呼吸暂停事件)以及计算得出的汇总统计量,最终整合出447项与睡眠结构、呼吸暂停及心率变异性相关的特征,并经过严格的质量控制与预处理。
使用方法
该数据集为睡眠科学、呼吸病学及生物医学机器学习研究提供了强大的资源。研究者可基于其多层次数据展开分析:利用原始时间序列开发深度学习模型,进行睡眠事件自动检测或生理信号分析;借助标注事件与汇总特征,开展睡眠障碍流行病学调查或睡眠质量评估。数据集内嵌的丰富特征可直接用于构建预测模型,探索睡眠参数与代谢、心血管等健康结局的关联。此外,其纵向设计支持对同一参与者多次监测数据的分析,适于研究睡眠模式的时序变化。数据通过人类表型项目平台向学术机构开放,促进了跨学科合作与可重复研究。
背景与挑战
背景概述
睡眠与呼吸研究领域长期面临大规模、高质量多模态数据匮乏的挑战,尤其在家庭睡眠监测环境中。由Pheno.AI与魏茨曼科学研究所在2023年联合发布的《21,412个记录夜晚的多模态数据集》应运而生,该数据集基于FDA批准的WatchPAT-300设备,采集自2020年至2022年间7,077名参与者的家庭睡眠呼吸暂停测试数据。核心研究问题聚焦于通过大规模纵向队列,深入解析睡眠架构、呼吸事件与心率变异性之间的复杂关联,并探索其与代谢、心血管等健康表型的预测关系。该数据集以其丰富的三层结构——原始多通道时间序列、标注事件及447项统计特征——为睡眠医学与生物医学机器学习提供了前所未有的资源,显著推动了睡眠呼吸障碍的机制研究与个性化健康管理的发展。
当前挑战
该数据集致力于解决睡眠呼吸障碍(如阻塞性睡眠呼吸暂停)的精准诊断与健康表型预测问题,其核心挑战在于如何从多模态时序数据中有效提取具有临床意义的特征,并克服传统研究中样本量有限、数据维度单一的局限。在构建过程中,研究团队面临多重技术挑战:首先,确保家庭环境下采集的设备信号质量与一致性,需对传感器数据进行严格的质量控制与对齐处理;其次,处理大规模原始时间序列(如光电容积脉搏波、血氧饱和度等)并从中自动化提取心率变异性等复杂特征,对算法鲁棒性提出较高要求;此外,整合多源异构数据(包括睡眠分期、呼吸事件、体位变化等)并建立标准化特征体系,以支持跨学科研究,亦是一项艰巨任务。
常用场景
经典使用场景
在睡眠医学与呼吸研究领域,该数据集凭借其大规模、多模态的特性,为探索睡眠结构与呼吸障碍的关联提供了经典范例。研究者常利用其包含的21,412夜记录,结合原始时间序列、标注事件及447项特征,深入分析阻塞性睡眠呼吸暂停(OSA)的病理机制。通过分层年龄与性别的参考值,如呼吸暂停低通气指数(AHI)与睡眠效率,该数据集能够系统评估睡眠质量与呼吸事件的动态变化,为临床诊断标准的优化奠定数据基础。
解决学术问题
该数据集有效解决了睡眠研究中长期存在的若干学术难题,例如大规模人群睡眠特征的定量描述与健康关联性分析。通过提供分层参考值,它揭示了年龄与性别对AHI、心率变异性样本熵等关键指标的影响,弥补了传统研究在人群代表性上的不足。此外,数据集通过预测模型展示了睡眠特征与代谢、心血管表型的关联,为理解睡眠障碍与全身性健康风险的因果关系提供了实证依据,推动了跨学科健康研究的进展。
实际应用
在实际医疗与健康管理场景中,该数据集为个性化睡眠干预与远程监测提供了重要支持。基于家庭睡眠呼吸测试(HSAT)数据,临床工作者可借助其预测模型,早期识别个体在血糖水平、骨密度及心血管健康方面的潜在风险。同时,数据集中丰富的多传感器信息(如PPG、加速度计)为开发便携式睡眠监测设备与智能分析算法提供了训练资源,助力实现睡眠障碍的精准诊断与长期健康管理。
数据集最近研究
最新研究方向
在睡眠医学与呼吸研究领域,随着可穿戴设备与家庭睡眠监测技术的普及,大规模多模态数据集的构建正成为推动精准医疗发展的关键。该数据集整合了来自WatchPAT-300设备的原始时间序列、标注事件及447项睡眠特征,为探索睡眠结构与全身健康关联提供了丰富资源。当前研究前沿聚焦于利用机器学习模型,特别是深度学习算法,从光电容积脉搏波(PPG)和加速度计等多传感器数据中提取隐藏模式,以预测心血管健康、血糖水平、骨密度及体成分等多元表型。热点方向包括睡眠呼吸事件与代谢综合征的交互机制解析,以及心率变异性(HRV)的样本熵作为衰老与病理状态生物标志物的验证。这些进展不仅深化了对睡眠障碍跨系统影响的理解,也为个性化健康干预与早期疾病风险评估开辟了新路径。
相关研究论文
  • 1
    A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research魏茨曼科学研究所,雷霍沃特,以色列 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作