MASS-EX
收藏Hugging Face2026-03-27 更新2026-03-28 收录
下载链接:
https://huggingface.co/datasets/Feng613/MASS-EX
下载链接
链接失效反馈官方服务:
资源简介:
MASS-EX(蒙特利尔睡眠研究档案-专家注释)是一个基于MASS SS3子集的专家注释数据集,旨在支持可解释的自动睡眠分期研究。数据集包含62名受试者的59,317个30秒多导睡眠图(PSG)时段,每个时段提供睡眠阶段标签、适用的AASM规则标识符,以及部分时段的专家编写的完整临床推理理由。数据集分为精细注释(5名受试者,5,006个时段,含详细理由)和粗略注释(57名受试者,54,187个时段,仅含规则标识符)。数据涵盖六种PSG通道(F4-M1、C4-M1、O2-M1、LOC、ROC、Chin EMG),适用于睡眠分期、可解释AI等研究任务。数据集遵循CC BY-NC 4.0许可,使用时需单独获取原始PSG信号。
MASS-EX (Montreal Archive of Sleep Studies - Expert Annotations) is an expert-annotated dataset derived from the MASS SS3 subset, intended to support research on interpretable automatic sleep staging. The dataset comprises 59,317 30-second polysomnography (PSG) epochs from 62 subjects. Each epoch is accompanied by sleep stage labels, applicable AASM rule identifiers, and for a subset of epochs, complete clinical reasoning statements compiled by domain experts. The dataset is categorized into two annotation types: fine annotations (covering 5 subjects with 5,006 epochs including detailed reasoning) and coarse annotations (covering 57 subjects with 54,187 epochs only containing rule identifiers). The dataset includes six PSG channels: F4-M1, C4-M1, O2-M1, LOC, ROC, and Chin EMG, making it applicable for research tasks such as sleep staging and interpretable AI. The dataset is licensed under CC BY-NC 4.0, and the raw PSG signals must be obtained separately when using the dataset.
创建时间:
2026-03-17
搜集汇总
数据集介绍

构建方式
在睡眠医学与人工智能交叉领域,MASS-EX数据集的构建遵循了严谨的专家驱动与机器辅助相结合的流程。其基础源于公开的MASS SS3子集的多导睡眠图记录,涵盖62名受试者的近六万个30秒时段。核心构建工作由资深睡眠技师与睡眠医学医师共同完成,他们首先依据美国睡眠医学会指南,为研究中采用的六通道导联制定了一套包含15条具体规则的标准化库。随后,专家为各睡眠阶段撰写了高质量的范例标注。在此基础上,研究团队利用大型视觉语言模型,以少量示例为引导,为所有目标时段生成了初步的标注草案。每一份生成的标注均经过睡眠技师的逐条人工审查与修正,并最终由资深医师独立验证与定稿,确保了标注的临床准确性与权威性。
特点
MASS-EX数据集的核心特征在于其专为可解释性睡眠分期研究而设计的双重标注体系。数据集提供了精细与粗略两种层级的注释:精细标注覆盖5名受试者的五千余个时段,不仅包含睡眠分期标签及适用的AASM规则标识符,更提供了由专家撰写的完整推理文本,详尽描述了基于脑电、眼电、肌电等通道特征的临床决策逻辑;粗略标注则覆盖其余57名受试者的五万四千余个时段,保留了规则标识符。这种结构使得该数据集既能支持需要深入理解决策过程的复杂模型训练,也能服务于大规模的规则验证研究。所有标注均严格对应标准的六通道导联布局,并与原始的生理信号严格分离,确保了使用的合规性与灵活性。
使用方法
为有效利用MASS-EX数据集进行研究,使用者需遵循特定的工作流程。首先,必须依据MASS数据使用协议,独立申请并获取原始的SS3子集多导睡眠图EDF信号文件。随后,将本数据集的标注文件与原始信号数据按指定目录结构组织。通过运行提供的预处理脚本,可将原始的EDF信号转换为模型可处理的波形图像或其他特征表示。数据标注以CSV格式存储,使用Pandas等工具可轻松加载,其中精细标注包含‘reasoning_text’和‘applicable_rules’等关键字段,粗略标注则主要包含分期标签与规则标识符。研究者可据此构建训练与测试集,用于开发或评估那些旨在实现规则可追溯、决策可解释的自动化睡眠分期模型,特别是结合视觉语言模型的新范式。
背景与挑战
背景概述
睡眠分期是睡眠医学与神经科学的核心任务,旨在依据多导睡眠图(PSG)信号将睡眠过程划分为不同阶段,为睡眠障碍诊断与生理机制研究提供关键依据。MASS-EX数据集由浙江大学与温州医科大学的研究团队于2026年构建,其核心研究问题在于推动可解释性自动睡眠分期方法的发展。该数据集基于MASS SS3子集,通过专家标注机制,为每个30秒PSG时段提供了睡眠阶段标签、适用的美国睡眠医学会(AASM)规则标识符以及详细的临床推理文本。MASS-EX的创建标志着睡眠数据分析从传统黑箱模型向透明、可解释的人工智能系统演进,为融合视觉语言模型与临床规则的跨模态研究奠定了高质量数据基础。
当前挑战
在睡眠分期领域,传统机器学习模型虽能实现较高准确率,但其决策过程缺乏透明度,难以获得临床医生的信任,这构成了可解释性睡眠分期面临的核心挑战。MASS-EX数据集旨在应对这一挑战,通过提供规则标识与专家推理文本,支持构建可追溯、符合临床逻辑的分期模型。在数据集构建过程中,挑战主要体现在标注流程的复杂性与一致性维护上。专家需将抽象的AASM指南转化为适用于六通道PSG信号的具体操作规则,并确保机器辅助生成的草案经人工逐条审查与修正,以消除模型幻觉并保持标注的临床准确性。此外,处理PSG信号边界时段以及协调不同专家间的标注标准,亦对数据质量与一致性提出了严格要求。
常用场景
经典使用场景
在睡眠医学与神经生理学领域,MASS-EX数据集为可解释性自动睡眠分期研究提供了关键支持。其最经典的使用场景是训练和评估基于视觉-语言模型(VLM)的睡眠分期系统,例如SleepVLM。数据集包含精细标注的专家推理文本和适用的AASM规则标识,使得模型不仅能够预测睡眠阶段,还能生成符合临床逻辑的解释,模拟睡眠技师的分析过程。这种使用方式将黑盒模型转化为透明、可信的决策工具,推动了睡眠分期从纯分类任务向可解释、规则驱动的智能诊断范式转变。
实际应用
在实际应用层面,MASS-EX数据集可服务于睡眠障碍诊断辅助系统的开发。基于该数据集训练的模型能够被集成到多导睡眠图分析软件中,为睡眠技师或医师提供自动分期建议及其对应的AASM规则依据,从而提升睡眠实验室的工作效率与标注一致性。此外,它也可用于医学教育与培训,通过展示专家对脑电图、眼电图和肌电图信号的解读逻辑,帮助学员深入理解睡眠分期的临床标准。这类应用有望推动个性化睡眠健康管理的智能化发展。
衍生相关工作
围绕MASS-EX数据集,已衍生出若干重要的研究工作,其中最核心的是其伴生论文提出的SleepVLM框架。该工作首次将视觉-语言模型引入睡眠分期任务,利用数据集的图文对齐标注,实现了规则可追溯的分期与解释生成。此外,数据集也为后续探索基于检索的增强生成、少样本学习在睡眠分析中的应用,以及开发新型可解释性评估指标提供了基础。这些工作共同推动了睡眠信息学向更透明、更符合临床实践需求的方向演进。
以上内容由遇见数据集搜集并总结生成



