SemiSegECG
收藏arXiv2025-07-24 更新2025-08-13 收录
下载链接:
https://github.com/bakqui/semi-seg-ecg
下载链接
链接失效反馈官方服务:
资源简介:
SemiSegECG是一个为半监督ECG划线语义分割而建立的标准化基准。它由多个公共数据集组成,包括以前未被充分利用的资源。这个数据集旨在支持鲁棒和多样化的评估,并包含五个代表性的半监督分割算法,用于在两个不同的架构上进行评估:卷积网络和Transformer。此外,还提出了ECG特定的训练配置和增强策略,并引入了标准化的评估框架。这个基准将为半监督ECG划线方法的进步提供基础,并促进该领域进一步的研究。
提供机构:
VUNO Inc.
创建时间:
2025-07-24
搜集汇总
数据集介绍

构建方式
SemiSegECG数据集的构建基于对多个公开心电图(ECG)数据库的系统性整合与标准化处理,包括LUDB、QTDB、ISP和Zhejiang等核心数据集,以及PTB-XL作为跨域无标签数据源。数据预处理阶段,各导联信号被独立处理,通过固定时长裁剪或零填充、统一重采样至250Hz,并应用带通滤波和Z-score归一化以消除噪声和基线漂移。标注数据采用专家验证的波形边界标记,部分数据集通过前期研究补充了缺失的节律标注。数据划分遵循严格的随机分配原则,确保训练、验证和测试集的独立性。
特点
该数据集的核心特点在于其半监督学习框架的设计,首次为ECG波形分割任务提供了标准化评估基准。其创新性体现在:1)多源数据融合,覆盖临床12导联至便携设备6导联的异构数据分布;2)引入两种评估场景(域内与跨域),模拟真实医疗环境中的数据偏移挑战;3)提供波形分割(mIoU)与临床关键间期(PR/QRS/QT)双重评估指标。特别值得注意的是,数据集通过ECG特异性数据增强策略(如基线漂移、电源线噪声等时序扰动)优化了半监督算法的鲁棒性。
使用方法
使用该数据集需遵循其标准化协议:对于域内评估,可选择1/16至1/2比例的标注数据进行半监督训练,剩余数据作为无标签集;跨域评估则需合并多源标注数据,配合PTB-XL无标签数据训练,最终在独立测试集或移动设备数据集(mECGDB)验证泛化性。研究推荐采用Vision Transformer架构,配合Mean Teacher或FixMatch等半监督算法,并应用数据集提供的RandAugment增强策略。评估时需同时关注分割精度(mIoU)和临床间期误差(MAE),以全面衡量模型性能。
背景与挑战
背景概述
SemiSegECG数据集由VUNO机构的研究团队于2025年提出,是首个针对心电图(ECG)半监督语义分割任务的标准化基准。该数据集整合了LUDB、QTDB等6个公开ECG数据库,包含超过27万条标注数据,旨在解决传统ECG波形分割方法在信号变异性和噪声干扰下的局限性。通过引入计算机视觉领域的半监督学习算法,该数据集显著提升了在标注数据稀缺场景下的P波、QRS波群等关键波形特征的识别精度,为心血管疾病的智能诊断提供了新的研究范式。
当前挑战
ECG信号固有的高变异性与噪声干扰对波形分割算法提出严峻挑战,具体表现为:1)临床标注数据的稀缺性导致监督学习模型泛化能力受限;2)不同采集设备(如12导联与便携设备)产生的分布偏移影响跨域泛化性能;3)传统图像增强策略(如水平翻转)会破坏ECG信号的时序病理特征。在数据构建过程中,研究团队需解决多源数据库的标注异构性问题(如导联特异性标注与整合标注的兼容),以及采样率(200-1000Hz)和导联配置(2-12导联)的标准化难题。
常用场景
经典使用场景
在心电信号处理领域,SemiSegECG数据集为半监督语义分割任务提供了标准化基准。该数据集整合了多个公开的心电数据库,包括LUDB、QTDB、ISP和Zhejiang等,涵盖了不同采样率和导联类型的心电信号。通过模拟标签稀缺条件下的半监督学习场景,研究者可以评估算法在1/16至1/2不同标签比例下的性能表现。该数据集特别适用于探索如何利用大量未标注心电数据提升模型对P波、QRS波群和T波等关键波形特征的识别能力。
解决学术问题
SemiSegECG数据集有效解决了心电分割领域的两大核心问题:标注数据稀缺性和模型泛化能力不足。通过引入半监督学习框架,该数据集验证了Transformer架构在跨数据库场景下的优越性,其平均交并比(mIoU)较传统卷积网络提升达7.6%。同时,数据集提出的心电特异性数据增强策略(如基线漂移、电源线噪声等)显著缓解了信号变异和噪声干扰问题,使模型在临床关键间期(PR、QRS、QT)的绝对误差降低至14.9毫秒,为自动化心电诊断提供了可靠的技术支撑。
衍生相关工作
基于SemiSegECG的基准研究催生了一系列创新工作,包括心电专用的区域对比学习(ReCo)策略和自适应数据增强方法。相关成果推动了ECG SegNet等新型分割架构的发展,这些模型通过编码器-解码器结构实现了对波形边界的高精度定位。数据集还启发了对Vision Transformer在心电时序信号中应用的深入研究,如Guided Masked Representation Learning等工作进一步挖掘了时空特征提取的潜力。这些衍生研究共同构成了当前心电智能分析领域的前沿技术体系。
以上内容由遇见数据集搜集并总结生成



