ICENTIA11K

Name: ICENTIA11K
Creator: Mila, 蒙特利尔大学
Published: 2019-10-22 02:02:36
License: 暂无描述

arXiv2019-10-22 更新2024-06-21 收录

下载链接：

https://academictorrents.com/details/af04abfe9a3c96b30e5dd029eb185e19a7055272

下载链接

链接失效反馈

官方服务：

资源简介：

ICENTIA11K数据集是由Mila和蒙特利尔大学等机构共同创建的，包含11000名患者的心电图数据，总计超过20亿个标记的节拍。数据集主要用于无监督表示学习，旨在通过半监督学习方法提高心律失常检测的准确性，并探索未知的心律失常亚型。数据收集自Icentia公司的CartioSTATTM设备，该设备记录了高分辨率的心电图信号，适用于深入分析心律失常的复杂特征。此数据集的应用领域包括心律失常的早期检测、亚型发现和异常心电信号事件的识别，有助于推动心血管疾病诊断技术的发展。

The ICENTIA11K dataset was jointly created by institutions including Mila and the University of Montreal, among others. It comprises electrocardiogram (ECG) data from 11,000 patients, totaling over 2 billion labeled heart beats. This dataset is primarily designed for unsupervised representation learning, with the goals of improving the accuracy of arrhythmia detection via semi-supervised learning methods and exploring unknown arrhythmia subtypes. All data was collected using Icentia's CartioSTAT™ device, which records high-resolution ECG signals suitable for in-depth analysis of the complex characteristics of arrhythmias. The application fields of this dataset include early detection of arrhythmias, subtype discovery and identification of abnormal ECG signal events, which helps promote the development of cardiovascular disease diagnosis technologies.

提供机构：

Mila, 蒙特利尔大学

创建时间：

2019-10-22

搜集汇总

数据集介绍

构建方式

在心律失常分析领域，ICENTIA11K数据集的构建采用了系统化的多级处理流程。原始数据来源于11,000名患者佩戴CartioSTAT™单导联心电监测设备采集的连续信号，采样率为250Hz，分辨率达16位。数据处理团队首先通过自动节拍检测算法进行初步分析，随后由专业技术人员进行全记录标注，最终由资深专家审核确认。为适应机器学习需求，原始记录被分割为三个层次结构：患者级别（3-14天）、片段级别（约1小时）和帧级别（约8秒），每个患者随机选取50个片段及其对应标签，形成包含2.774亿标注心搏的标准化数据集。

特点

该数据集的核心特征体现在其规模与结构设计的独特性。作为目前最大的公开连续心电信号数据集，其数据量达到271.27GB，涵盖超过2亿个标注心搏，为无监督表示学习提供了充足样本。数据集采用层次化组织架构，同时包含患者、片段和帧三个不同时间尺度的数据视图，这种多粒度设计使得模型能够捕捉从瞬时心搏特征到长期生理模式的全方位信息。特别值得注意的是，数据集中80%的患者记录被刻意移除标签，专门用于支持半监督学习范式，这种设计为探索未知心律失常亚型创造了理想条件。

使用方法

在临床应用场景中，该数据集支持多种机器学习范式。研究者可采用无监督表示学习方法，通过自编码器、主成分分析等特征提取技术，从大量未标注数据中学习心电信号的内在表示。对于半监督学习任务，可利用20%的标注数据作为监督信号，结合未标注数据进行模型训练。数据集提供的标准化评估流程包含两个具体任务：心搏分类任务需区分正常心搏与室性/房性早搏；心律分类任务则要求识别正常心律、房颤和房扑三种节律类型。评估时采用平衡准确度指标，并提供了K近邻和多层感知器两种分类器的基准性能，确保不同表示学习方法的可比性。

背景与挑战

背景概述

在心脏电生理学领域，心律失常的自动检测与分析长期依赖于专业医师对心电图的人工判读。随着可穿戴单导联心电监测设备的普及，海量连续心电信号的获取成为可能，但传统监督学习方法受限于已知心律失常类型的标注数据，难以发现未知的异常心电模式。在此背景下，由Mila研究所、蒙特利尔大学与Icentia公司于2019年联合发布的ICENTIA11K数据集应运而生。该数据集收录了11,000名患者长达数周的连续原始心电信号，包含超过27亿个标注心搏，旨在为无监督表征学习提供大规模基准数据，推动心律失常未知亚型的自动发现与半监督心电模型的发展，对心脏电生理学与医疗人工智能的交叉研究产生了深远影响。

当前挑战

该数据集致力于解决的核心挑战在于心律失常未知亚型的发现与表征学习。心电信号形态复杂多变，已知心律失常类型有限，而大量临床异常心搏可能对应尚未被医学界定义的亚型，传统监督学习模型难以识别此类未知模式。在数据构建过程中，挑战主要体现在多维度：数据规模庞大且连续，单患者记录长达数周，在存储、处理与标注上需高效算法支持；信号标注依赖专业技师逐帧分析，人力成本极高；患者群体年龄分布偏大且多数已存在心律失常，样本代表性存在偏差；此外，心电信号作为潜在生物特征，在数据匿名化与隐私保护方面需应对重识别风险。这些挑战共同构成了该领域从数据构建到模型研发的全链路难题。

常用场景

经典使用场景

在心律失常分析领域，ICENTIA11K数据集最经典的应用场景在于无监督表征学习的探索。该数据集通过提供来自11,000名患者的连续原始心电信号，构建了包含20亿个标记心搏的庞大资源库，为机器学习模型从海量未标记数据中自主提取有意义的特征模式创造了条件。研究人员能够利用这些长时间序列数据，训练深度神经网络等模型学习心电信号的潜在表示，进而识别出传统监督学习方法可能忽略的细微形态学差异。

实际应用

在实际医疗场景中，ICENTIA11K数据集支撑着可穿戴心电设备的智能化发展。基于该数据集训练的特征提取模型可集成至单导联心电监测设备，实现对房颤、室性早搏等常见心律失常的实时筛查。其无监督学习能力特别适用于临床中遇到的形态学异常但未被明确分类的心电事件，辅助 cardiologists 发现潜在的新型病理模式。此外，数据集的大规模特性使得开发的心律失常检测算法具有更好的泛化能力，能够适应不同人群的生理变异，为远程心电监护和早期疾病预警系统提供了可靠的技术基础。

衍生相关工作

该数据集的发布催生了心电分析领域的系列创新研究。基于其构建的无监督表征学习基准，后续工作发展了多种深度生成模型用于心电信号合成与增强。在迁移学习方向，研究人员利用ICENTIA11K预训练的特征提取器，显著提升了在小样本心电数据集上的分类性能。异常检测领域则借鉴其层次化数据结构，开发了针对罕见心律失常事件的监测算法。更有研究团队受其聚类分析启发，提出了基于拓扑数据分析的心律失常亚型发现框架，这些衍生工作共同推动了计算心电学从数据驱动到知识发现的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集