OpenECG

Name: OpenECG
Creator: 江西医学院第一附属医院，南昌大学
Published: 2025-03-02 11:26:14
License: 暂无描述

arXiv2025-03-02 更新2025-03-06 收录

下载链接：

http://arxiv.org/abs/2503.00711v1

下载链接

链接失效反馈

官方服务：

资源简介：

OpenECG是一个包含来自九个中心共120万份12导联ECG记录的大型基准数据集，用于评估基于公开数据集训练的ECG基础模型。该数据集整合了多个公开可用的12导联ECG数据集，涵盖了483,837名患者的1,233,337份ECG记录，包括临床诊断标注和自监督学习的未标注原始信号。

OpenECG is a large benchmark dataset consisting of 1.2 million 12-lead ECG records from nine medical centers, which is designed for evaluating ECG foundation models trained on public datasets. This dataset integrates multiple publicly available 12-lead ECG datasets, encompassing 1,233,337 ECG records from 483,837 patients, including both clinically diagnostic annotations and unannotated raw signals for self-supervised learning.

提供机构：

江西医学院第一附属医院，南昌大学

创建时间：

2025-03-02

搜集汇总

数据集介绍

构建方式

OpenECG数据集的构建过程涉及了从全球九个中心收集的120万条12导联心电图记录。这些数据集涵盖了从483,837名患者那里收集的1,233,337条心电图记录，包括已标注的临床诊断和未标注的原始信号，以供自监督学习使用。数据预处理包括对多个心电图信号数据集进行预处理，以形成统一的实验框架。同时，采用了一种五折交叉验证策略来确保模型的鲁棒性评价，并避免过拟合。此外，还使用了时间掩码和导联掩码技术，以模拟真实世界中的信号中断和数据丢失情况，从而鼓励模型学习能够有效处理缺失或损坏数据的鲁棒表示。

特点

OpenECG数据集的特点在于其规模庞大、多中心、多样性。该数据集涵盖了来自全球九个中心的1,233,337条12导联心电图记录，包括已标注的临床诊断和未标注的原始信号。这使得OpenECG成为评估心电图基础模型（ECG-FMs）的有效基准，并有助于研究模型在不同人口和医疗环境中的泛化能力。此外，数据预处理过程中采用的技术，如时间掩码和导联掩码，进一步增强了模型的鲁棒性，使其能够有效处理真实世界中的信号中断和数据丢失情况。

使用方法

OpenECG数据集可用于评估心电图基础模型（ECG-FMs）的性能，并研究不同自监督学习方法（SimCLR、BYOL、MAE）对模型泛化能力的影响。研究人员可以利用OpenECG进行五折交叉验证实验，评估模型在不同数据集上的表现，并观察不同自监督学习方法的效果。此外，OpenECG还可以用于研究训练数据规模对模型性能的影响，以及数据特征和自监督学习策略对模型泛化的影响。通过这些研究，可以帮助研究人员更好地理解心电图基础模型的发展和应用，并推动心血管疾病自动诊断研究的发展。

背景与挑战

背景概述

心电图（ECG）是诊断心血管疾病（CVDs）的基本工具，而CVDs是全球死亡率的主要原因之一。心电图可以辅助医生检测心律失常、心肌梗死和其他心脏疾病。然而，心电图在临床实践中的有效利用面临一些挑战：首先，由于培训水平和经验的不同，不同心脏病专家的诊断准确性可能会有显著差异。其次，连续的心电图监测会产生大量数据，使得心脏病专家在合理的时间内手动分析和解释这些数据变得困难。人工智能（AI）为解决这些挑战提供了有希望的解决方案。特别是深度学习的最新进展，已经在心电图分析自动化、提高诊断准确性和减轻医生负担方面显示出巨大的潜力。本研究介绍的OpenECG数据集是一个包含来自九个中心的大规模心电图记录基准，用于评估在公共数据集上训练的心电图基础模型（ECG-FMs）。该研究探讨了三种自监督学习方法（SimCLR、BYOL、MAE）与ResNet-50和Vision Transformer架构的结合，并通过leave-one-dataset-out实验和数据缩放分析来评估模型泛化能力。结果表明，在多样化数据集上预训练可以显著提高模型的泛化能力，其中BYOL和MAE优于SimCLR，突出了特征一致性和生成式学习相对于对比学习方法的有效性。数据缩放实验表明，对于BYOL和MAE，性能在总数据的60-70%时达到饱和，而SimCLR则需要更多数据。这些发现表明，公开可用的心电图数据可以与专有数据集相媲美，甚至超越它们，在训练健壮的心电图基础模型方面开辟了道路，为可扩展的、临床意义的心电图分析铺平了道路。

当前挑战

该数据集的研究背景包括心电图分析在临床实践中的挑战、人工智能在心电图分析中的应用、以及心电图基础模型（ECG-FMs）的概念。OpenECG数据集的创建旨在解决心电图分析中存在的诊断准确性和数据分析效率问题。该数据集由来自九个中心的120万条12导联心电图记录组成，旨在评估ECG-FMs的泛化能力。该数据集的创建时间未在论文中明确提及，但可以推断是在论文发表之前不久。主要研究人员包括来自江西医学院第一附属医院放射科、南昌大学信息工程学院和乔治亚理工学院生物医学工程系的学者。核心研究问题是如何通过自监督学习方法训练健壮的心电图基础模型，以及如何评估这些模型的泛化能力。该数据集对相关领域的影响力在于，它提供了一个大规模的、多中心的心电图数据集，用于评估和改进心电图分析模型，并推动了人工智能在心血管疾病诊断中的应用。该数据集相关的挑战包括：1) 如何在多样化数据集上训练心电图基础模型，以提高模型的泛化能力；2) 如何评估心电图基础模型的泛化能力，尤其是在不同中心和患者群体之间的泛化能力；3) 如何选择最优的自监督学习方法，以提高心电图基础模型的性能。

常用场景

经典使用场景

OpenECG数据集作为一个大规模的基准，用于评估在公开数据集上训练的心电图基础模型（ECG-FMs）。该数据集包含了来自九个中心的120万条12导联心电图记录，通过leave-one-dataset-out实验和数据缩放分析来评估模型泛化能力。研究结果揭示了在多样化数据集上预训练可以显著提高泛化能力，其中BYOL和MAE的表现优于SimCLR，突出了特征一致性生成学习相对于对比方法的功效。数据缩放实验表明，对于BYOL和MAE，性能在达到总数据的60-70%时趋于饱和，而SimCLR则需要更多的数据。这些发现证明了公开可用的心电图数据可以匹配或超越专有数据集，在训练鲁棒的心电图-FMs方面，为可扩展的、临床意义的AI驱动的心电图分析铺平了道路。

实际应用

OpenECG数据集在实际应用场景中具有广泛的应用潜力。首先，该数据集可以用于训练和评估心电图基础模型，从而提高心电图分析的准确性和效率。其次，该数据集可以用于开发基于心电图的人工智能应用程序，如心电图异常检测、心脏疾病预测等。此外，该数据集还可以用于研究和开发心电图分析算法，从而推动心电图分析领域的创新和发展。OpenECG数据集的实际应用场景还包括医疗保健、疾病预防、健康管理等。

衍生相关工作

OpenECG数据集衍生了一系列相关的经典工作。例如，基于OpenECG数据集，研究人员可以开展心电图分析算法的研究和开发，从而提高心电图分析的准确性和效率。此外，该数据集还可以用于训练和评估心电图基础模型，从而推动心电图分析领域的发展和应用。此外，基于OpenECG数据集的研究还可以为心电图分析领域提供新的研究方向和方法，从而推动该领域的创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集