CODE-II
收藏arXiv2025-11-20 更新2025-11-21 收录
下载链接:
https://github.com/antonior92/automatic-ecg-diagnosis
下载链接
链接失效反馈官方服务:
资源简介:
CODE-II是由巴西米纳斯吉拉斯州远程医疗网络构建的大规模心电图数据集,包含273万条12导联心电图记录,覆盖209万成年患者。该数据集以66种临床诊断类别为核心特征,所有数据均经心脏病专家依据标准化流程标注,来源涵盖初级保健中心至急诊场景的真实医疗环境。其创建过程融合了国际指南与地域性流行病学特点,通过数字化流程确保标注一致性。该资源旨在推动人工智能在心电分析领域的发展,特别聚焦于心血管疾病筛查、多标签分类及临床决策支持等关键应用场景。
CODE-II is a large-scale electrocardiogram (ECG) dataset constructed by the Telemedicine Network of Minas Gerais, Brazil. It comprises 2.73 million 12-lead ECG records from 2.09 million adult patients. The dataset takes 66 clinical diagnostic categories as its core features; all data were annotated by cardiologists following standardized procedures, with sources covering real-world clinical settings ranging from primary care centers to emergency departments. Its development integrates international guidelines and regional epidemiological characteristics, ensuring annotation consistency through standardized digital workflows. This resource aims to advance the development of artificial intelligence in the field of ECG analysis, with a particular focus on key application scenarios such as cardiovascular disease screening, multi-label classification, and clinical decision support.
提供机构:
米纳斯吉拉斯联邦大学(巴西)、乌普萨拉大学(瑞典)、格拉斯哥大学(苏格兰)
创建时间:
2025-11-20
原始信息汇总
自动心电图诊断数据集概述
数据集基本信息
- 项目名称:Automatic ECG diagnosis using a deep neural network
- 核心功能:用于训练和测试心电图自动分类深度神经网络的脚本和模块
- 关联论文:Automatic diagnosis of the 12-lead ECG using a deep neural network
模型架构
- 模型类型:残差神经网络
- 输入维度:(N, 4096, 12)
- 输出维度:(N, 6)
- 输入要求:
- 4096个点的心电图追踪信号,采样率400Hz
- 信号长度不足时用零填充至4096点
- 12个导联顺序:DI, DII, DIII, AVR, AVL, AVF, V1, V2, V3, V4, V5, V6
- 信号需以32位浮点数表示,单位为1e-4V
诊断类别
模型输出6种心律失常的概率预测:
- 1度房室传导阻滞
- 右束支传导阻滞
- 左束支传导阻滞
- 窦性心动过缓
- 心房颤动
- 窦性心动过速
数据集组成
- 测试数据集:https://doi.org/10.5281/zenodo.3625006
- 部分训练数据:https://doi.org/10.5281/zenodo.4916206
- 完整训练数据:https://doi.org/10.17044/scilifelab.15169716
预训练模型
- 模型权重下载:https://doi.org/10.5281/zenodo.3625017
- 备用下载链接:https://www.dropbox.com/s/5ar6j8u9v9a0rmh/model.zip?dl=0
主要脚本文件
train.py:神经网络训练脚本predict.py:神经网络预测脚本model.py:神经网络架构定义generate_figures_and_tables.py:生成论文图表脚本
技术依赖
- 主要框架:TensorFlow 2.2
- 编程语言:Python 3
- 备选实现:PyTorch版本可在ecg-age-prediction仓库获取
搜集汇总
数据集介绍

构建方式
在心血管疾病精准诊疗需求日益增长的背景下,CODE-II数据集依托巴西米纳斯吉拉斯州远程医疗网络(TNMG)构建,涵盖2019至2022年间采集的273万余份12导联心电图。通过标准化诊断流程,由认证心脏病专家基于美国心脏协会与巴西心电图报告指南,对每份心电图标注66种临床诊断类别。数据经过严格质量控制,包括患者身份去重、信号完整性校验及儿科病例排除,最终形成覆盖209万成年患者的真实世界数据集。
特点
该数据集的核心价值在于其临床导向的标注体系,66种诊断类别涵盖起搏器节律至心肌缺血等全谱系异常,其中49.9%为正常心电图,13.3%呈现非特异性ST-T改变。数据集呈现典型的多标签特性,超34万份心电图存在共现异常,真实反映临床复杂性。其独特优势包括:提供经多位专家背对背标注的8475例测试集,以及面向社区开放的1.5万例基准子集,为算法评估提供高质量标准。
使用方法
研究者可通过预训练的深度残差网络架构开展迁移学习,该模型在CODE-II上训练后于PTB-XL和CPSC 2018外部基准测试中展现卓越泛化能力。使用时应遵循多标签分类框架,采用基于F1分数最大化的类别特定阈值策略。对于临床部署,建议根据应用场景调整敏感度与特异度平衡——高精度阈值适用于常规筛查以减少假阳性,而高召回阈值则适用于ST段抬高型心肌梗死等危急病症的优先识别。
背景与挑战
背景概述
心血管疾病是全球主要死因,心电图作为非侵入性诊断工具在临床实践中具有重要价值。CODE-II数据集由巴西米纳斯吉拉斯州远程医疗网络于2019年至2022年间创建,包含来自209万余名患者的273万份12导联心电图。该数据集由安东尼奥·里贝罗教授团队主导开发,其核心突破在于建立了包含66个临床诊断类别的标准化标注体系,这些类别经心脏专家论证并应用于日常远程医疗实践。作为目前规模最大的真实世界心电图数据库之一,CODE-II通过提供经过专业审核的高质量标注数据,显著推动了人工智能在心电分析领域的发展,为自动化诊断模型训练提供了重要基础。
当前挑战
在解决心电图自动诊断这一核心问题时,CODE-II面临多重挑战:首先需应对66种诊断类别的高度不平衡分布,其中罕见病症的样本量有限导致模型训练困难;其次需处理多标签分类任务中不同异常模式的复杂共现关系。在数据构建过程中,主要挑战包括:整合不同采集设备产生的异构信号格式,确保来自1400多个医疗机构的数万例心电图数据质量统一;通过专家共识机制建立标准化诊断体系时,需平衡国际标准与巴西地区特定流行病学特征;此外,在保护患者隐私的前提下实现跨机构数据合规共享亦构成重要挑战。
常用场景
经典使用场景
在心血管疾病诊断领域,CODE-II数据集凭借其大规模、高质量的12导联心电图标注数据,已成为深度学习模型训练与验证的核心资源。该数据集最经典的应用场景在于开发多标签分类算法,能够同时识别66种临床相关的心电图异常模式。基于残差卷积神经网络架构的模型在该数据集上展现出卓越性能,通过端到端学习实现了从原始信号到诊断标签的精准映射,为自动化心电图分析设立了新的技术标杆。
衍生相关工作
该数据集催生了多项具有影响力的衍生研究,包括在PTB-XL和CPSC 2018等外部基准测试中验证模型泛化性能的跨数据集评估工作。基于CODE-II预训练的模型在少样本学习场景下表现出色,为ECG-FM、HeartLang等心电图基础模型的发展提供了重要借鉴。此外,数据集特有的标准化诊断分类体系已被多个国际研究团队采纳,推动了心电图诊断术语的统一化和心电图人工智能分析的可重复性研究。
数据集最近研究
最新研究方向
在心血管疾病智能诊断领域,CODE-II数据集凭借其大规模真实世界心电图数据和标准化诊断体系,正推动人工智能在心电分析中的前沿探索。当前研究聚焦于多标签分类模型的优化与泛化能力验证,通过预训练技术在PTB-XL、CPSC 2018等外部基准测试中展现出卓越的迁移性能。该数据集构建的66类临床诊断标签体系,结合巴西 telehealth 网络的流行病学特征,为罕见心电图异常模式的识别提供了重要数据基础。相关研究进一步揭示了数据规模与模型性能的尺度律关系,为资源受限场景下的少样本学习提供了实证依据。这些进展不仅强化了AI在远程心电监护中的临床应用潜力,更通过公开子集CODE-II-open促进了全球科研协作,对实现心血管疾病早期筛查的普惠化具有里程碑意义。
相关研究论文
- 1CODE-II: A large-scale dataset for artificial intelligence in ECG analysis米纳斯吉拉斯联邦大学(巴西)、乌普萨拉大学(瑞典)、格拉斯哥大学(苏格兰) · 2025年
以上内容由遇见数据集搜集并总结生成



