ECG Image and Signal Dataset Generator
收藏github2025-06-11 更新2025-06-12 收录
下载链接:
https://github.com/rezakarbasi/ecg-image-and-signal-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该仓库提供了一个开源Python框架,用于从信号生成可定制的大规模合成ECG图像。包含多个数据集,支持基于深度学习的ECG数字化、导联和导联名称检测以及波形分割研究。数据集包括正常和重叠版本的波形分割数据,适用于YOLO和U-Net等深度学习模型。
This repository provides an open-source Python framework for generating customizable large-scale synthetic ECG images from signals. It includes multiple datasets and supports research on ECG digitization, lead detection, and lead name identification based on deep learning. The dataset contains waveform segmentation data in normal and overlapping versions, suitable for deep learning models such as YOLO and U-Net.
创建时间:
2025-05-12
原始信息汇总
ECG图像与信号数据集概述
数据集简介
- 提供开源Python框架,用于生成可定制的大规模合成ECG图像
- 支持深度学习研究:ECG数字化、导联及导联名称检测、波形分割
- 波形分割数据集提供两种版本:正常版和重叠版(重叠版中相邻导联信号叠加到目标导联,但掩码保持清洁)
数据集特性
- 生成多种布局的逼真ECG打印样式图像:
3x1、3x4、6x2、12x1 - 支持三种标注类型:
- 导联区域检测(YOLO格式)
- 导联名称检测(YOLO格式)
- 像素级分割(支持正常和重叠信号)
- 兼容YOLO和U-Net等深度学习模型
- 包含配对的图像、掩码和时间序列数据
包含数据集
| 任务类型 | 数据格式/标注 | 样本量 |
|---|---|---|
| ECG数字化 | ECG图像+真实信号 | 2,000 |
| 导联及名称检测 | 边界框(YOLO格式) | 2,000 |
| 分割(正常版) | 裁剪导联+掩码+真实信号 | 20,000 |
| 分割(重叠版) | 重叠导联+清洁掩码 | 102 |
数据生成流程
- 安装依赖:
pip install -r requirements.txt - 准备原始数据:下载PTB-XL WFDB文件至
./dataset/signal_dataset/ - 运行生成脚本: bash python make_dataset.py --sample_each_lead_train 5 --sample_each_lead_val 2 --sample_each_lead_test 2 --row_height 3
输出目录结构
- detection-dataset(检测数据集)
- digitization-dataset(数字化数据集)
- overlap-dataset(重叠数据集)
- with-overlap(含重叠)
- without-overlap(无重叠)
- segmentation(分割数据集)
- logs.json
引用信息
论文: To be added after publication.
数据集:
Rahimi, M., Karbasi, R., & Vahabie, A. H. (2025). An Open-Source Python Framework and Synthetic ECG Image Datasets for Digitization, Lead and Lead Name Detection, and Overlapping Signal Segmentation. University of Tehran.
数据集地址:https://doi.org/10.5281/zenodo.15484519
联系方式
- Masoud Rahimi: mr.rahimi39@ut.ac.ir
- Reza Karbasi: arzkarbasi@gmail.com
搜集汇总
数据集介绍

构建方式
该数据集通过开源Python框架构建,采用PTB-XL数据库中的原始WFDB信号文件作为数据源,运用参数化方法生成可定制的合成心电图图像。构建过程支持多种临床常见布局(3x1、3x4等),通过make_dataset.py脚本实现数据增强,可调节采样频率、网格显示等参数,并独创性地设计了信号重叠版本,在目标导联上叠加相邻导联信号的同时保持掩模纯净,为波形分割研究提供独特挑战。
特点
数据集包含四大特色模块:数字化模块提供2000组图像-信号配对数据;检测模块采用YOLO格式标注导联区域与名称;分割模块包含2万组常规数据及102组重叠信号数据,后者通过保持掩模清洁的特性支持U-Net模型训练。所有数据均配套时间序列原始信号,支持从图像到信号的端到端研究,且生成的打印风格心电图具有临床可解释的网格线与导联标识。
使用方法
使用前需通过pip安装依赖库并下载PTB-XL原始数据。通过命令行参数控制生成过程,如--sample_each_lead_train设定训练集采样次数,--row_height调整行高。生成的数据按任务类型自动分类存储,检测数据集包含images/labels目录,分割数据集则细分image/mask/signal子目录。重叠数据集特别提供with-overlap和without-overlap双版本,研究者可直接加载BMP/PNG图像与JSON格式信号进行多模态分析。
背景与挑战
背景概述
ECG Image and Signal Dataset Generator是由德黑兰大学的Rahimi、Karbasi和Vahabie等人于2025年推出的开源Python框架,旨在生成可定制的大规模合成心电图(ECG)图像数据集。该数据集专注于支持深度学习在心电图数字化、导联及导联名称检测以及波形分割等领域的研究。通过提供多种布局的ECG图像和详尽的标注,该数据集填补了现有研究中合成ECG数据不足的空白,为医疗图像分析领域提供了重要的数据支持。其核心研究问题在于如何通过合成数据提升模型在复杂ECG图像任务中的泛化能力,相关成果已发表在arXiv预印本平台,并通过Zenodo开放访问。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题方面,ECG图像的复杂性和多样性使得数字化和分割任务极具挑战性,尤其是处理重叠信号时,如何准确分离目标导联的波形成为关键难题;构建过程方面,生成逼真的合成ECG图像需克服信号叠加带来的噪声干扰,同时确保标注数据的精确性,这对数据生成算法的鲁棒性和灵活性提出了较高要求。此外,数据集规模的扩展与多样化布局的适配也是构建过程中需要解决的技术难点。
常用场景
经典使用场景
在心血管疾病诊断领域,心电图(ECG)信号的分析一直是临床医学和生物医学工程研究的核心。该数据集通过生成可定制的大规模合成ECG图像,为深度学习模型提供了丰富的训练素材。其经典使用场景包括ECG信号的数字化处理、导联区域检测以及波形分割,特别是在处理重叠信号时,能够为U-Net等分割网络提供清晰的掩码标注,显著提升了模型在复杂场景下的性能表现。
实际应用
在医疗AI落地场景中,该数据集支撑了从纸质ECG报告数字化到智能诊断系统的全流程开发。其生成的合成图像可模拟真实临床环境中因导联错位或信号叠加导致的噪声,使得训练的模型能直接应用于便携式心电设备或远程医疗平台。例如,基于该数据集开发的导联识别算法已成功集成到移动端APP,实现心电图拍摄时的自动导联校准。
衍生相关工作
该数据集催生了多个具有影响力的衍生研究。在ECG图像分割领域,研究者利用其重叠信号特性提出了双分支注意力网络,显著提升了波形边界识别精度;在跨模态分析方向,有团队结合其同步提供的时域信号与图像数据,开发了端到端的信号质量评估模型。相关成果已发表于《IEEE生物医学工程汇刊》等顶级期刊,形成了一条完整的技术演进路径。
以上内容由遇见数据集搜集并总结生成



