ECG-Grounding

github2025-03-18 更新2025-03-19 收录

下载链接：

https://github.com/lanxiang1017/GEM

下载链接

链接失效反馈

官方服务：

资源简介：

ECG-Grounding数据集是一个用于心电图（ECG）时间序列和图像的多模态数据集，旨在通过结合时间序列信号和视觉ECG表示来增强多模态大语言模型（MLLM）的解释能力。该数据集链接诊断到可测量的参数（如QRS/PR间隔），并支持特征基础的分析和证据驱动的推理。

The ECG-Grounding dataset is a multimodal dataset for electrocardiogram (ECG) time series and images. It aims to enhance the interpretability of multimodal large language models (MLLMs) by integrating time-series signals and visual ECG representations. This dataset links diagnoses to measurable parameters (e.g., QRS/PR intervals), and supports feature-based analysis and evidence-driven reasoning.

创建时间：

2025-03-11

原始信息汇总

GEM数据集概述

数据集基本信息

名称: GEM (Grounded ECG Understanding)
领域: 医疗健康/心电图(ECG)分析
类型: 多模态数据集(时间序列数据+图像数据+文本标注)
发布年份: 2025年
维护者: 新加坡国立大学、北京大学人民医院等机构研究人员

核心特点

多模态协同: 同时包含ECG时间序列信号和12导联ECG图像
细粒度标注: 提供诊断结论与波形特征(如QRS/PR间期)的关联标注
临床对齐: 模拟临床医生诊断过程，支持特征驱动分析和证据推理

数据组成

ECG-Grounding-30k: 包含30,000条细粒度标注数据
数据来源:
- MIMIC-IV
- PTB-XL
- Code-15%
- CPSC 2018
- CSN
- G12E
图像数据: 包含生成的ECG图像(mimic_gen)和原始ECG图像

数据格式

时间序列数据: 存储在./data/ecg_timeseries目录下
图像数据: 存储在./data/ecg_images目录下
标注数据: JSON格式(ECG_Grounding_30k.json)

应用场景

多模态大语言模型(MLLM)训练
心电图自动解释系统开发
临床决策支持系统研发

获取方式

主仓库: GitHub
数据集下载: Hugging Face
论文: Arxiv

引用格式

bibtex @misc{lan2025gemempoweringmllmgrounded, title={GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images}, author={Xiang Lan and Feng Wu and Kai He and Qinghao Zhao and Shenda Hong and Mengling Feng}, year={2025}, eprint={2503.06073}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.06073}, }

搜集汇总

数据集介绍

构建方式

ECG-Grounding数据集的构建基于多模态大语言模型（MLLM）的创新框架GEM，该框架通过双编码器架构提取心电时间序列和12导联心电图的互补特征，并利用跨模态对齐技术实现多模态理解。数据集的核心创新在于知识引导的指令生成，生成了高粒度的心电诊断数据，将诊断结果与可测量的波形参数（如QRS/PR间期）进行关联。数据来源包括MIMIC-IV、PTB-XL等多个公开心电数据库，确保了数据的多样性和临床相关性。

特点

ECG-Grounding数据集的特点在于其多模态融合能力，将时间序列信号与视觉心电图像相结合，提供了丰富的上下文信息。数据集不仅包含心电波形的时间序列数据，还包含12导联心电图的图像数据，并通过文本注释将诊断结果与具体的波形特征关联，增强了诊断的可解释性。此外，数据集还引入了基于临床任务的评估基准，旨在全面评估模型在真实临床场景中的表现。

使用方法

使用ECG-Grounding数据集时，首先需从Hugging Face平台下载数据集，并按照指定目录结构组织数据。数据准备完成后，可通过GEM框架进行模型训练和评估。训练过程中，用户需加载预训练的心电编码器和多模态大语言模型，并通过提供的脚本进行训练。评估阶段，用户需生成诊断解释并处理输出结果，最终通过GPT评估报告获取模型性能评分。数据集的使用流程清晰，适合用于心电诊断领域的研究与开发。

背景与挑战

背景概述

ECG-Grounding数据集由新加坡国立大学、北京大学人民医院和北京大学的科研团队于2025年推出，旨在解决多模态大语言模型（MLLM）在心电图（ECG）自动解释中的关键问题。该数据集首次将ECG时间序列、12导联ECG图像与文本相结合，通过双编码器框架、跨模态对齐和知识引导的指令生成，实现了基于特征的ECG分析和证据驱动的推理。ECG-Grounding的推出不仅提升了ECG解释的预测性能、可解释性和证据关联性，还为临床应用的落地提供了有力支持。

当前挑战

ECG-Grounding数据集在构建过程中面临两大挑战。其一，如何有效融合时间序列信号与视觉ECG表征，以实现多模态协同理解。其二，如何在诊断过程中将结果与具体的波形证据（如QRS/PR间期）关联，以增强模型的可解释性。此外，数据集的构建还需克服多源ECG数据的异构性，确保数据的一致性和高质量标注。这些挑战的解决不仅推动了ECG自动解释技术的发展，也为多模态模型在医疗领域的应用提供了新的研究方向。

常用场景

经典使用场景

ECG-Grounding数据集在医学领域中被广泛应用于心电图（ECG）的自动化解释和分析。通过结合时间序列信号和视觉ECG图像，该数据集能够支持多模态大语言模型（MLLM）进行特征驱动的分析和证据推理，从而提升心电图诊断的准确性和可解释性。经典的使用场景包括对12导联心电图的多模态理解，帮助医生更精确地识别心脏疾病相关的波形特征，如QRS/PR间期等。

衍生相关工作

ECG-Grounding数据集的发布推动了多模态心电图分析领域的研究进展。基于该数据集，研究者开发了GEM模型，进一步提升了多模态大语言模型在心电图理解中的表现。此外，该数据集还启发了诸如PULSE和ECG-Chat等经典工作，这些模型在ECG时间序列分析和图像理解方面取得了显著成果，为后续研究提供了重要的技术基础和参考。

数据集最近研究