ECG-Grounding
收藏github2025-03-18 更新2025-03-19 收录
下载链接:
https://github.com/lanxiang1017/GEM
下载链接
链接失效反馈官方服务:
资源简介:
ECG-Grounding数据集是一个用于心电图(ECG)时间序列和图像的多模态数据集,旨在通过结合时间序列信号和视觉ECG表示来增强多模态大语言模型(MLLM)的解释能力。该数据集链接诊断到可测量的参数(如QRS/PR间隔),并支持特征基础的分析和证据驱动的推理。
The ECG-Grounding dataset is a multimodal dataset for electrocardiogram (ECG) time series and images. It aims to enhance the interpretability of multimodal large language models (MLLMs) by integrating time-series signals and visual ECG representations. This dataset links diagnoses to measurable parameters (e.g., QRS/PR intervals), and supports feature-based analysis and evidence-driven reasoning.
创建时间:
2025-03-11
原始信息汇总
GEM数据集概述
数据集基本信息
- 名称: GEM (Grounded ECG Understanding)
- 领域: 医疗健康/心电图(ECG)分析
- 类型: 多模态数据集(时间序列数据+图像数据+文本标注)
- 发布年份: 2025年
- 维护者: 新加坡国立大学、北京大学人民医院等机构研究人员
核心特点
- 多模态协同: 同时包含ECG时间序列信号和12导联ECG图像
- 细粒度标注: 提供诊断结论与波形特征(如QRS/PR间期)的关联标注
- 临床对齐: 模拟临床医生诊断过程,支持特征驱动分析和证据推理
数据组成
- ECG-Grounding-30k: 包含30,000条细粒度标注数据
- 数据来源:
- MIMIC-IV
- PTB-XL
- Code-15%
- CPSC 2018
- CSN
- G12E
- 图像数据: 包含生成的ECG图像(mimic_gen)和原始ECG图像
数据格式
- 时间序列数据: 存储在
./data/ecg_timeseries目录下 - 图像数据: 存储在
./data/ecg_images目录下 - 标注数据: JSON格式(
ECG_Grounding_30k.json)
应用场景
- 多模态大语言模型(MLLM)训练
- 心电图自动解释系统开发
- 临床决策支持系统研发
获取方式
- 主仓库: GitHub
- 数据集下载: Hugging Face
- 论文: Arxiv
引用格式
bibtex @misc{lan2025gemempoweringmllmgrounded, title={GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images}, author={Xiang Lan and Feng Wu and Kai He and Qinghao Zhao and Shenda Hong and Mengling Feng}, year={2025}, eprint={2503.06073}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.06073}, }
搜集汇总
数据集介绍

构建方式
ECG-Grounding数据集的构建基于多模态大语言模型(MLLM)的创新框架GEM,该框架通过双编码器架构提取心电时间序列和12导联心电图的互补特征,并利用跨模态对齐技术实现多模态理解。数据集的核心创新在于知识引导的指令生成,生成了高粒度的心电诊断数据,将诊断结果与可测量的波形参数(如QRS/PR间期)进行关联。数据来源包括MIMIC-IV、PTB-XL等多个公开心电数据库,确保了数据的多样性和临床相关性。
特点
ECG-Grounding数据集的特点在于其多模态融合能力,将时间序列信号与视觉心电图像相结合,提供了丰富的上下文信息。数据集不仅包含心电波形的时间序列数据,还包含12导联心电图的图像数据,并通过文本注释将诊断结果与具体的波形特征关联,增强了诊断的可解释性。此外,数据集还引入了基于临床任务的评估基准,旨在全面评估模型在真实临床场景中的表现。
使用方法
使用ECG-Grounding数据集时,首先需从Hugging Face平台下载数据集,并按照指定目录结构组织数据。数据准备完成后,可通过GEM框架进行模型训练和评估。训练过程中,用户需加载预训练的心电编码器和多模态大语言模型,并通过提供的脚本进行训练。评估阶段,用户需生成诊断解释并处理输出结果,最终通过GPT评估报告获取模型性能评分。数据集的使用流程清晰,适合用于心电诊断领域的研究与开发。
背景与挑战
背景概述
ECG-Grounding数据集由新加坡国立大学、北京大学人民医院和北京大学的科研团队于2025年推出,旨在解决多模态大语言模型(MLLM)在心电图(ECG)自动解释中的关键问题。该数据集首次将ECG时间序列、12导联ECG图像与文本相结合,通过双编码器框架、跨模态对齐和知识引导的指令生成,实现了基于特征的ECG分析和证据驱动的推理。ECG-Grounding的推出不仅提升了ECG解释的预测性能、可解释性和证据关联性,还为临床应用的落地提供了有力支持。
当前挑战
ECG-Grounding数据集在构建过程中面临两大挑战。其一,如何有效融合时间序列信号与视觉ECG表征,以实现多模态协同理解。其二,如何在诊断过程中将结果与具体的波形证据(如QRS/PR间期)关联,以增强模型的可解释性。此外,数据集的构建还需克服多源ECG数据的异构性,确保数据的一致性和高质量标注。这些挑战的解决不仅推动了ECG自动解释技术的发展,也为多模态模型在医疗领域的应用提供了新的研究方向。
常用场景
经典使用场景
ECG-Grounding数据集在医学领域中被广泛应用于心电图(ECG)的自动化解释和分析。通过结合时间序列信号和视觉ECG图像,该数据集能够支持多模态大语言模型(MLLM)进行特征驱动的分析和证据推理,从而提升心电图诊断的准确性和可解释性。经典的使用场景包括对12导联心电图的多模态理解,帮助医生更精确地识别心脏疾病相关的波形特征,如QRS/PR间期等。
衍生相关工作
ECG-Grounding数据集的发布推动了多模态心电图分析领域的研究进展。基于该数据集,研究者开发了GEM模型,进一步提升了多模态大语言模型在心电图理解中的表现。此外,该数据集还启发了诸如PULSE和ECG-Chat等经典工作,这些模型在ECG时间序列分析和图像理解方面取得了显著成果,为后续研究提供了重要的技术基础和参考。
数据集最近研究
最新研究方向
在医疗健康领域,心电图(ECG)的自动解读一直是研究的热点。随着多模态大语言模型(MLLMs)的发展,ECG-Grounding数据集的引入标志着该领域的一个重要进步。该数据集通过整合时间序列信号、12导联心电图图像和文本,实现了基于特征的分析和证据驱动的推理,极大地提升了模型的预测性能、解释能力和接地性。特别是在GEM模型的框架下,通过双编码器架构提取互补的时间序列和图像特征,以及跨模态对齐和知识引导的指令生成,使得模型能够更精确地链接诊断与可测量的心电图参数,如QRS/PR间期。这一创新不仅推动了心电图自动解读技术的发展,也为临床实践提供了更为可靠和透明的工具,具有重要的临床应用价值和科研意义。
以上内容由遇见数据集搜集并总结生成



