Heartcare-220K
收藏github2025-06-10 更新2025-06-14 收录
下载链接:
https://github.com/DCDmllm/Heartcare-Suite
下载链接
链接失效反馈官方服务:
资源简介:
我们构建了Heartcare-220K,一个全面、细粒度的多模态ECG指令数据集,支持疾病诊断、波形形态分析、心律解释、报告生成等关键任务的统一建模。它结合了两个来源:公开的PTB-XL数据集,包含21,799个12导联ECG信号,标注了179个SCP-ECG类别;以及来自顶级医院的12,170个ECG图像,包含结构化报告、扫描痕迹、临床结论和去标识化的元数据,极大地丰富了模态和标签的多样性。
We have constructed the Heartcare-220K, a comprehensive and granular multimodal ECG instruction dataset that supports unified modeling for critical tasks such as disease diagnosis, waveform morphology analysis, arrhythmia interpretation, and report generation. It is a combination of two sources: the publicly available PTB-XL dataset, which contains 21,799 12-lead ECG signals annotated with 179 SCP-ECG categories; and 12,170 ECG images from top-tier hospitals, including structured reports, scan痕迹, clinical conclusions, and de-identified metadata, greatly enriching the diversity of modalities and labels.
创建时间:
2025-06-09
原始信息汇总
Heartcare Suite 数据集概述
数据集基本信息
- 名称: Heartcare Suite
- 类型: 多模态心电图(ECG)理解框架
- 主要组件:
- Heartcare-220K (数据集)
- Heartcare-Bench (基准测试)
- HeartcareGPT (模型)
Heartcare-220K 数据集详情
- 数据规模: 220,000条
- 数据类型: 多模态ECG数据
- 数据来源:
- PTB-XL数据集: 21,799条12导联ECG信号,标注179个SCP-ECG类别
- 医院数据: 12,170张ECG图像,包含结构化报告
- 标注方式: 使用HeartAgent多智能体引擎进行结构化标注
- 支持任务:
- 疾病诊断
- 波形形态分析
- 节律解释
- 报告生成
Heartcare-Bench 基准测试
- 评估维度:
- 诊断(Diagnostic)
- 形态(Form)
- 节律(Rhythm)
- 任务类型:
- 封闭式问答
- 开放式问答
- 报告生成
- 信号重建
- 趋势预测
HeartcareGPT 模型
- 核心技术: 双向ECG抽象标记化(Beat)
- 特点:
- 层次化结构感知的离散编码框架
- 通过向量量化将原始ECG信号压缩为标记序列
- 支持端到端跨模态推理(信号、文本、图像)
相关论文
- 论文链接: https://arxiv.org/abs/2506.05831
搜集汇总
数据集介绍

构建方式
在心血管疾病诊断领域,Heartcare-220K数据集的构建采用了多模态融合的创新方法。该数据集整合了来自公开PTB-XL数据库的21,799条12导联心电图信号,以及来自顶级医院的12,170份包含结构化报告的心电图图像。通过自主研发的HeartAgent多智能体标注引擎,采用自下而上的流程将异构心电数据转化为结构化监督数据,确保了标注一致性并生成高质量的指令式问答对,显著提升了数据规模和质量。
特点
作为心电智能诊断领域的重要资源,Heartcare-220K展现出三大核心特征:多模态性融合了原始信号与医学图像,细粒度标注覆盖179种SCP-ECG分类标准,任务多样性支持疾病诊断、波形形态分析和节律判读等关键任务。数据集通过精心设计的结构化报告体系,将扫描轨迹、临床结论和脱敏元数据有机结合,为医学多模态大模型提供了丰富的训练素材。
使用方法
该数据集的使用遵循端到端的多任务学习范式,研究人员可通过统一建模框架同时处理信号分类、报告生成等任务。原始心电信号经双向ECG抽象标记化(BEAT)技术转化为语义丰富的离散标记,与文本、图像模态数据共同输入HeartcareGPT模型。使用建议包括:基于Heartcare-Bench进行系统性评估,利用多智能体引擎扩展标注,以及结合双向扩散机制优化信号重建任务。
背景与挑战
背景概述
Heartcare-220K数据集由浙江大学联合阿里巴巴、上海交通大学新华医院及新加坡国立大学的研究团队共同构建,旨在推动心电图(ECG)多模态理解的精细化研究。该数据集整合了PTB-XL公开数据集与顶级医院的12,170份ECG图像报告,形成覆盖疾病诊断、波形形态分析和节律解释等多任务的22万条结构化数据。通过自主研发的HeartAgent多智能体标注引擎,实现了异构ECG数据向统一指令式问答对的转化,为医疗多模态大语言模型(Med-MLLMs)提供了高质量的跨模态训练基础。其创新性的双向ECG抽象标记(Beat)技术,显著提升了原始信号到语义令牌的压缩效率,推动了心电智能诊断领域的范式革新。
当前挑战
构建Heartcare-220K面临双重挑战:在领域问题层面,ECG信号存在个体差异性大、噪声干扰显著(如肌电伪影和基线漂移)等特性,传统模型对波形细微特征与临床文本的跨模态对齐能力不足;在数据构建过程中,需解决多源数据标准化(12导联信号与扫描图像的分辨率差异)、SCP-ECG标注体系与真实医院报告的术语统一,以及通过HeartAgent引擎实现自动化标注时保持医学严谨性与语义连贯性的平衡问题。这些挑战促使研究者开发分层向量量化与双向扩散机制,以保障信号-文本联合建模的精确度。
常用场景
经典使用场景
在心血管疾病研究领域,Heartcare-220K数据集因其多模态特性和精细标注体系,成为心电图智能分析的重要基准。该数据集最经典的应用场景在于支持多任务联合建模,研究者可同时进行疾病诊断、波形形态分析和节律解释等关键任务,其融合的12导联原始信号与结构化报告数据,为开发端到端诊断模型提供了跨模态训练范本。
实际应用
在临床实践场景中,该数据集支撑的HeartcareGPT系统已实现心电图报告的智能生成与异常节律实时预警。其特有的双向ECG抽象标记化技术将原始信号压缩为语义丰富的离散令牌,使得基层医疗机构可通过移动终端快速获取三甲医院级别的诊断建议,大幅缩短了心血管急症的黄金救治窗口期。
衍生相关工作
基于该数据集衍生的研究工作主要集中在多模态表征学习方向,包括上海交通大学开发的ECG-Transformer跨模态对齐框架,以及阿里巴巴提出的动态心电信号重建算法。这些工作通过继承Heartcare-220K的层级标注体系,在心律不齐早期筛查和心肌缺血动态监测等细分领域取得了突破性进展。
以上内容由遇见数据集搜集并总结生成



