MEETI (MIMIC-IV-Ext ECG-Text-Image)

Name: MEETI (MIMIC-IV-Ext ECG-Text-Image)
Creator: 新加坡国立大学公共卫生学院与数据科学研究所, 北京大学心血管数据科学国家研究院, 北京大学人工智能研究院
Published: 2025-07-21 13:32:44
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://github.com/PKUDigitalHealth/MIMIC-IV-ECG-Ex

下载链接

链接失效反馈

官方服务：

资源简介：

MEETI数据集是一个多模态心电图数据集，基于MIMIC-IV-ECG构建，包含了原始心电信号、高分辨率心电图图像、提取的心电参数以及大型语言模型生成的详细文本解释。数据集包含超过78万个12导联心电记录，与近16万名患者的专家报告相匹配。MEETI数据集为研究和开发心电图人工智能系统提供了全面的基准，支持从多角度分析心脏健康，并促进可解释的多模态心血管人工智能的发展。

The MEETI dataset is a multimodal electrocardiogram (ECG) dataset constructed based on MIMIC-IV-ECG. It contains raw electrocardiographic signals, high-resolution ECG images, extracted ECG parameters, and detailed textual explanations generated by large language models. The dataset includes over 780,000 12-lead ECG records matched with expert reports from approximately 160,000 patients. The MEETI dataset provides a comprehensive benchmark for the research and development of artificial intelligence systems for electrocardiography, supports multi-perspective analysis of cardiac health, and promotes the development of interpretable multimodal cardiovascular artificial intelligence.

提供机构：

新加坡国立大学公共卫生学院与数据科学研究所, 北京大学心血管数据科学国家研究院, 北京大学人工智能研究院

创建时间：

2025-07-21

搜集汇总

数据集介绍

构建方式

MEETI数据集基于MIMIC-IV-ECG这一大规模临床心电图数据库构建，通过整合原始波形信号、高分辨率心电图图像、逐搏定量参数及大语言模型生成的详细文本解释，实现了多模态数据的同步对齐。数据集构建过程中，采用FeatureDB工具包进行波形特征提取，包括P波、QRS波群和T波的定位与参数计算；利用开源库生成标准化心电图图像；并通过角色引导的提示策略，结合GPT-4o生成与临床参数相锚定的专业解读文本。所有数据通过唯一标识符实现跨模态关联，形成包含78万条记录的大规模多模态资源。

特点

作为首个同步整合原始信号、可视化图像、定量参数与语义解释的心电图多模态数据集，MEETI的突出特点体现在其临床细粒度表征能力。数据集包含12导联波形信号（500Hz采样率）及其对应的高清渲染图像（300dpi），精确保留临床纸式记录的空间电压-时间关系。通过逐搏提取的21类特征参数（如PR间期、QTc值等）实现了亚秒级生理状态刻画，而大语言模型生成的解释文本则建立了参数与诊断语义的显式关联。这种四维对齐结构突破了传统单模态数据局限，为可解释心血管AI提供了从信号特征到临床推理的全链条研究基础。

使用方法

研究者可通过统一标识符跨模态访问原始信号（WFDB格式）、PNG格式图像、MATLAB特征矩阵及JSON格式文本报告。典型应用场景包括：1）多模态联合训练，利用卷积网络处理图像特征、时序模型分析波形信号、Transformer融合文本语义；2）可解释性研究，通过参数-文本对齐关系验证模型决策逻辑；3）教育工具开发，结合图像可视化与专业解读辅助临床教学。数据集采用层级目录结构组织，提供Python示例脚本实现快速数据加载。需注意图像数据规模限制，用户可基于开源绘图工具扩展样本量。

背景与挑战

背景概述

MEETI（MIMIC-IV-Ext ECG-Text-Image）数据集由HeartVoice Medical Technology、新加坡国立大学、北京大学人民医院等机构的研究团队于2025年创建，旨在解决心血管疾病诊断中多模态数据融合的关键问题。作为首个同步整合原始心电信号、高分辨率波形图像、节拍级量化参数及大模型生成文本解释的大规模心电数据集，MEETI基于著名的MIMIC-IV-ECG数据库扩展而来，包含超过78万条临床12导联记录。该数据集通过统一四种模态数据的标识符对齐，为可解释性心血管AI系统开发提供了基准平台，显著推动了心电图分析从传统单模态模型向跨信号-视觉-语义的多模态推理范式转变。

当前挑战

MEETI数据集面临的挑战主要体现在两个维度：在领域问题层面，需突破心电信号与视觉-语言模态的语义鸿沟，解决现有AI系统对波形时空动力学特征与临床文本描述关联理解不足的难题；在构建过程中，需克服多源数据同步对齐的技术瓶颈，包括原始信号与渲染图像的时空精度匹配、节拍级参数提取的算法鲁棒性优化，以及基于大模型生成诊断文本的医学准确性验证。此外，数据规模与质量的平衡亦构成挑战，需在保持800,000条记录临床多样性的同时，确保各模态数据在噪声干扰和缺失情况下的可用性。

常用场景

经典使用场景

MEETI数据集在心血管疾病研究中展现出广泛的应用价值，尤其在心律失常、心肌缺血和传导障碍的诊断中具有重要作用。该数据集通过整合原始ECG波形数据、高分辨率图像和详细的文本解释，为研究者提供了一个多模态分析的平台。经典使用场景包括开发基于深度学习的ECG自动诊断系统，这些系统能够同时处理信号、图像和文本信息，从而提升诊断的准确性和可解释性。此外，MEETI还支持跨模态对齐研究，探索信号与图像、文本之间的关联性，为多模态机器学习模型的开发提供了丰富的实验数据。

实际应用

MEETI数据集在实际医疗场景中具有广泛的应用潜力。在临床诊断中，基于MEETI训练的AI系统可以辅助医生快速解读ECG，减少人为误差并提高诊断效率。在远程医疗领域，多模态ECG数据的整合使得远程诊断更加可靠，尤其适用于资源匮乏地区的医疗服务。此外，MEETI还可用于医学教育，通过提供丰富的案例和详细的解释，帮助医学生和培训医师提升ECG解读能力。数据集的开放性和标准化结构也使其成为开发新型ECG分析工具的理想测试平台。

衍生相关工作

MEETI数据集已经衍生出多项重要的研究工作。例如，GEM（Grounded ECG Understanding with Time Series and Images）项目利用MEETI训练了多模态大语言模型，实现了对ECG信号的深入理解和解释。另一项研究Diffusets则探索了基于临床文本报告生成12导联ECG信号的方法，进一步扩展了MEETI在生成模型中的应用。此外，CardioLearn系统利用MEETI中的多模态数据开发了云端深度学习服务，用于心脏疾病的自动检测。这些工作不仅验证了MEETI的科学价值，也为未来心血管AI的发展提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集