MEETI (MIMIC-IV-Ext ECG-Text-Image)
收藏arXiv2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/PKUDigitalHealth/MIMIC-IV-ECG-Ex
下载链接
链接失效反馈资源简介:
MEETI数据集是一个多模态心电图数据集,基于MIMIC-IV-ECG构建,包含了原始心电信号、高分辨率心电图图像、提取的心电参数以及大型语言模型生成的详细文本解释。数据集包含超过78万个12导联心电记录,与近16万名患者的专家报告相匹配。MEETI数据集为研究和开发心电图人工智能系统提供了全面的基准,支持从多角度分析心脏健康,并促进可解释的多模态心血管人工智能的发展。
The MEETI dataset is a multimodal electrocardiogram (ECG) dataset constructed based on MIMIC-IV-ECG. It contains raw electrocardiographic signals, high-resolution ECG images, extracted ECG parameters, and detailed textual explanations generated by large language models. The dataset encompasses more than 780,000 12-lead ECG records matched with expert reports from approximately 160,000 patients. The MEETI dataset serves as a comprehensive benchmark for the research and development of artificial intelligence systems for electrocardiography, supports multi-perspective analysis of cardiac health, and facilitates the advancement of interpretable multimodal cardiovascular artificial intelligence.
提供机构:
新加坡国立大学公共卫生学院与数据科学研究所, 北京大学心血管数据科学国家研究院, 北京大学人工智能研究院
创建时间:
2025-07-21
AI搜集汇总
数据集介绍

构建方式
MEETI数据集基于MIMIC-IV-ECG这一大规模临床心电图数据库构建,通过整合原始波形信号、高分辨率心电图图像、逐搏定量参数及大语言模型生成的详细文本解释,实现了多模态数据的同步对齐。数据集构建过程中,采用FeatureDB工具包进行波形特征提取,包括P波、QRS波群和T波的定位与参数计算;利用开源库生成标准化心电图图像;并通过角色引导的提示策略,结合GPT-4o生成与临床参数相锚定的专业解读文本。所有数据通过唯一标识符实现跨模态关联,形成包含78万条记录的大规模多模态资源。
特点
作为首个同步整合原始信号、可视化图像、定量参数与语义解释的心电图多模态数据集,MEETI的突出特点体现在其临床细粒度表征能力。数据集包含12导联波形信号(500Hz采样率)及其对应的高清渲染图像(300dpi),精确保留临床纸式记录的空间电压-时间关系。通过逐搏提取的21类特征参数(如PR间期、QTc值等)实现了亚秒级生理状态刻画,而大语言模型生成的解释文本则建立了参数与诊断语义的显式关联。这种四维对齐结构突破了传统单模态数据局限,为可解释心血管AI提供了从信号特征到临床推理的全链条研究基础。
使用方法
研究者可通过统一标识符跨模态访问原始信号(WFDB格式)、PNG格式图像、MATLAB特征矩阵及JSON格式文本报告。典型应用场景包括:1)多模态联合训练,利用卷积网络处理图像特征、时序模型分析波形信号、Transformer融合文本语义;2)可解释性研究,通过参数-文本对齐关系验证模型决策逻辑;3)教育工具开发,结合图像可视化与专业解读辅助临床教学。数据集采用层级目录结构组织,提供Python示例脚本实现快速数据加载。需注意图像数据规模限制,用户可基于开源绘图工具扩展样本量。
背景与挑战
背景概述
MEETI(MIMIC-IV-Ext ECG-Text-Image)数据集由HeartVoice Medical Technology、新加坡国立大学、北京大学人民医院等机构的研究团队于2025年创建,旨在解决心血管疾病诊断中多模态数据融合的关键问题。作为首个同步整合原始心电信号、高分辨率波形图像、节拍级量化参数及大模型生成文本解释的大规模心电数据集,MEETI基于著名的MIMIC-IV-ECG数据库扩展而来,包含超过78万条临床12导联记录。该数据集通过统一四种模态数据的标识符对齐,为可解释性心血管AI系统开发提供了基准平台,显著推动了心电图分析从传统单模态模型向跨信号-视觉-语义的多模态推理范式转变。
当前挑战
MEETI数据集面临的挑战主要体现在两个维度:在领域问题层面,需突破心电信号与视觉-语言模态的语义鸿沟,解决现有AI系统对波形时空动力学特征与临床文本描述关联理解不足的难题;在构建过程中,需克服多源数据同步对齐的技术瓶颈,包括原始信号与渲染图像的时空精度匹配、节拍级参数提取的算法鲁棒性优化,以及基于大模型生成诊断文本的医学准确性验证。此外,数据规模与质量的平衡亦构成挑战,需在保持800,000条记录临床多样性的同时,确保各模态数据在噪声干扰和缺失情况下的可用性。
常用场景
经典使用场景
MEETI数据集在心血管疾病研究中展现出广泛的应用价值,尤其在心律失常、心肌缺血和传导障碍的诊断中具有重要作用。该数据集通过整合原始ECG波形数据、高分辨率图像和详细的文本解释,为研究者提供了一个多模态分析的平台。经典使用场景包括开发基于深度学习的ECG自动诊断系统,这些系统能够同时处理信号、图像和文本信息,从而提升诊断的准确性和可解释性。此外,MEETI还支持跨模态对齐研究,探索信号与图像、文本之间的关联性,为多模态机器学习模型的开发提供了丰富的实验数据。
实际应用
MEETI数据集在实际医疗场景中具有广泛的应用潜力。在临床诊断中,基于MEETI训练的AI系统可以辅助医生快速解读ECG,减少人为误差并提高诊断效率。在远程医疗领域,多模态ECG数据的整合使得远程诊断更加可靠,尤其适用于资源匮乏地区的医疗服务。此外,MEETI还可用于医学教育,通过提供丰富的案例和详细的解释,帮助医学生和培训医师提升ECG解读能力。数据集的开放性和标准化结构也使其成为开发新型ECG分析工具的理想测试平台。
衍生相关工作
MEETI数据集已经衍生出多项重要的研究工作。例如,GEM(Grounded ECG Understanding with Time Series and Images)项目利用MEETI训练了多模态大语言模型,实现了对ECG信号的深入理解和解释。另一项研究Diffusets则探索了基于临床文本报告生成12导联ECG信号的方法,进一步扩展了MEETI在生成模型中的应用。此外,CardioLearn系统利用MEETI中的多模态数据开发了云端深度学习服务,用于心脏疾病的自动检测。这些工作不仅验证了MEETI的科学价值,也为未来心血管AI的发展提供了新的研究方向。
以上内容由AI搜集并总结生成



