MARCUS multimodal cardiac dataset
收藏arXiv2026-03-24 更新2026-03-25 收录
下载链接:
https://github.com/AshleyLab/MARCUS
下载链接
链接失效反馈官方服务:
资源简介:
MARCUS多模态心脏数据集由斯坦福大学和加州大学旧金山分校联合创建,包含心电图(ECG)、超声心动图和心脏磁共振(CMR)三大类数据,总计1350万张图像。其中包含24.9万条ECG、126.6万张超声心动图图像和1219万张CMR图像,数据来源于临床真实病例的医师标注报告。数据集通过三阶段优化流程构建:视觉编码器预训练、74.1万专家问答对监督微调,以及87.9万诊断问题的强化学习。该数据集旨在解决心血管疾病多模态诊断的临床瓶颈,为开发能够综合解读原始心脏检查数据的AI系统提供基础支撑。
The MARCUS Multimodal Cardiac Dataset was jointly developed by Stanford University and the University of California, San Francisco. It encompasses three categories of data: electrocardiogram (ECG), echocardiogram, and cardiac magnetic resonance (CMR), with a total of 13.5 million images. Specifically, it contains 249,000 ECG records, 1.266 million echocardiogram images, and 12.19 million CMR images, all sourced from physician-annotated reports of real clinical cases. The dataset is constructed via a three-stage optimization pipeline: pre-training of visual encoders, supervised fine-tuning with 741,000 expert question-answer pairs, and reinforcement learning based on 879,000 diagnostic questions. This dataset aims to address the clinical bottlenecks in multimodal diagnosis of cardiovascular diseases and provides foundational support for developing AI systems that can comprehensively interpret raw cardiac examination data.
提供机构:
斯坦福大学; 加州大学旧金山分校
创建时间:
2026-03-24
原始信息汇总
MARCUS 数据集概述
数据集基本信息
- 数据集名称:MARCUS (Multimodal Autonomous Reasoning and Chat for Ultrasound and Signals)
- 核心描述:一个用于心脏诊断和管理的多模态、自主推理的视觉语言模型代理系统。
- 主要功能:用于心脏诊断,涵盖三种成像模态:心电图(ECG)、超声心动图(Echo)和心脏磁共振成像(CMR)。
- 基础模型:基于 Qwen 2.5-VL(30亿参数)构建。
- 训练数据:在超过1300万张来自斯坦福大学医学中心的心脏图像和信号上训练。
- 系统架构:包含三个专门的专家模型,并由一个代理协调器统一管理,该协调器负责分解临床查询、路由到适当的专家,并通过反事实幻象检测合成最终答案。
关键性能指标
- 多模态心脏基准测试准确率:70%(对比:GPT-5 Thinking 22%,Gemini 2.5 Pro Deep Think 27%)。
- 幻象(幻觉)率:0%(对比:GPT-5 Thinking ~38%,Gemini 2.5 Pro Deep Think ~35%)。
单模态多选题(MCQ)准确率
| 模态 | 斯坦福(内部) | 加州大学旧金山分校(外部) | 对比 GPT-5 Thinking | 对比 Gemini 2.5 Pro Deep Think |
|---|---|---|---|---|
| ECG | 87% | 91% | +39% | +40% |
| Echo | 67% | 86% | +33% | +44% |
| CMR | 88% | 85% | +30% | +44% |
| 多模态 | 70% | — | +48% | +43% |
视觉问答(VQA)李克特量表评分(1–5)
| 模态 | MARCUS | GPT-5 Thinking | Gemini 2.5 Pro Deep Think |
|---|---|---|---|
| ECG | 3.65 | — | — |
| Echo | 2.41 | — | — |
| CMR | 2.91 | — | — |
基准测试
- 名称:MARCUS-Benchmark
- 总问题数:超过160万个。
- 模态:ECG、超声心动图(Echocardiography)、CMR。
- 问题格式:视觉问答(VQA,自由文本)和多选题(MCQ,4选项)。
- 评估集:斯坦福(内部)、加州大学旧金山分校(外部)。
- HuggingFace 数据集地址:https://huggingface.co/datasets/stanford-cardiac-ai/MARCUS-Benchmark
可用数据分割
ecg_mcq_stanfordecg_vqa_stanfordecho_mcq_stanfordecho_mcq_ucsfcmr_mcq_stanfordcmr_mcq_ucsfmultimodal_mcq_stanford
模型权重
所有专家模型检查点均在 HuggingFace 上发布,隶属于 Stanford Cardiac AI 组织。所有模型均基于 Qwen/Qwen2.5-VL-3B-Instruct 微调。
- 基础模型链接:https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct
- 组织链接:https://huggingface.co/stanford-cardiac-ai
数据预处理
系统支持将原始临床数据转换为模型就绪的输入。
- ECG:支持
.npy或 XML 格式,可渲染为医院风格 PNG 图像。 - 超声心动图:支持 DICOM
.tgz格式,可处理为网格视频。 - CMR:支持 DICOM
.tgz格式,可处理为网格视频。
训练数据格式
训练数据应以 JSON Lines(.jsonl)格式提供,包含图像/视频路径和对话内容。
许可证
- 许可证类型:MIT
- 许可证链接:https://opensource.org/licenses/MIT
相关链接
- 代码仓库:https://github.com/stanford-cardiac-ai/MARCUS
- HuggingFace 模型:https://huggingface.co/stanford-cardiac-ai/MARCUS
- arXiv 论文:https://arxiv.org/abs/XXXX.XXXXX
搜集汇总
数据集介绍

构建方式
在心血管疾病诊断领域,多模态数据融合已成为提升诊断准确性的关键路径。MARCUS数据集的构建依托于斯坦福大学医疗中心的临床资源,系统整合了心电图、超声心动图及心脏磁共振成像三大核心非侵入性检查模态。该数据集通过专家引导的两阶段流程生成:首先由心脏病学专家设计涵盖诊断发现、定量测量与临床建议的百类问题模板,随后利用大型语言模型基于医师文本报告自动生成模态特异性问题,并从中提取真实答案作为基准。最终形成包含74.1万视觉问答对与87.9万诊断选择题的大规模专家标注数据集,所有数据均配有医师验证的文本报告作为真值参照。
特点
MARCUS数据集的核心特征体现在其规模性与多模态协同性。数据集涵盖近1350万张临床图像,包括24.9万份心电图、126.6万张超声心动图图像及1219.2万张心脏磁共振图像,构成当前最大的多模态心脏影像数据集合。其独特价值在于突破了单模态数据局限,通过智能体协调架构实现跨模态信息合成,模拟临床医师综合研判不同检查结果的认知过程。数据集特别设计了需同时整合三种模态数据的复杂评估任务,并引入对抗幻象推理的验证机制,确保模型输出严格基于视觉证据而非文本先验,为心血管人工智能研究提供了兼具广度与深度的基准平台。
使用方法
该数据集主要服务于多模态视觉语言模型的训练与评估。研究者可利用其分层标注结构开展分阶段优化:首先基于大规模图像与配对报告进行视觉编码器预训练,随后在专家标注的视觉问答对上进行监督微调,最终通过诊断选择题进行强化学习优化。评估框架包含视觉选择题准确率与开放式临床推理质量双轨指标,支持单模态独立评估与多模态协同分析。数据集提供的标准化测试集涵盖斯坦福内部与UCSF外部验证队列,支持模型泛化能力检验。使用过程中需注意遵循临床数据使用协议,并可通过其开源的智能体架构实现跨模态推理的可解释性分析。
背景与挑战
背景概述
心血管疾病是全球首要致死病因,其诊疗高度依赖心电图、超声心动图和心脏磁共振等多模态非侵入性检查。然而,临床实践中面临诊断量激增与心脏专科医生短缺的双重压力,人工解读耗时且存在主观差异。为应对这一挑战,斯坦福大学、加州大学旧金山分校等机构的研究团队于2026年发布了MARCUS多模态心脏数据集。该数据集旨在构建一个能够端到端解读原始心脏信号与影像的智能系统,核心研究问题是突破现有视觉语言模型在单模态输入和静态推理方面的局限,实现跨模态的协同诊断与交互式临床决策支持。通过整合超过1350万张临床图像和160万条专家标注的问答数据,MARCUS为开发新一代心脏人工智能奠定了关键的数据基础,显著推动了心血管影像智能分析领域的发展。
当前挑战
MARCUS数据集致力于解决心脏多模态智能诊断中的核心挑战。在领域问题层面,首要挑战在于实现跨心电图、超声心动图和心脏磁共振的异构数据融合与协同解读,这要求模型不仅能精准理解各模态的独立特征,还需具备临床级的综合推理能力,以模拟心脏科医生的诊断思维。其次,模型需克服‘幻影推理’现象,即确保其诊断依据完全源于提供的视觉数据而非先验文本模式,这对临床部署的可信度至关重要。在构建过程中,数据集面临多维度挑战:一是大规模高质量标注数据的获取与校验,需协调顶尖心脏专家进行耗时耗力的问答对标注与报告提取;二是多模态数据的标准化预处理,例如将原始心电图信号转化为视觉模型可处理的图像格式,以及对超声视频进行动态帧分析与视图筛选;三是确保模型在不同医疗机构、设备与采集协议下的泛化能力,这要求数据本身具备足够的多样性与代表性。
常用场景
经典使用场景
在心血管疾病诊断领域,MARCUS多模态心脏数据集为构建智能辅助系统提供了关键支撑。该数据集整合了心电图、超声心动图和心脏磁共振成像三大非侵入性检查模态,其经典应用场景在于训练和验证多模态视觉语言模型,以实现对原始心脏信号的端到端自动解读。通过包含1350万张图像和160万条专家标注的问答对,数据集支持模型在单模态和多模态任务中进行精准诊断与交互推理,模拟临床医生综合分析多种检查结果以制定诊疗决策的过程,从而有效应对心脏疾病诊断中数据解读的复杂性与时效性挑战。
衍生相关工作
围绕MARCUS数据集,已衍生出一系列重要的相关研究工作。其核心模型架构采用了分层智能体设计,融合了针对特定模态的视觉编码器与多阶段语言模型优化策略,这一思路为后续多模态医学人工智能系统提供了可借鉴的范式。此外,数据集配套的基准测试集与开源代码促进了心脏影像分析领域的标准化评估,激励研究者开发更稳健的跨模态融合算法。相关工作还深入探讨了视觉语言模型中的幻象推理现象,并提出了通过智能体协调机制实现抗幻觉验证的方法,为提升医学人工智能的可信度奠定了理论基础。
数据集最近研究
最新研究方向
在心血管疾病诊疗领域,多模态医学影像与生理信号的综合分析正成为人工智能研究的前沿热点。MARCUS数据集的推出,标志着该领域从单一模态分析向跨模态协同推理的范式转变。该数据集整合了心电图、超声心动图及心脏磁共振成像三大核心非侵入性检查手段,并构建了包含1350万张图像与160万条专家标注问答的大规模基准。其核心研究方向聚焦于智能体驱动的多模态视觉-语言模型架构,通过分层代理协调器实现跨模态信息的自主分解与综合,有效解决了传统模型在注意力稀释与幻象推理方面的固有局限。这一进展不仅显著提升了单模态与多模态诊断的准确率,更为临床提供了可交互的决策支持工具,有望缓解全球心血管专科医生短缺的压力,推动精准医疗的普惠化发展。
相关研究论文
- 1MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management斯坦福大学; 加州大学旧金山分校 · 2026年
以上内容由遇见数据集搜集并总结生成



