MMRad-IVL-22K

Name: MMRad-IVL-22K
Creator: 上海交通大学·计算机学院人工智能研究所; 浙江大学医学院·第一附属医院放射科
Published: 2026-02-13 19:49:32
License: 暂无描述

arXiv2026-02-13 更新2026-02-17 收录

下载链接：

https://github.com/qiuzyc/thinking_like_a_radiologist

下载链接

链接失效反馈

官方服务：

资源简介：

MMRad-IVL-22K是由上海交通大学与浙江大学联合开发的首个大规模胸部X光多模态推理数据集，包含21,994条高质量诊断轨迹。该数据集源自MIMIC-CXR数据库，通过35个解剖区域的系统性标注，构建了视觉证据与文本推理交替的放射科医生工作流。数据生成过程采用三阶段验证框架，结合DeepSeek-v3和Qwen2.5-72B模型的自反思与交叉审计，并由医学专家进行临床保真度评估，最终形成平均2.3步推理链条的解剖学引导多模态数据。该数据集旨在推动医学AI实现放射科医生式的视觉-语言交织推理，解决传统文本链式推理导致的临床幻觉问题，在GPT-5等模型实验中使RadGraph指标提升6%。

MMRad-IVL-22K is the first large-scale chest X-ray multimodal reasoning dataset jointly developed by Shanghai Jiao Tong University and Zhejiang University, containing 21,994 high-quality diagnostic trajectories. Derived from the MIMIC-CXR database, this dataset conducts systematic annotation across 35 anatomical regions to establish a radiologist workflow that alternates between visual evidence and textual reasoning. The data generation process adopts a three-stage validation framework, integrating self-reflection and cross-auditing from DeepSeek-v3 and Qwen2.5-72B models, and is subjected to clinical fidelity evaluation by medical experts, ultimately yielding anatomically guided multimodal data with an average of 2.3-step reasoning chains. This dataset aims to advance medical AI towards radiologist-style visual-language interleaved reasoning, address the clinical hallucination problem caused by traditional textual chain reasoning, and improve the RadGraph metric by 6% in experiments on models such as GPT-5.

提供机构：

上海交通大学·计算机学院人工智能研究所; 浙江大学医学院·第一附属医院放射科

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在胸部X光影像分析领域，构建能够模拟放射科医生交错视觉与语言推理过程的数据集至关重要。MMRad-IVL-22K的构建始于对GEMeX-ThinkVG数据集的利用，该数据集提供了经过专家验证的推理轨迹和精确的解剖区域边界框。通过DeepSeek-v3模型对这些链式思维步骤进行总结，初步建立了文本描述与对应解剖区域的视觉关联。为确保推理轨迹的可靠性，后续实施了多阶段验证流程，包括DeepSeek-v3的自我反思、Qwen2.5-72B的交叉审核以及人类领域专家的最终裁定，从而有效减少了幻觉并提升了临床保真度。经过验证的轨迹被聚合到主要的解剖类别中，并从原始MIMIC-CXR图像中裁剪出局部推理图像，最终将这些局部图像、文本描述和坐标组合成交错的多模态推理链，形成了包含21,994条高质量诊断轨迹的数据集。

使用方法

该数据集主要用于训练和评估能够进行原生交错视觉语言推理的大型视觉语言模型。研究人员可利用其多步骤、多模态的推理链，指导模型学习放射科医生般的“观察-思考”循环：模型在生成每一步文本推理时，需同时参考对应的局部视觉证据，并可能输出描述该区域的边界框坐标。数据集支持两种主要应用范式：一是用于微调开源模型，例如论文中训练的Anole-RadCoT模型，使其具备输出交错多模态诊断轨迹的能力；二是用于对先进模型进行零样本基准测试，评估其在无需额外训练的情况下，遵循区域逐一分析并最终合成完整放射学报告的能力。评估指标不仅包括报告生成质量，还引入了生成一致性、语义一致性和 grounding 一致性等专门衡量多模态推理对齐度的指标。

背景与挑战

背景概述

胸部X光影像的智能解读是医学人工智能领域的前沿课题，其核心在于模拟放射科医师交织视觉观察与语言推理的诊断过程。MMRad-IVL-22K数据集由上海交通大学人工智能研究院与浙江大学医学院附属第一医院放射科的研究团队于2026年联合创建，旨在解决现有医学大视觉语言模型在报告生成中依赖纯文本链式思维、缺乏原生多模态交织推理的局限性。该数据集基于MIMIC-CXR构建，包含21,994条高质量诊断轨迹，覆盖35个解剖区域，通过系统化扫描与多阶段验证，首次实现了视觉依据与文本描述在诊断链条中的深度融合。MMRad-IVL-22K的推出为开发更可靠、可解释的医疗AI系统提供了关键资源，推动了医学多模态基础模型向临床工作流对齐的发展。

当前挑战

MMRad-IVL-22K致力于解决医学影像报告生成中模型推理与视觉证据脱节的挑战，即如何使AI像放射科医师一样进行交织的视觉-语言推理，而非仅依赖单次视觉编码后的纯文本演绎。这一领域问题的核心难点在于避免模型产生与影像特征不符的幻觉描述，并确保诊断每一步均有可视化的解剖依据。在数据集构建过程中，研究团队面临多重挑战：首先，需要从现有医学视觉问答数据中提取并精炼出符合临床逻辑的原生交织推理轨迹，涉及对初始生成结果进行多阶段反思与验证，以消除矛盾并保障临床保真度；其次，必须将文本描述与对应的解剖区域视觉信息（如边界框与局部影像裁剪）精确关联，并聚合为结构一致的诊断链条，这一过程要求高度的空间标注准确性与语义对齐。

常用场景

经典使用场景

在医学影像人工智能领域，MMRad-IVL-22K数据集最经典的使用场景是训练和评估能够执行交错式视觉语言推理的大型视觉语言模型。该数据集模拟了放射科医生解读胸部X光片时的认知过程，即视觉观察与语言推理反复交替进行。通过提供包含21,994条高质量诊断轨迹的数据，模型能够学习在特定解剖区域（如肺部、纵隔）进行局部视觉分析，并生成相应的文本推理，最终综合成完整的放射学报告。这种多步、交错的推理模式，使得模型能够更贴近临床实际工作流程，生成更具可解释性和临床准确性的诊断报告。

解决学术问题

MMRad-IVL-22K数据集主要解决了医学人工智能中两个关键的学术问题。首先，它针对现有大型视觉语言模型在生成放射学报告时普遍存在的“幻觉”问题，即推理过程与初始视觉特征脱节，仅依赖纯文本的思维链进行推理。该数据集通过提供与局部视觉证据（裁剪的图像区域）严格对齐的文本推理步骤，强制模型在每一步都“看到”并“思考”，从而将诊断结论建立在可验证的视觉证据之上。其次，它推动了从伪视觉解决方案（如仅输出边界框坐标）向原生交错式多模态推理的范式转变，强调了纹理、密度等丰富视觉细节在可靠医学AI中的不可替代性。

实际应用

该数据集的实际应用场景紧密围绕提升临床辅助诊断系统的可靠性与透明度。基于MMRad-IVL-22K训练的模型，如Anole-RadCoT，能够作为异步临床工作流的一部分，集成到医院的影像归档与通信系统中。在放射科医生审阅影像的间隙，系统可预先生成附带详细视觉-语言推理链的初步报告草案。这不仅为医生提供了第二意见，其透明的推理过程（即模型“看到”了什么并据此“思考”了什么）也增强了医生对AI建议的信任度。虽然完整的推理周期目前约需2分钟，尚不适合实时术中应用，但其与常规报告撰写周期（通常超过30分钟）兼容，具备实际的部署潜力。

数据集最近研究