Med-CMR

github2025-12-10 更新2025-12-11 收录

下载链接：

https://github.com/LsmnBmnc/Med-CMR

下载链接

链接失效反馈

官方服务：

资源简介：

Med-CMR是一个细粒度的基准测试，集成了视觉证据和临床逻辑，用于医学复杂多模态推理。它包括七个任务，每个任务对应一种特定类型的医学多模态推理复杂性。

Med-CMR is a fine-grained benchmark that integrates visual evidence and clinical logic for complex medical multimodal reasoning. It comprises seven tasks, each corresponding to a specific type of complexity in medical multimodal reasoning.

创建时间：

2025-11-30

原始信息汇总

Med-CMR 数据集概述

数据集基本信息

数据集名称：Med-CMR
全称：Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning
核心描述：一个细粒度的基准测试，集成了视觉证据和临床逻辑，用于医学复杂多模态推理。
任务数量：包含七个任务，每个任务对应一种特定类型的医学多模态推理复杂性。

基准测试排行榜

多选题任务

专有模型表现

最佳模型：GPT-5 (2025年)，在所有七个子任务（SOD, FDD, SU, TP, CR, LTG, MSI）及总分上均排名第一。
第二名模型：Gemini-2.5-Pro (2025年)，在所有子任务及总分上均排名第二。

开源模型表现

最佳模型：Qwen3-VL-235B-A22B，在总分上排名第一。
第二名模型：InternVL3.5-241B-A28B，在总分上排名第二。

开放式问题任务

专有模型表现

最佳模型：GPT-5 (2025年)，在四个评估维度（Con, Coh, VA, GT）及总分上均排名第一。
第二名模型：Gemini-2.5-Pro (2025年)，在四个评估维度及总分上均排名第二。

开源模型表现

最佳模型：InternVL3.5-241B-A28B，在总分上排名第一。
第二名模型：Qwen3-VL-235B-A22B，在总分上排名第二。

引用信息

如果研究中使用 Med-CMR，请引用提供的论文。

联系方式

主要联系人：Haozhen Gong
邮箱：haozhengong75@gmail.com

搜集汇总

数据集介绍

构建方式

在医学人工智能领域，构建能够模拟临床医生复杂推理过程的数据集至关重要。Med-CMR基准的构建过程体现了严谨的学术设计，其核心在于整合视觉证据与临床逻辑。数据集通过精心设计七个独立的子任务，分别对应不同类型的医学多模态推理复杂性，例如空间方位判别、功能描述诊断、场景理解等。每个任务的问题与答案均源于真实的临床场景，并经过领域专家的严格审核与标注，确保了医学知识的准确性与逻辑链条的完整性。这种结构化的构建方式旨在系统性地评估模型在融合图像信息与文本知识后进行高阶推理的能力。

使用方法

对于研究者而言，使用Med-CMR基准可以系统评估多模态大语言模型在医学复杂推理任务上的性能。数据集已托管于Hugging Face平台，便于直接加载使用。评估过程主要分为两大类：多项选择题与开放式问答题。用户需使用其模型对数据集中的问题进行推理并生成答案，随后按照官方提供的评估脚本计算在各子任务及综合指标上的得分。研究社区可通过提交结果文件至项目仓库参与公开排行榜的排名，从而进行横向比较。该基准的使用不仅有助于诊断模型的不足，也为推动医学人工智能向更深层次的认知与推理能力发展提供了明确的优化方向。

背景与挑战

背景概述

在医学人工智能领域，多模态推理能力是评估模型临床实用性的核心指标。Med-CMR数据集于2025年由Haozhen Gong等研究人员提出，旨在构建一个细粒度基准，整合视觉证据与临床逻辑，以推动医学复杂多模态推理的研究。该数据集涵盖了七类专项任务，对应不同的医学推理复杂度，为模型提供了从影像识别到逻辑推断的全面评估框架。其出现响应了当前医疗AI模型在深度理解和综合判断上的不足，通过引入结构化挑战任务，显著提升了领域内对模型认知能力的评测标准，为后续研究奠定了重要基础。

当前挑战

Med-CMR致力于解决医学复杂多模态推理这一核心领域问题，其挑战在于要求模型不仅识别医学图像中的视觉特征，还需结合临床知识进行逻辑推断，模拟真实诊断中的综合决策过程。构建过程中的挑战涉及多维度数据的精准对齐与标注，需确保视觉信息与临床文本在语义层面的一致性，同时维护医学专业术语的准确性与逻辑链条的完整性。此外，数据集的细粒度划分要求对各类医学推理场景进行系统化定义与验证，以保障评测任务的科学性与代表性，这增加了数据收集与质量控制的复杂性。

常用场景

经典使用场景

在医学人工智能领域，复杂多模态推理能力的评估一直是推动模型临床实用化的关键环节。Med-CMR数据集通过整合视觉证据与临床逻辑，构建了涵盖七种任务类型的细粒度基准，其经典使用场景在于系统性地评估多模态大语言模型在医学图像与文本联合推理中的性能。研究者利用该数据集对模型进行标准化测试，能够精确衡量模型在空间定向诊断、功能异常检测、手术理解等具体任务上的表现，从而揭示模型在模拟真实临床决策流程中的优势与局限。

解决学术问题

该数据集有效解决了医学人工智能研究中多模态推理评估体系粗糙、缺乏细粒度维度划分的学术难题。传统基准往往难以区分模型在感知、认知与逻辑整合等不同层次的能力，而Med-CMR通过解构临床推理的复杂性，为模型性能提供了多维度的解释性分析。其意义在于建立了连接低级视觉特征提取与高级临床知识应用的评估桥梁，推动了医学多模态模型从感知智能向认知智能的范式转变，为模型的可解释性与可靠性研究提供了坚实基础。

实际应用

在实际应用层面，Med-CMR数据集为开发面向临床辅助决策的智能系统提供了至关重要的验证工具。基于该基准优化的模型，有望应用于医学影像报告的自动生成、手术方案的风险评估、以及罕见病症的跨模态鉴别诊断等场景。例如，模型通过解析CT影像并关联病理文本，能够辅助放射科医生快速定位病灶并推断其临床意义，从而提升诊断效率与一致性，减轻医疗专业人员的工作负担，并潜在降低因人为疏忽导致的误诊风险。

数据集最近研究

Med-CMR

Med-CMR 数据集概述

数据集基本信息

相关资源

基准测试排行榜

多选题任务

专有模型表现

开源模型表现

开放式问题任务

专有模型表现

开源模型表现

引用信息

联系方式