M3CoTBench

Name: M3CoTBench
Creator: 浙江大学; 中国科学技术大学; 华东师范大学; 浙江省人民医院; 新加坡国立大学
Published: 2026-01-14 01:42:27
License: 暂无描述

arXiv2026-01-14 更新2026-01-15 收录

下载链接：

https://juntaojianggavin.github.io/projects/M3CoTBench/

下载链接

链接失效反馈

官方服务：

资源简介：

M3CoTBench是由浙江大学等机构联合构建的医学多模态思维链评测基准，涵盖24种影像检查类型和13种临床推理任务。该数据集包含1,079组经专家校准的医学图像-QA对，数据源自55个公共医学数据集并通过Biomed-CLIP特征筛选确保典型性。其创新性在于采用GPT-4o生成推理驱动型问题，并通过三阶段人工-AI协同校准流程保证质量，标注过程严格遵循临床诊断的假设-验证认知模型。该数据集旨在评估多模态大模型在医学影像理解中的可解释推理能力，推动医疗AI系统实现透明、可信的诊断决策。

M3CoTBench is a medical multimodal chain-of-thought evaluation benchmark jointly developed by Zhejiang University and other institutions, covering 24 types of medical imaging examinations and 13 clinical reasoning tasks. The dataset comprises 1,079 expert-calibrated medical image-QA pairs, sourced from 55 public medical datasets, with its typicality guaranteed via Biomed-CLIP-based feature screening. Its core innovation lies in generating reasoning-driven questions using GPT-4o, and ensuring data quality through a three-stage human-AI collaborative calibration workflow, where the annotation process strictly follows the hypothesis-verification cognitive model adopted in clinical diagnosis. This benchmark is designed to evaluate the explainable reasoning capabilities of multimodal large language models (LLMs) in medical image understanding, and to advance the realization of transparent and trustworthy diagnostic decision-making in medical AI systems.

提供机构：

浙江大学; 中国科学技术大学; 华东师范大学; 浙江省人民医院; 新加坡国立大学

创建时间：

2026-01-14

原始信息汇总

M3CoTBench 数据集概述

数据集基本信息

数据集名称: M3CoTBench
核心目标: 标准化并系统评估多模态大语言模型（MLLMs）在医学图像理解中的临床推理链（CoT）能力。
论文地址: https://arxiv.org/abs/2601.08758

数据集构成

数据规模: 包含 1,079 张医学图像。
覆盖范围: 涵盖 24 种成像模态/检查类型。
问题类型: 包含 4 种问题类型。
任务类型: 覆盖 13 项临床推理任务。
数据标注: 包含与真实临床诊断工作流程一致的逐步推理步骤标注。数据根据难度进行分层。

评估框架与指标

评估维度: 提出一个多维度的评估协议，专注于衡量推理链的以下方面：
1. 正确性
2. 效率
3. 影响力
4. 一致性
评估目的: 实现对不同 MLLMs 推理链行为的细粒度和可解释性分析。

基准测试结果概览

在评估的模型中，部分关键指标的最高得分如下：

总体正确性 (F1) 最高: 66.07 (Gemini 2.5 Pro)
精确率 (P) 最高: 65.68 (Lingshu-32B)
召回率 (R) 最高: 70.10 (Gemini 2.5 Pro)
直接答案准确率 (Acc direct) 最高: 63.81 (InternVL3.5-30B)
步骤答案准确率 (Acc step) 最高: 60.06 (Gemini 2.5 Pro)
影响力 (I) 最高正值: +4.50 (Qwen3-VL-Thinking-8B)
效率 (E) 最高: 0.35 (LLaVA-Med (7B))
效率 (L) 最低 (越好): 1.10 (GPT-5)
一致性 (Cpath) 最高: 85.22 (Claude-Sonnet-4.5)

搜集汇总

数据集介绍

构建方式

在医学影像理解领域，构建一个能够评估多模态大语言模型思维链推理能力的基准数据集，需要严谨的流程设计。M3CoTBench的构建遵循了系统化的数据收集、标注与校准原则。其图像数据来源于55个公开医学影像数据集，覆盖了从放射学到内窥镜等24种检查类型，确保了模态与解剖区域的广泛多样性。数据标注采用自动化与人工专家协同的混合模式：首先利用GPT-4o等先进模型生成初步的问题-答案对及思维链关键步骤，随后通过多轮医学专家（包括临床医生和学生）的审查、反馈与修订进行校准。这种构建方式不仅保证了数据集的规模与多样性，更通过专家介入确保了医学内容的准确性与临床推理流程的对齐，为评估模型的透明推理能力奠定了可靠基础。

特点

M3CoTBench数据集的核心特点体现在其多维度的评估框架与临床导向的任务设计上。数据集涵盖了从基础感知到高级临床推理的13种任务类型，包括影像质量评估、病灶定位、疾病诊断、病因分析及治疗建议等，形成了难度递进的评估谱系。其独特之处在于为每个样本提供了结构化的思维链标注，这些标注模拟了临床医生的诊断思维流程，通常包含检查类型确认、关键视觉特征识别、核心诊断结论以及基于医学知识的延伸分析四个步骤。此外，数据集引入了针对思维链推理的四个专项评估维度——正确性、效率、影响力和一致性，能够对模型生成推理步骤的准确性、计算开销、对最终答案的增益效果以及跨任务推理路径的稳定性进行精细化度量，从而全面揭示模型在医学影像理解中的深层推理能力。

使用方法

该数据集主要作为评估基准，用于系统衡量多模态大语言模型在医学影像理解任务中进行思维链推理的性能。研究人员可将待评估模型在M3CoTBench的1079个图像-问题对上进行测试，要求模型生成包含中间推理步骤的答案。评估时，需分别计算模型在‘直接输出答案’和‘进行思维链推理后输出答案’两种模式下的答案准确率，并利用数据集提供的思维链标注真值，通过自动化指标（如精确率、召回率）和专家判读相结合的方式，量化模型生成推理步骤在正确性、效率、影响力及一致性四个维度的表现。通过对比不同模型或同一模型不同设置下的结果，可以深入分析模型在医学领域进行可解释、分步推理的优势与局限，从而推动开发更透明、可信且与临床思维契合的人工智能系统。

背景与挑战

背景概述

M3CoTBench 是一个专注于医学图像理解中多模态大语言模型（MLLMs）链式思维推理的基准数据集，由浙江大学、新加坡国立大学等机构的研究团队于2026年创建。该数据集旨在解决当前医学图像理解基准中普遍忽视推理路径质量的问题，通过引入涵盖24种影像检查类型、13种不同难度任务的多样化数据，以及针对正确性、效率、影响力和一致性四个维度的评估指标，系统性地评估MLLMs在医学图像分析中的逐步推理能力。其核心研究问题在于如何推动医学人工智能系统向透明、可信且符合临床诊断逻辑的方向发展，为医疗领域的高风险决策提供可靠支持。

当前挑战

M3CoTBench 面临的挑战主要体现在两个方面：首先，在领域问题层面，医学图像理解需要模型不仅输出最终答案，还需生成符合临床思维过程的逐步推理链，这要求模型具备跨模态对齐、视觉特征提取与医学知识整合的复杂能力，而当前MLLMs在生成可靠且可解释的推理路径方面仍存在显著局限，例如容易产生幻觉或忽略关键诊断特征。其次，在构建过程中，数据集的创建需克服多模态医学数据的异质性、标注一致性与医学合规性等难题，包括从55个公共数据源中筛选典型图像、通过AI与专家协同标注确保推理步骤的临床准确性，以及设计兼顾任务多样性与评估严谨性的基准框架。

常用场景

经典使用场景

在医学影像理解领域，M3CoTBench作为首个专注于评估多模态大语言模型链式思维推理能力的基准，其经典使用场景在于系统性地检验模型在复杂临床任务中生成逐步推理路径的质量。该数据集通过涵盖24种影像模态和13类临床任务，模拟了从基础感知到高阶诊断推理的全流程，使得研究者能够深入分析模型在识别关键视觉特征、推导诊断结论及进行附加医学分析等环节的表现，从而为提升模型在医疗场景下的透明度和可信度提供关键依据。

解决学术问题

M3CoTBench主要解决了医学人工智能领域中长期存在的“黑箱”推理问题，即现有基准大多仅关注最终答案的准确性，而忽视了模型生成中间推理步骤的质量与可靠性。通过引入针对正确性、效率、影响力和一致性的多维评估指标，该数据集使得学术界能够量化模型推理链与临床思维过程的吻合程度，从而推动可解释性医疗AI系统的发展。其意义在于为多模态大语言模型在医学影像理解中的推理能力设立了新的评估标准，促进了透明、可信且符合临床诊断逻辑的AI模型的研发。

衍生相关工作

M3CoTBench的推出激发了医学多模态推理领域的一系列相关研究。例如，基于该基准的评估结果，后续工作开始探索如何将链式思维机制更有效地融入医学专用大语言模型的训练中，如改进的Med-Flamingo和LLaVA-Med变体。同时，该数据集也促进了新型评估方法的发展，如针对推理路径一致性的量化指标被广泛应用于后续的医学视觉问答基准中。此外，许多研究利用M3CoTBench揭示的模型缺陷，开发了增强视觉-语言对齐的技术，从而提升了多模态模型在复杂临床推理任务上的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集