U-MRG-14K
收藏arXiv2025-08-12 更新2025-08-13 收录
下载链接:
https://pris-cv.github.io/MedReasoner.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
U-MRG-14K是一个包含14,000个样本的数据集,旨在解决医学影像分析中的关键问题:如何将临床思维精确地映射到像素级别。该数据集包含了像素级别的掩码,以及隐含的临床查询和推理轨迹,跨越了10种模态,15个超类别和108个具体类别。数据集的创建过程严谨,使用了GPT-4作为模拟器,通过精心设计的提示流程生成了高质量的QA对,包括隐含查询、推理轨迹和最终的目标区域定位。U-MRG-14K旨在帮助研究人员评估模型是否能够将隐含的临床查询转换为精确的像素级定位,从而在医学影像分析中提高诊断效率和可解释性。
U-MRG-14K is a dataset containing 14,000 samples, aiming to address a critical challenge in medical image analysis: how to precisely map clinical reasoning to pixel-level details. This dataset includes pixel-level masks, implicit clinical queries and reasoning trajectories, spanning 10 modalities, 15 super-categories and 108 specific categories. The dataset was constructed rigorously, using GPT-4 as a simulator to generate high-quality QA pairs via a meticulously designed prompting pipeline, covering implicit queries, reasoning trajectories and final target region localization. U-MRG-14K aims to assist researchers in evaluating whether models can convert implicit clinical queries into precise pixel-level localizations, thereby improving diagnostic efficiency and interpretability in medical image analysis.
提供机构:
北京邮电大学
创建时间:
2025-08-12
原始信息汇总
MedReasoner 数据集概述
数据集简介
- 名称: U-MRG-14K
- 核心任务: Unified Medical Reasoning Grounding (UMRG)
- 主要特点:
- 首个将隐式临床查询、思维链推理(CoT)和像素级定位相结合的数据集
- 包含14,000个样本
- 覆盖15个超级类别和108个细粒度类别
数据集构建
- 三阶段构建流程:
- 数据清洗和元数据组织(人工)
- 通过GPT-4o生成描述和QA格式
- 生成QA对并进行人工验证
- 数据特点:
- 使用GPT-4o模拟真实临床隐式查询
- 每个样本包含:
- 结构化推理痕迹
- 精确的像素级掩码
- 对齐的问答对
数据集比较优势
| 数据集 | 提示数量 | 问答对 | 超级类别 | 细粒度类别 | 思维链推理 |
|---|---|---|---|---|---|
| SA-Med2D | 20M | ❌ | 219 | - | ❌ |
| BioMedParse | 1.1M | ❌ | 3 | 82 | ❌ |
| IMED | 361M | ❌ | 6 | 204 | ❌ |
| MoCoVQA | 100K | ✅ | - | - | ❌ |
| U-MRG-14K | 14K | ✅ | 15 | 108 | ✅ |
应用框架
- MedReasoner框架:
- 临床推理模块(CRM): 解释隐式查询并预测空间提示(边界框和关键点)
- 解剖分割模块(ASM): 使用MedSAM2将提示转换为高分辨率掩码
- 奖励函数设计:
- 格式奖励(确保结构化输出)
- 框和点奖励(评估定位准确性)
- 平滑和惩罚项(确保训练稳定性)
实验结果
- 最佳表现模型: MedReasoner (7B参数)
- IoU: 32.42
- pDice: 26.55
- Dice: 37.78
- 超级类别表现(IoU):
- Abdomen: 30.27
- Brain: 32.81
- Heart: 34.72
- Lung: 50.75
- Neoplasm: 33.58
- Non-Neoplasm: 37.19
数据示例
- 元信息示例:
- 包含模态、健康状况、超级类别、类别、简短描述和详细描述
- 覆盖解剖结构(腹部、大脑、肺、心脏)和病变(肿瘤、非肿瘤)
- 问答对示例:
- 包含问题、思考过程和答案(边界框和关键点)
- 同样覆盖多种解剖结构和病变类型
引用信息
bibtex @misc{yan2025medreasonerreinforcementlearningdrives, title={MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision}, author={Zhonghao Yan and Muxi Diao and Yuxuan Yang and Jiayuan Xu and Kaizhou Zhang and Ruoyan Jing and Lele Yang and Yanxi Liu and Kongming Liang and Zhanyu Ma}, year={2025}, eprint={2508.08177}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.08177}, }
搜集汇总
数据集介绍

构建方式
U-MRG-14K数据集的构建采用了多阶段流程,首先从公开医学影像数据集中筛选14K图像-掩码对,涵盖10种成像模态和108个细粒度类别。通过GPT-4o模拟临床医生行为,设计三阶段提示流程生成语义丰富的问答对,包括隐式查询、思维链推理轨迹和像素级标注。所有数据经过标准化分类和人工验证,确保临床合理性与空间标注准确性。
特点
该数据集首创性地整合了隐式临床查询与像素级标注,包含15个超类别和108个细粒度解剖结构/病变类别。每个样本配备思维链推理注释,支持从语义理解到空间定位的端到端评估。其多模态覆盖性和层次化分类体系为医学视觉-语言推理任务提供了前所未有的细粒度基准。特别设计的模糊查询模式有效模拟真实临床场景中的指代不确定性。
使用方法
研究者可利用该数据集训练和评估医学视觉推理模型,重点关注隐式查询到像素定位的转化能力。典型流程包括:加载图像-文本对,解析思维链注释指导模型推理,通过边界框和关键点预测生成空间提示,最终由分割模块输出掩码。评估指标涵盖IoU(交并比)、pDice(点相似度)和Dice系数,全面衡量推理准确性与空间定位精度。
背景与挑战
背景概述
U-MRG-14K是由北京邮电大学、中关村研究院和北京信息科技大学的研究团队于2025年8月发布的一个医学图像数据集。该数据集专注于医学图像中的统一医学推理定位(UMRG)任务,旨在通过结合临床推理和像素级定位,解决医学图像分析中的关键问题。U-MRG-14K包含14,000个样本,涵盖10种成像模态、15个超级类别和108个特定类别,每个样本均配有像素级掩码、隐含临床查询和推理轨迹。该数据集的发布推动了医学多模态大语言模型(MLLMs)在临床实践中的应用,特别是在处理隐含查询和精确定位方面的能力。
当前挑战
U-MRG-14K面临的挑战主要包括两个方面:1) 领域问题的挑战:医学图像中的隐含查询通常缺乏明确的空间提示,这使得模型需要具备强大的推理能力以从模糊的临床问题中推断出目标区域;2) 构建过程的挑战:数据集的构建需要高质量的像素级标注和临床推理轨迹,这在实际操作中成本高昂且耗时。此外,确保数据集的多样性和代表性,涵盖多种成像模态和临床场景,也是一个重要的挑战。
常用场景
经典使用场景
U-MRG-14K数据集在医学图像分析领域被广泛应用于统一医学推理定位(UMRG)任务。该数据集通过结合像素级标注与隐含临床查询,支持从自然语言描述到精确图像分割的端到端模型训练。典型应用包括基于强化学习的多模态大语言模型(如MedReasoner)的优化,其中临床推理模块(CRM)通过空间提示生成与解剖分割模块(ASM)的交互,实现从模糊查询到ROI定位的转化。
衍生相关工作
基于U-MRG-14K的MedReasoner框架催生了多项医学视觉推理研究:1)SegZero通过解耦推理与分割实现零样本定位;2)VLMR1-REC探索规则强化学习在视觉定位中的泛化性;3)SAM4MLLM将分割任意模型(SAM)与MLLMs结合,增强开放词汇医学分割能力。这些工作共同推进了多模态模型在超声、内镜等复杂场景中的应用。
数据集最近研究
最新研究方向
近年来,U-MRG-14K数据集在医学影像与自然语言处理的交叉领域引起了广泛关注,特别是在医学推理与像素级定位任务中展现出重要价值。该数据集通过整合14K样本的像素级掩码、隐含临床查询及推理轨迹,覆盖了10种影像模态和108种特定类别,为医学多模态大语言模型(MLLMs)的精细化训练提供了关键支持。前沿研究聚焦于强化学习驱动的模块化框架MedReasoner,其创新性地将临床推理模块(CRM)与解剖分割模块(ASM)解耦,通过格式与精度奖励优化空间提示生成,显著提升了模型对隐含临床表述的解析能力与定位精度。这一方向与当前医疗AI领域追求可解释性、泛化性的趋势高度契合,尤其在放射科辅助诊断、手术规划等场景中,为解决传统监督训练依赖显式空间提示的局限性提供了新范式。相关技术突破被2025年CVPR等顶会收录,并推动了一系列针对医学视觉-语言对齐的后续研究,如基于因果干预的跨模态分割(CausalCLIPSeg)和零样本推理分割(SegZero)等工作。
相关研究论文
- 1MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision北京邮电大学 · 2025年
以上内容由遇见数据集搜集并总结生成



