MIRP - Medical Imaging Relative Positioning

Name: MIRP - Medical Imaging Relative Positioning
Creator: 德国乌尔姆大学媒体信息学研究所视觉计算组, 德国乌尔姆大学医疗中心诊断和介入放射科, 美国Axiom Bio公司
Published: 2025-08-01 19:44:06
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://wolfda95.github.io/your_other_left/

下载链接

链接失效反馈

官方服务：

资源简介：

MIRP数据集是乌尔姆大学媒体信息学研究所视觉计算组、乌尔姆大学医疗中心诊断和介入放射科、美国Axiom Bio公司联合创建的，旨在评估视觉语言模型在医学图像中识别相对位置的能力。该数据集包含4878张腹部CT切片图像，每张图像配有一个关于两个解剖结构相对位置的问答对。图像经过随机旋转和翻转，以确保模型必须从图像内容而非解剖先验知识中推导出相对位置。数据集中的问答对通过TotalSegmentator深度学习分割模型生成，该模型能够从CT扫描中分割出117个解剖结构。此外，数据集还包含三种类型的视觉标记，用于测试视觉标记是否可以提高模型的性能。

The MIRP dataset was jointly developed by the Visual Computing Group of the Institute of Media Informatics at Ulm University, the Department of Diagnostic and Interventional Radiology of Ulm University Medical Center, and Axiom Bio, Inc. of the United States. It is designed to evaluate the capability of vision-language models to recognize relative positions within medical images. This dataset comprises 4,878 abdominal computed tomography (CT) slice images, with each image paired with a question-answer pair concerning the relative positions of two anatomical structures. All images have been subjected to random rotation and flipping to ensure that models must derive relative position information from the image content rather than relying on anatomical prior knowledge. The question-answer pairs in the dataset are generated via the TotalSegmentator deep learning segmentation model, which can segment 117 anatomical structures from CT scans. Additionally, the dataset includes three types of visual tokens for testing whether visual tokens can enhance model performance.

提供机构：

德国乌尔姆大学媒体信息学研究所视觉计算组, 德国乌尔姆大学医疗中心诊断和介入放射科, 美国Axiom Bio公司

创建时间：

2025-08-01

搜集汇总

数据集介绍

构建方式

MIRP数据集通过整合来自BTCV和AMOS两个公开腹部CT数据集的三维体积数据构建而成。利用TotalSegmentator深度学习分割模型提取117种解剖结构的掩膜，并筛选包含至少两个解剖结构的轴向PNG切片。为确保数据多样性，所有切片均经过随机旋转和翻转处理，并采用软组织窗以优化结构可视化。数据集中每个问题-答案对均基于两个解剖结构的质心坐标生成，同时引入数字、字母和彩色点三种视觉标记增强模型识别能力。

特点

该数据集的核心特点在于系统性评估视觉语言模型在医学图像中识别相对位置的能力。通过标准化模板生成4878个关于解剖结构空间关系的问题-答案对，并采用平衡设计确保正负样本均等。独特的标记系统（数字、字母、彩色点）与随机图像变换相结合，有效区分模型对先验解剖知识和实际图像内容的依赖程度。特别设计的腹部CT切片选择策略，既保证了临床相关性又涵盖了复杂空间关系场景。

使用方法

使用MIRP数据集时，研究者可通过标准化流程评估模型性能：输入包含标记的CT切片及结构化问题，如'结构1是否位于结构2的左侧/右侧'。评估分为三个阶段：基础性能测试（无标记）、标记增强测试（含解剖名称）和纯视觉测试（仅标记）。开源代码支持快速实现图像预处理、模型推理和结果分析，特别建议结合旋转/翻转后的图像验证模型对空间关系的真实理解能力，而非依赖解剖学先验知识。

背景与挑战

背景概述

MIRP（Medical Imaging Relative Positioning）数据集由Ulm University和Ulm University Medical Center的研究团队于2025年推出，旨在系统评估视觉语言模型（VLMs）在医学影像中识别解剖结构相对位置的能力。该数据集基于腹部CT切片，通过标准化问题模板和视觉标记（如字母、数字或彩色点）构建，重点关注临床决策中至关重要的空间关系理解问题。其创新性在于通过随机旋转和翻转图像，强制模型依赖图像内容而非先验解剖知识进行判断，填补了现有医学视觉问答基准在相对位置任务上的空白。MIRP的发布为提升VLMs在放射学报告生成、手术规划等临床应用的可靠性提供了关键评估工具。

当前挑战

MIRP数据集面临的核心挑战体现在两方面：领域问题层面，现有VLMs在未标记医学影像上的相对位置识别准确率仅接近随机猜测（50%），且添加视觉标记后改进有限（最优模型GPT-4o准确率仅59.7%），暴露了模型过度依赖语言组件中的先验解剖知识而忽视图像内容的严重缺陷；构建技术层面，需克服医学影像的特殊性挑战——包括解剖结构形态变异大（如术后改变、内脏转位）、多器官空间关系复杂，以及确保标记位置（基于TotalSegmentator分割结果）与问题设计的严格匹配。此外，数据集通过随机旋转/翻转消除坐标系偏见的策略，也增加了问题-答案对生成的逻辑复杂性。

常用场景

经典使用场景

MIRP数据集在医学影像分析领域具有重要应用价值，特别是在评估视觉语言模型（VLMs）在医学图像中识别相对位置的能力方面。通过提供腹部CT切片和相关的相对位置问题，MIRP数据集为研究人员提供了一个系统化的评估工具，用于测试VLMs在临床环境中的适用性。

实际应用

在实际应用中，MIRP数据集可用于开发和优化支持放射科医生进行复杂任务（如放射报告生成或手术规划）的视觉语言模型。通过提升模型在识别解剖结构相对位置方面的准确性，该数据集有助于减少诊断错误并改善患者治疗效果。

衍生相关工作

MIRP数据集启发了多项相关研究，特别是在视觉提示（如字母或数字标记）对提升VLMs性能方面的探索。此外，该数据集还促进了针对医学影像中空间理解能力的模型优化研究，为后续更复杂的3D医学影像分析奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集