MedSPOT

Name: MedSPOT
Creator: 印度国立技术学院·Srinagar分校·Gaash研究实验室; e&集团; 穆罕默德·本·扎耶德人工智能大学; 阿卜杜拉国王科技大学
Published: 2026-03-20 22:43:53
License: 暂无描述

arXiv2026-03-20 更新2026-03-24 收录

下载链接：

https://github.com/Tajamul21/MedSPOT

下载链接

链接失效反馈

官方服务：

资源简介：

MedSPOT是由印度国立技术学院等机构联合构建的临床GUI工作流感知序列标注基准，涵盖10种医疗影像软件平台的216个任务驱动视频与597个标注关键帧。该数据集通过分层标注捕捉动态界面状态下的空间精度与上下文依赖关系，每个任务包含2-3个互相关联的临床工作流步骤。数据采集过程模拟真实医疗操作场景，采用严格的多级标注协议确保决策帧的因果一致性。该基准旨在评估多模态大模型在安全关键医疗环境中的序列推理能力，解决传统单步标注方法无法反映临床工作流错误传播的核心问题。

MedSPOT is a clinical GUI workflow-aware sequence labeling benchmark jointly developed by the National Institute of Technology India and other collaborating institutions. It encompasses 216 task-driven videos and 597 annotated key frames spanning 10 medical imaging software platforms. Through hierarchical annotation, this dataset captures spatial accuracy and contextual dependencies within dynamic interface states, with each task consisting of 2 to 3 mutually correlated clinical workflow steps. The data collection process simulates real-world medical operational scenarios and adopts a strict multi-level annotation protocol to ensure the causal consistency of decision-making frames. This benchmark aims to evaluate the sequential reasoning capabilities of multimodal large language models (LLMs) in safety-critical medical environments, addressing the core limitation of traditional single-step annotation methods that fail to reflect error propagation in clinical workflows.

提供机构：

印度国立技术学院·Srinagar分校·Gaash研究实验室; e&集团; 穆罕默德·本·扎耶德人工智能大学; 阿卜杜拉国王科技大学

创建时间：

2026-03-20

原始信息汇总

MedSPOT 数据集概述

数据集基本信息

数据集名称：MedSPOT
核心用途：评估多模态大语言模型在医学影像软件图形用户界面上的定位与交互能力。
发布状态：已发布。
相关论文：MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI
数据集访问地址：https://huggingface.co/datasets/Tajamul21/MedSPOT
项目代码仓库：https://github.com/Tajamul21/MedSPOT
官方网站：https://rozainmalik.github.io/MedSPOT_web/

数据集内容与特点

评估对象：涵盖10款医学影像应用程序的GUI，包括3DSlicer、DICOMscope、Weasis、MITK等。
任务性质：工作流程感知的顺序性基础任务。
评估协议：采用顺序评估，若模型在某一步失败，则任务提前终止，以模拟真实GUI交互中错误累积的情况。

评估指标

指标名称	全称	描述
TCA	任务完成准确率	所有步骤均按顺序正确完成的任务比例。
SHR	步骤命中率	所有被评估步骤中，每一步的准确率。
S1A	第一步准确率	每个任务中第一步的准确率。

数据集结构

MedSPOT-Bench/ Annotations/ 3DSlicer_Annotation.json DICOMscope_Annotation.json Weasis_Annotation.json ... Images/ 3DSlicer/ DICOMscope/ Weasis/ ...

标注格式

标注文件为JSON格式，每个文件包含一个tasks列表。每个任务包含task_overview和steps。每个步骤包含：

step_id：步骤序号。
image_path：对应图像路径。
instruction：操作指令。
actions：一个动作列表，每个动作包含type（如“click”）、target（目标描述）和bbox（边界框坐标）。

评估与结果

评估脚本：提供针对多个模型的独立评估脚本，包括GUI-Actor、GPT-5、GPT-4o-mini、CogAgent-9B、Qwen2-VL、Gemma3-27B、Llama-3.2-11B等。
结果保存路径：

results/ ModelName/ SoftwareName/ task_results.json task_metrics.json failure_statistics.json overall_dataset_metrics.json

使用依赖

通用依赖：torch>=2.0, transformers>=4.40, pillow, tqdm。
模型加载：部分模型从Hugging Face加载，需提前登录并获取访问权限。
API模型：评估GPT-5、GPT-4o-mini等模型需预先设置OPENAI_API_KEY环境变量。

参考文献

若在研究中使用本数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在临床图形用户界面（GUI）研究领域，MedSPOT数据集的构建采用了严谨的流程化方法。该数据集通过录制真实临床软件交互视频，从中提取关键决策帧，并利用标注工具进行结构化注释。具体而言，研究者从10种不同的医学影像软件平台中录制了216个任务驱动的交互序列，每个任务包含2至3个相互依赖的步骤，最终形成了597个标注关键帧。注释过程确保了每个步骤都对应一个自然语言指令、语义目标描述以及归一化的边界框坐标，从而将原始视频转化为具有因果一致性的序列化空间决策任务。

使用方法

在使用MedSPOT数据集进行评估时，需遵循其设计的序列化评估流程。模型在每一步接收GUI截图和自然语言指令，预测点击坐标，并与标注的真实边界框进行比对。评估采用早期终止策略：一旦某一步预测错误，该任务的后续步骤将不再评估，以此模拟真实工作流中错误传播的影响。评估指标包括任务完成准确率、步骤命中率、第一步准确率以及加权前缀分数，这些指标共同衡量模型在序列化空间决策中的稳健性。研究者可通过分析失败分类分布，深入理解模型在边缘偏差、小目标错误、工具栏混淆等特定错误模式上的表现，从而指导模型改进。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）的快速发展，其在临床软件环境中执行可靠视觉定位的能力仍待深入探索。现有图形用户界面（GUI）基准主要关注孤立、单步的定位查询，忽视了现实医疗界面中所需的顺序性、工作流驱动的推理过程。MedSPOT数据集由Gaash Research Lab、e& Group、MBZUAI及KAUST等机构的研究人员于2026年提出，旨在填补这一空白。该数据集专注于临床GUI环境中的工作流感知顺序定位，核心研究问题在于评估多模态模型在动态界面状态下的多步空间决策能力。通过涵盖10个医疗成像软件平台、216个任务驱动视频及597个标注关键帧，MedSPOT首次将顺序依赖性与严格评估协议引入医疗软件领域，为安全关键的医疗自动化研究提供了现实基准。

当前挑战

MedSPOT所解决的领域问题在于临床GUI环境中的工作流感知顺序定位，其挑战主要体现为多步推理的脆弱性。医疗界面通常具有密集的结构化布局、层次化工具栏及领域特定术语，要求模型在连续步骤中维持像素级空间精度，早期定位错误会因状态依赖而传播，导致后续动作无效。在构建过程中，数据集面临标注复杂性的挑战，包括从真实临床交互视频中提取因果一致的关键帧、确保多步骤任务间的时序依赖性，以及为密集医疗界面元素定义精细的空间边界框。此外，数据集的规模相对有限，仅支持点击交互，缺乏拖拽、滚动等常见动作，这限制了其在更广泛医疗工作流中的评估范围。

常用场景

经典使用场景

在临床图形用户界面（GUI）自动化研究领域，MedSPOT数据集被广泛用于评估多模态大语言模型（MLLMs）在医疗软件环境中的工作流感知空间定位能力。该数据集通过模拟真实临床工作流程，如医学影像加载、标注、测量及导出等任务，要求模型依据自然语言指令在动态界面中连续执行2至3步相互依赖的点击操作。其经典使用场景在于测试模型在密集结构化工具栏、层级菜单及专业术语界面下的序列化视觉推理能力，尤其关注模型在错误传播下的稳健性，为医疗GUI智能体开发提供了关键基准。

解决学术问题

MedSPOT主要解决了多模态模型在安全关键领域中的序列化空间定位问题。传统GUI定位基准多关注单步独立查询，忽视了临床软件中任务依赖界面状态演化的特性。该数据集通过严格早期终止评估协议，量化多步工作流中的错误传播，并引入六类失败分类法（如边缘偏差、小目标错误等），系统诊断模型在复杂医疗界面中的行为缺陷。其意义在于首次将评估焦点从孤立定位转向工作流感知的序列推理，为医疗AI在交互式软件环境中的可靠性研究奠定了实证基础。

实际应用

在实际应用层面，MedSPOT为临床软件自动化工具的开发和验证提供了重要测试平台。其涵盖Orthanc、3D Slicer等10种医疗影像软件，模拟了从DICOM查看、图像分割到报告生成等真实工作流程。该数据集可用于训练和评估能够辅助医生操作专业软件的智能代理，减少人为操作错误，提升诊疗效率。同时，其严格的序列评估机制有助于识别模型在安全关键场景中的潜在风险，为医疗AI系统的临床部署前验证提供关键参考。

数据集最近研究