SAP-Bench

Name: SAP-Bench
Creator: 香港中文大学, 上海交通大学, 韩国成均馆大学, 温州医科大学附属第一医院
Published: 2025-06-08 23:30:04
License: 暂无描述

arXiv2025-06-08 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/SAPbench/SAPBench

下载链接

链接失效反馈

官方服务：

资源简介：

SAP-Bench是一个大规模、高质量的用于多模态大型语言模型（MLLM）进行可解释的手术动作规划的数据集。该数据集来源于胆囊切除术过程，平均时长为1137.5秒，包含了1226个经过临床验证的动作剪辑，平均时长为68.7秒，涵盖了五种基本的手术动作。数据集提供了1152个精心采样的当前帧，每个帧都配对了相应的下一个动作作为多模态分析锚点。

SAP-Bench is a large-scale, high-quality dataset for explainable surgical action planning with multimodal large language models (MLLMs). This dataset is derived from cholecystectomy procedures, with an average duration of 1137.5 seconds. It contains 1226 clinically validated action clips with an average duration of 68.7 seconds each, covering five basic surgical actions. The dataset provides 1152 carefully sampled current frames, each paired with the corresponding subsequent action as a multimodal analysis anchor.

提供机构：

香港中文大学, 上海交通大学, 韩国成均馆大学, 温州医科大学附属第一医院

创建时间：

2025-06-08

原始信息汇总

SAP-Bench 数据集概述

基本信息

语言: 英语 (en)
数据规模: 1,000到10,000条数据之间 (1K<n<10K)

数据集配置

cholec50
- 数据文件: cholec50_input.jsonl
- 分割: test
heichole
- 数据文件: heichole_input.jsonl
- 分割: test

数据集目的

用途: 评估多模态大型语言模型在外科手术行动规划中的性能
基准名称: SAP-Bench (Surgical Action Planning Benchmark)

搜集汇总

数据集介绍

构建方式

SAP-Bench数据集的构建基于74例胆囊切除术手术视频，涵盖CholecT50和HeiChole两个主要来源。研究团队通过严格的人工标注流程，识别并提取了1,226个手术动作片段，每个片段均标注了五种基本手术动作类型。为确保数据质量，标注过程中采用了视觉中心性和动作纯净性双重标准，并经过临床验证。数据集特别设计了1,152个关键时间锚点，即当前帧与下一动作的配对样本，为多模态分析提供了精确的时间基础。

特点

该数据集具有显著的临床专业性和时间精确性特征。其动作标注体系涵盖了吸引、凝固、解剖、组织牵拉和血管夹闭五种核心手术动作，其中解剖动作占比最高（48.7%）。时间维度上，动作片段平均持续68.66秒，上下文视频段平均时长达1137.5秒，体现了真实手术的时序复杂性。独特的当前帧-下一动作配对设计（1,152个样本）为模型提供了明确的时序推理目标，而74例患者数据的多样性则确保了临床泛化性。

使用方法

数据集支持通过MLLM-SAP框架进行手术动作规划研究。使用时，模型以当前手术场景帧作为视觉输入，结合注入手术领域知识的自然语言指令，生成下一动作建议。评估采用四级指标体系：样本级严格匹配（Sample-S）、样本级宽松匹配（Sample-R）、视频级严格匹配（Video-S）和视频级宽松匹配（Video-R）。研究建议配合系统提示（手术流程、指南和动作描述）和用户提示（场景理解、进度评估等）的联合使用，以充分发挥数据集的临床推理价值。

背景与挑战

背景概述

SAP-Bench数据集由香港中文大学、上海交通大学等机构的研究团队于2025年推出，旨在解决多模态大语言模型（MLLMs）在外科手术行动规划（Surgical Action Planning, SAP）任务中的评估空白。该数据集基于74例胆囊切除术视频，包含1,226个临床验证的手术动作片段和1,152个关键帧-动作对，覆盖五种基础手术动作。其创新性在于首次将时序标注与多模态分析相结合，为模型提供了从视觉输入生成未来动作序列的标准化测试平台，推动了手术决策支持系统的发展。

当前挑战

领域挑战方面，SAP-Bench需解决手术场景特有的细粒度工具-组织交互识别（如区分凝血与分离动作）、长时程程序协调（平均动作序列长达1137.5秒）以及跨机构泛化等难题。构建挑战则体现在：1) 手术视频中原子动作的精确标注需平衡临床准确性与标注效率，平均每个动作片段需人工验证68.7秒；2) 多模态数据对齐要求严格的时间同步，当前帧与下一动作的配对需精确到1帧误差；3) 领域知识注入需将专业术语（如"关键安全视野"）转化为可计算的提示框架。

常用场景

经典使用场景

在计算机视觉与医疗人工智能交叉领域，SAP-Bench数据集为多模态大语言模型（MLLMs）的外科手术行动规划能力评估提供了标准化测试平台。该数据集通过74例胆囊切除手术的1226个临床验证动作片段，构建了以当前手术场景帧为输入、预测后续手术动作为目标的评估框架，特别适用于验证模型对精细工具-组织交互的原子动作识别和长时序程序协调能力。其标注体系涵盖吸引、凝固、解剖等五种基础手术动作，为模型在动态手术环境中的因果推理和时序预测提供了精确的基准。

衍生相关工作

基于SAP-Bench的评估框架已催生多项创新研究：在模型架构方面，衍生出结合手术知识图谱的MLLM-SAP框架，通过系统提示词注入领域知识；在评估方法上启发了视频级松弛指标（Video-R），适应临床决策的时间弹性需求；同时促进了手术CoT（Chain-of-Thought）推理范式的探索，如SurgRaw项目扩展了原始工作流数据的因果标注。该数据集还被用作Med-Flamingo等医疗大模型的手术决策微调基准，推动通用模型向专科化方向发展。

数据集最近研究