SurgVLM-DB

Name: SurgVLM-DB
Creator: 新加坡国立大学, 南洋理工大学, 牛津大学, 通用人工智能国家重点实验室, 上海交通大学, 中山大学, 香港中文大学
Published: 2025-06-03 15:44:41
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://jinlab-imvr.github.io/SurgVLM

下载链接

链接失效反馈

官方服务：

资源简介：

SurgVLM-DB是一个大规模的多模态手术数据库，包含超过181万张图像和7.79亿个对话，涵盖了16种手术类型和18种解剖结构。该数据集由23个公开数据集整合而成，经过标准化标签和层次化视觉-语言对齐，以全面覆盖从视觉感知、时间分析到高级推理的逐渐细粒度的手术任务。SurgVLM-DB旨在解决手术领域中对视觉语言模型的特殊需求，并支持开发更精确、层次化的认知辅助模型，以提高手术的安全性和效率。

SurgVLM-DB is a large-scale multimodal surgical database, comprising over 1.81 million images and 779 million surgical dialogues, covering 16 surgical categories and 18 anatomical structures. This dataset is curated from 23 public datasets, and has been processed with standardized labeling and hierarchical visual-language alignment, to comprehensively cover increasingly fine-grained surgical tasks ranging from visual perception, temporal analysis to advanced reasoning. SurgVLM-DB aims to address the specialized requirements of visual-language models in the surgical domain, and supports the development of more precise and hierarchical cognitive assistance models to enhance surgical safety and efficiency.

提供机构：

新加坡国立大学, 南洋理工大学, 牛津大学, 通用人工智能国家重点实验室, 上海交通大学, 中山大学, 香港中文大学

创建时间：

2025-06-03

原始信息汇总

SurgVLM 数据集概述

1. 数据集基本信息

名称: SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence
开发者:
- Zhitao Zeng, Zhu Zhuo, Xiaojun Jia, Erli Zhang, Junde Wu
- Jiaan Zhang, Yuxuan Wang, Chang Han Low, Jian Jiang, Zilong Zheng
- Xiaochun Cao, Yutong Ban, Qi Dou
- Yang Liu, Yueming Jin
机构:
- 新加坡国立大学、南洋理工大学、牛津大学
- 通用人工智能国家重点实验室、上海交通大学
- 中山大学、香港中文大学

2. 数据集组成

SurgVLM-DB:
- 包含16种手术类型和18种解剖结构
- 1.181M标注图像和7.79M对话
SurgVLM-Bench:
- 包含6个流行且广泛使用的手术领域数据集
- 涵盖多个关键下游任务

3. 数据集特点

规模: 超过1.81百万帧图像和7.79百万对话
多样性: 涵盖16种手术类型和18种解剖结构
任务覆盖: 10种手术任务，从视觉感知到时间分析再到高级推理

4. 数据集任务示例

器械识别: 识别手术器械的类别
器械定位: 定位手术器械在图像中的位置
组织识别: 识别手术图片中显示的组织
组织定位: 标记组织在图像中的位置
阶段识别: 基于图像识别手术阶段
步骤识别: 识别手术图像的步骤
动作识别: 识别外科医生执行的动作
三元组识别: 识别工具、动作和目标的三元组
安全关键视图: 确认每个关键视图标准是否满足

5. 性能评估

评估基准: SurgVLM-Bench
评估指标: Arena Score、Phase Acc、Action Acc、Triplet Acc、CVS Acc、VQA Acc、Loc mIoU
性能对比: SurgVLM-72B在Arena Score上比Gemini 2.0 Flash提高了75.4%

6. 数据集亮点

SurgVLM-DB: 大规模手术多模态数据库
SurgVLM-Bench: 全面的视觉语言模型评估基准
SurgVLM: 用于手术智能的大型视觉语言模型

7. 数据集访问

代码: SurgVLM
数据集: SurgVLM-DB、SurgVLM-Bench、SurgVLM-7B、SurgVLM-32B、SurgVLM-72B

搜集汇总

数据集介绍

构建方式

SurgVLM-DB的构建采用了系统化的四阶段流程，旨在解决大规模手术数据集构建中的关键挑战。首先，通过数据清理与精炼模块，消除模糊标签并统一专业术语，确保标注的准确性和一致性。其次，跨任务相关性增强模块将相关手术任务（如手术阶段与步骤）的标签配对，形成综合文本提示，以显式利用任务间的层次关系。随后，解释性答案生成模块为每个样本添加详细解释，将视觉证据与文本描述紧密结合，增强细粒度视觉-语言对齐。最后，对话多样性扩展模块通过设计100-200种不同的对话模板和单轮/多轮对话形式，极大丰富了交互风格，防止模型过拟合特定格式。这种多阶段增强策略使SurgVLM-DB能更真实地反映临床交互场景。

使用方法

SurgVLM-DB支持三种典型应用范式：对于视觉感知任务，可直接加载器械/组织定位的边界框标注或网格坐标，配合层次化问题模板进行细粒度视觉定位训练；在时序分析任务中，可利用阶段-步骤-动作的三级关联标注，通过跨任务提示增强实现时序上下文建模；针对高级推理任务，CVS评估等场景需结合解剖结构定位与安全标准文本描述进行联合推理。数据集已预置单轮/多轮对话格式，研究者既可基于固定模板进行标准评估，也可通过开放词汇协议测试模型在自由对话中的临床可靠性。所有数据均采用原始手术视频帧率采样，保持时序连续性，建议配合动态分辨率视觉编码器以处理不同尺寸的手术场景。

背景与挑战

背景概述

SurgVLM-DB是由新加坡国立大学、南洋理工大学、牛津大学等多家研究机构联合开发的大规模多模态手术数据库，旨在推动手术智能领域的基础模型研究。该数据集创建于2025年，包含超过181万帧手术图像和779万条对话数据，涵盖16种手术类型和18种解剖结构。作为首个专注于手术领域的大规模视觉语言数据库，SurgVLM-DB通过整合23个公开数据集并重新组织10个核心手术任务，解决了通用视觉语言模型在手术场景中缺乏领域特定监督的关键问题。该数据集的创新性在于采用分层视觉语言对齐方法，从基础视觉感知到高级推理任务构建了完整的任务体系，为手术智能的发展提供了重要基础设施。

当前挑战

SurgVLM-DB面临的挑战主要体现在两个维度：领域问题挑战方面，手术场景具有器械遮挡、组织边界模糊、光照条件不稳定等特殊复杂性，现有通用视觉语言模型难以准确理解手术场景中的专业语义；构建过程挑战方面，高质量手术数据的获取受限于隐私保护要求，专业标注成本高昂，且不同来源数据集存在标签不一致、任务定义碎片化等问题。此外，手术视频的时序依赖性建模、多模态对齐的精确性，以及对话模板的多样性扩展都是构建过程中需要解决的技术难点。这些挑战使得开发能够同时处理器械识别、阶段分析和安全评估等多任务的手术基础模型变得尤为复杂。

常用场景

经典使用场景

SurgVLM-DB作为当前规模最大、覆盖最广的手术多模态数据库，其经典应用场景集中在手术智能的三大核心能力构建：视觉感知、时序分析与高阶推理。该数据集通过整合16种手术类型、18种解剖结构的181万标注图像与779万对话数据，为手术阶段识别、器械定位、组织交互分析等任务提供了统一的训练基准。其层次化任务架构（从基础视觉定位到复杂安全评估）尤其适用于开发通用型手术视觉-语言模型，如SurgVLM系列模型在胆囊切除术中的器械识别准确率提升96.5%，展现了数据集在细粒度手术认知任务中的关键价值。

解决学术问题

SurgVLM-DB有效解决了手术AI领域长期存在的三大核心问题：首先，通过标准化23个公开数据集标签并建立跨任务关联，消除了领域内标签不一致性与任务碎片化问题；其次，其构建的层次化视觉-语言对齐机制（包含10项手术任务）突破了通用视觉语言模型在手术场景中输出模糊、专业术语缺失的局限；最后，该数据集首次实现了从单帧感知到多帧时序推理的完整闭环，如在CholecT50数据集上将手术动作三元组识别准确率提升608.1%，为手术工作流理解建立了新的研究范式。

实际应用

在实际临床场景中，SurgVLM-DB支撑的模型系统已展现出多重应用价值：手术导航系统通过实时器械定位（mIoU达59.4%）辅助医生精确操作；教学培训平台利用其丰富的阶段-动作标注数据（覆盖RARP前列腺切除术等复杂术式）生成结构化教学案例；术后报告自动化系统则基于其7.79万条解释性对话数据，可生成符合临床标准的操作记录。特别在关键安全视图评估（CVS）任务中，模型准确率达76.86%，显著降低了胆囊切除术中的误判风险。

数据集最近研究