SurgΣ-DB

Name: SurgΣ-DB
Creator: 新加坡国立大学; 香港中文大学; 上海交通大学; 英伟达
Published: 2026-03-18 01:27:32
License: 暂无描述

arXiv2026-03-18 更新2026-03-19 收录

下载链接：

https://SurgSigma.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

SurgΣ-DB是由新加坡国立大学、香港中文大学等机构联合构建的大规模手术多模态数据集，旨在推动手术智能基础模型的发展。该数据集包含598万条标注样本，涵盖6个临床专科的18种手术任务，整合了图像和视频级别的丰富标注，并采用半自动化标注流程确保数据质量。数据集通过统一语义设计和结构化推理标注，支持手术理解、推理、规划和生成等多种任务，为提升跨任务泛化能力和可解释性提供了重要资源。

SurgΣ-DB is a large-scale surgical multimodal dataset jointly constructed by institutions including the National University of Singapore and The Chinese University of Hong Kong, aiming to advance the development of foundation models for surgical intelligence. This dataset contains 5.98 million annotated samples, covering 18 surgical tasks across six clinical specialties. It integrates rich annotations at both image and video levels, and adopts a semi-automated annotation pipeline to ensure data quality. With unified semantic design and structured reasoning annotations, the dataset supports various tasks such as surgical understanding, reasoning, planning and generation, serving as a critical resource for enhancing cross-task generalization capability and interpretability.

提供机构：

新加坡国立大学; 香港中文大学; 上海交通大学; 英伟达

创建时间：

2026-03-18

原始信息汇总

SurgΣ-DB 数据集概述

数据集基本信息

数据集名称：SurgΣ-DB
核心定位：用于手术智能的大规模多模态数据基础
主要目标：支持多样化的手术任务，提升跨任务泛化能力和可解释性

数据规模与范围

数据规模：超过 598 万条对话（5.98M conversations）
覆盖范围：涵盖 6 个临床专业和多种手术类型
数据来源：整合了开源数据集、内部临床收集数据和网络来源数据
数据模式：采用统一模式整合异构手术数据源，旨在提高标签一致性和数据标准化

标注内容与任务

标注类型：提供丰富的图像级和视频级标注
任务数量：涵盖 18 个实用的手术任务
任务范畴：覆盖理解、推理、规划和生成
特色标注：包含分层推理标注，为复杂手术场景提供更丰富的语义线索以支持更深层次的上下文理解

基于该数据集训练的模型

BSA
- 能力：能够识别 10 种常见于不同手术过程中的基本动作类型
- 相关论文：arXiv 2603.12787
SurgVLM
- 能力：支持在统一框架内执行多样化手术任务的多模态视觉-语言模型
- 相关论文：arXiv 2506.02555
Surg-R1
- 能力：具有分层推理能力的多模态基础模型，用于可解释的决策支持
- 相关论文：arXiv 2603.12430
Cosmos-H-Surgical
- 能力：能够从手术视频中进行可扩展机器人策略学习的手术世界模型
- 相关论文：arXiv 2512.23162

作者与机构

主要作者：Zhitao Zeng, Mengya Xu, Jian Jiang, Pengfei Guo, Yunqiu Xu, Zhu Zhuo, Chang Han Low, Yufan He, Dong Yang, Chenxi Lin, Yiming Gu, Jiaxin Guo, Yutong Ban, Daguang Xu, Qi Dou, Yueming Jin
贡献说明：前四位作者贡献相同，后四位作者为通讯作者
参与机构：NUS, CUHK, SJTU, NVIDIA

搜集汇总

数据集介绍

构建方式

在手术智能领域，构建大规模、高质量的多模态数据集是推动基础模型发展的关键。SurgΣ-DB的构建采用了系统化的多源数据整合策略，汇集了开源数据集、内部临床采集数据以及网络来源的手术视频。通过半自动化的标注流程，结合专家人工标注与受控合成技术，确保了数据的真实代表性与可扩展的临床保真度。该流程进一步引入了层次化推理标注，以捕捉手术场景中的上下文关系，从而在统一的数据模式与一致的标签空间下，实现了异构数据源的标准化与语义对齐。

使用方法

SurgΣ-DB旨在为手术多模态基础模型的大规模训练提供统一的数据基础。研究人员可利用其标准化的数据格式与丰富的标注，直接进行多任务联合训练或基准测试。数据集支持从静态图像理解到动态视频推理，从感知任务到生成任务的全方位模型开发。具体而言，用户可基于其提供的指令-响应对及推理轨迹，训练模型完成手术器械识别、阶段划分、安全评估乃至未来帧预测等复杂任务，推动手术AI系统向更通用、更可靠的方向发展。

背景与挑战

背景概述

SurgΣ-DB是由新加坡国立大学、香港中文大学、上海交通大学及英伟达等机构的研究团队于2026年提出的大规模多模态手术智能数据基础。该数据集旨在应对手术人工智能领域长期存在的任务特异性强、跨术式和机构泛化能力不足的核心问题。通过整合开源数据集、内部临床收集数据及网络来源视频，SurgΣ-DB构建了一个覆盖6个临床专科、16种手术类型、包含约598万次对话的统一数据架构。其核心研究目标是支持理解、推理、规划与生成等18项手术任务，为训练多模态基础模型提供大规模、高质量且语义一致的数据基础，从而推动手术AI向通用化、可解释化方向发展，对提升手术安全性与可及性具有深远影响。

当前挑战

SurgΣ-DB致力于解决手术多模态基础模型训练中数据稀缺与碎片化的根本挑战。在领域问题层面，手术场景具有视觉复杂、时空结构强、因果依赖显著等特点，模型需克服组织遮挡、器械运动、解剖变异等难题，实现细粒度感知与长程推理。构建过程中的挑战尤为突出：首先，整合异构数据源时面临标注标准不一致、标签空间异质性问题，需通过半自动化流程统一语义与格式；其次，生成高质量分层推理标注成本高昂，需结合专家标注与受控合成以确保临床保真度；此外，涵盖多专科、多任务的大规模数据收集与清洗亦存在工程与伦理上的复杂性。

常用场景

经典使用场景

在手术智能领域，SurgΣ-DB作为大规模多模态数据基础，其经典使用场景在于为手术多模态基础模型的训练与评估提供统一且标准化的数据支持。该数据集整合了来自六个临床专科的异构手术数据，涵盖图像与视频级别的丰富标注，支持理解、推理、规划与生成等十八项任务。通过提供层次化的推理标注与统一的语义设计，SurgΣ-DB使得研究人员能够在一个连贯的数据框架下，训练出具备跨任务泛化能力与可解释性的手术智能模型，从而推动手术AI从特定任务向通用智能的范式转变。

解决学术问题

SurgΣ-DB主要解决了手术人工智能研究中数据碎片化与泛化能力不足的核心问题。传统手术数据集通常局限于单一任务或专科，缺乏大规模、高质量的多模态标注，导致模型难以适应不同手术类型与临床环境的分布偏移。该数据集通过整合异构数据源、统一标注模式与标签空间，并引入层次化推理轨迹，为训练具备跨专科、跨任务泛化能力的手术基础模型提供了关键的数据基础。其意义在于突破了手术AI领域数据稀缺与标注不一致的瓶颈，为构建可解释、可泛化的手术智能系统奠定了实证基础，推动了手术智能从感知向推理与决策的纵深发展。

实际应用

在实际应用层面，SurgΣ-DB支撑的手术智能模型已展现出广泛的临床潜力。例如，基于该数据集训练的SurgVLM等模型能够实现手术场景的多粒度理解，包括器械识别、阶段划分与安全评估，为术中实时辅助决策提供支持。Surg-R1模型通过层次化推理能力，可生成结构化的手术解释，助力外科教学与技能评估。此外，Cosmos-H-Surgical等世界模型能够从视频中合成逼真的手术场景并恢复伪运动学数据，为机器人手术策略学习提供可扩展的训练资源。这些应用共同指向提升手术安全性、一致性与可及性的临床目标。

数据集最近研究