Surg-3M

Name: Surg-3M
Creator: 伦敦国王学院
Published: 2025-03-25 23:05:00
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/visurg-ai/surg-3m

下载链接

链接失效反馈

官方服务：

资源简介：

Surg-3M是一个由伦敦国王学院编译的手术视频数据集，包含超过4000个手术视频和超过300万张高质量图像，涵盖35种不同类型的手术程序。该数据集通过一种新颖的数据聚合管道从网络来源收集高分辨率视频，是迄今为止最大的公开可访问的手术视频数据集。Surg-3M旨在为计算机视觉在手术环境中的感知提供综合资源，并支持下游任务如手术阶段识别、动作识别和工具存在检测等研究。

Surg-3M is a surgical video dataset compiled by King's College London. It comprises over 4,000 surgical videos and more than 3 million high-quality images, spanning 35 distinct surgical procedures. The dataset collects high-resolution videos from web sources through a novel data aggregation pipeline, making it the largest publicly accessible surgical video dataset to date. Surg-3M is designed to serve as a comprehensive resource for computer vision-based perception in surgical environments, and supports research on downstream tasks such as surgical phase recognition, action recognition, and tool presence detection.

提供机构：

伦敦国王学院

创建时间：

2025-03-25

原始信息汇总

Surg-3M 数据集概述

数据集基本信息

名称: Surg-3M
类型: 手术视频数据集
规模: 4K 高分辨率手术视频（约 3M 帧，按 1fps 采样）
来源: 在线资源聚合
官方仓库: https://github.com/visurg-ai/surg-3m
论文: Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings
模型: SurgFM
网站: https://surg-3m.visurg.ai/

数据集内容

视频数量: 超过 4K
帧数量: 超过 3M
手术类型: 35 种多样化的手术类型
标注内容:
- 多标签分类（手术类型）
- 二分类（机器人或非机器人手术）
标注文件: labels.json

数据集特点

高分辨率视频
多样化的手术类型
大规模数据
自监督预训练

数据集获取

访问方式: 学术研究人员可通过填写请求表单获取完整数据集（LMDB 格式）
请求表单: https://surg-3m.visurg.ai/
重建数据集: 使用提供的代码和标注文件可重建整个数据集

数据处理流程

视频下载: 使用 video_downloader.py 下载原始 YouTube 视频
视频处理: 使用 video_processor.py 分类和清理视频帧
数据集生成: 使用 create_lmdb_Surg-3M.py 生成 LMDB 格式数据集

模型信息

名称: SurgFM
类型: 图像基础模型
输入: 图像
输出: 1536 维特征向量
预训练权重: https://huggingface.co/visurg/SurgFM
训练代码: 提供完整训练脚本

引用

bibtex @misc{che2025surg3mdatasetfoundationmodel, title={Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings}, author={Chengan Che and Chao Wang and Tom Vercauteren and Sophia Tsoka and Luis C. Garcia-Peraza-Herrera}, year={2025}, eprint={2503.19740}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.19740}, }

相关资源

数据整理模型: https://huggingface.co/visurg/Surg3M_curation_models
代码仓库: https://github.com/visurg-ai/surg-3m

搜集汇总

数据集介绍

构建方式

Surg-3M数据集的构建采用了创新的聚合流程，通过从在线资源收集高分辨率手术视频。该流程包括视频收集、分类、选择与修剪、预处理以及注释五个关键步骤。首先，从YouTube等平台收集约18K原始视频，随后利用故事板分类器筛选出富含手术内容的视频，并通过手动验证确保准确性。接着，训练帧分类器以识别并修剪非手术帧片段，确保视频中至少90%的帧为手术内容。最后，通过视频标题和ChatGPT辅助的半自动标注方法，结合手动质量控制，确定手术类型和具体手术程序。

特点

Surg-3M数据集是目前最大的开放访问手术视频数据集，包含超过4K个手术视频和3百万张高质量图像，涵盖35种不同类型的手术程序。其显著特点包括多样性（涵盖机器人辅助手术和传统腹腔镜手术）、高质量（视频分辨率多为1280×720p）以及丰富的标注信息（支持多标签手术程序分类和手术类型分类任务）。此外，数据集还引入了两项新颖任务，为手术场景理解提供了更全面的研究基础。

使用方法

Surg-3M数据集可通过公开的GitHub仓库获取，研究人员可下载代码和视频链接列表自行生成数据集，或申请直接访问LMDB格式的完整数据集（需遵守非商业用途许可）。使用流程包括：1）数据预处理（如UI元素裁剪）；2）结合预训练基础模型SurgFM进行下游任务微调（如手术阶段识别、工具检测）；3）评估模型性能。数据集采用CC BY 4.0许可，允许修改和共享，同时提供作者退出机制以尊重原始内容创作者权益。

背景与挑战

背景概述

Surg-3M数据集由伦敦国王学院的研究团队于2025年推出，旨在解决计算机辅助手术领域中高质量视觉数据稀缺的核心问题。该数据集通过创新的聚合流程，从在线资源收集了超过4,000个手术视频和300万张高质量图像，覆盖35种不同类型的手术程序，显著超越了现有公开数据集如Cholec80的规模（18倍）和多样性（35倍）。Surg-3M的创建标志着手术视觉分析领域的重要突破，为开发自主机器人手术系统提供了关键资源。其配套的基础模型SurgFM结合了ConvNeXt和DINO架构，通过自监督学习在手术阶段识别、动作识别和工具检测等下游任务中实现了最先进的性能。

当前挑战

Surg-3M面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，手术场景的复杂性和多样性（如烟雾、血液、运动模糊等干扰因素）对模型的鲁棒性提出极高要求；同时，手术阶段和工具使用的精细识别需要模型具备对细微视觉差异的敏感度。在构建过程中，数据收集面临严格的隐私法规限制，且需克服非手术内容过滤（如厂商特定UI元素）、跨手术类型标注一致性等难题。此外，自监督预训练中如何有效捕捉工具-组织交互等关键特征，以及处理不同分辨率（94%视频为1280×720p，其余6%低至640×480像素）的异构数据，均为技术难点。

常用场景

经典使用场景

Surg-3M数据集在计算机辅助手术领域具有广泛的应用价值，尤其在手术视频分析方面表现突出。该数据集通过整合来自在线资源的高分辨率手术视频，构建了一个包含超过4K手术视频和300万张高质量图像的庞大资源库。其经典使用场景包括手术阶段识别、动作识别和工具存在检测等任务。研究人员可以利用这一数据集训练和验证各种深度学习模型，从而提升手术场景理解的准确性和效率。

衍生相关工作

Surg-3M数据集催生了一系列相关研究工作，其中最突出的是自监督基础模型SurgFM的开发。该模型结合了ConvNeXt和DINO的优势，并引入了创新的增强蒸馏方法，在多个基准测试中超越了现有技术水平。此外，基于Surg-3M的研究还衍生出了新的监督学习应用，如多标签手术程序分类和手术类型分类。这些工作为后续研究提供了重要参考，推动了手术计算机视觉领域的整体发展。

数据集最近研究