Surg-3M

github2025-03-26 更新2025-03-27 收录

下载链接：

https://github.com/visurg-ai/surg-3m

下载链接

链接失效反馈

官方服务：

资源简介：

Surg-3M是一个包含4K手术高清视频（3M帧，视频采样率为1fps）的数据集，涵盖35种不同的手术类型。每个视频都标注了多标签分类（指示视频中执行的手术类型）和二元分类（指示是否为机器人手术）。

Surg-3M is a dataset composed of 4K high-definition surgical videos (totaling 3 million frames, sampled at 1 frame per second (fps)), covering 35 distinct surgical procedure types. Each video is annotated with two sets of labels: multi-label classification indicating the surgical procedures performed in the video, and binary classification indicating whether the surgery is robot-assisted.

创建时间：

2025-03-10

原始信息汇总

Surg-3M 数据集概述

数据集基本信息

名称: Surg-3M
类型: 手术视频数据集
规模: 4K 高分辨率手术视频（约 3M 帧，采样率为 1fps）
来源: 在线资源聚合
多样性: 包含 35 种不同的手术类型

数据集内容

视频标注:
- 多标签分类（手术类型）
- 二分类（机器人手术或非机器人手术）
标注文件: labels.json

数据集特点

高质量: 高分辨率视频帧
全面性: 涵盖多种手术类型
创新性: 包含两个新颖的任务

数据集获取

请求访问: 学术研究人员可通过填写请求表获取完整数据集（LMDB 格式）
重建数据集: 使用提供的代码和标注文件可重建整个数据集

数据处理流程

视频下载: 使用 video_downloader.py 下载原始 YouTube 视频
视频处理: 使用 video_processor.py 分类和清理视频帧
数据集生成: 使用 create_lmdb_Surg-3M.py 生成图像数据集

基础模型 (SurgFM)

输入: 图像
输出: 1536 维特征向量
下载: SurgFM 完整检查点
训练: 提供训练脚本

引用

bibtex @misc{che2025surg3mdatasetfoundationmodel, title={Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings}, author={Chengan Che and Chao Wang and Tom Vercauteren and Sophia Tsoka and Luis C. Garcia-Peraza-Herrera}, year={2025}, eprint={2503.19740}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.19740}, }

搜集汇总

数据集介绍

构建方式

在计算机辅助手术领域，高质量视觉数据的获取对于提升手术精准度至关重要。Surg-3M数据集通过创新的聚合流程构建，从在线资源收集了4K高分辨率手术视频，并以1fps采样率提取了300万帧图像。该数据集采用多阶段处理流程：首先通过YouTube下载原始视频，随后利用预训练模型对每帧进行手术/非手术分类，最终通过非手术区域掩码和片段剔除技术完成数据清洗。数据标注包含35种手术类型的多标签分类及机器人/非机器人二元分类，所有标注信息存储于标准化JSON文件中。

使用方法

研究人员可通过官方网站申请获取LMDB格式的完整数据集。对于希望自行构建的用户，项目提供了完整的数据处理工具链：包括视频下载器、帧分类器和LMDB转换脚本。使用流程分为四个阶段：配置YouTube访问凭证下载原始视频，运行视频处理器进行帧级清洗，最后转换为LMDB格式以优化读取效率。配套发布的Surg-FM基础模型可直接加载使用，通过简单API调用即可提取1536维图像特征，支持各类下游任务的迁移学习。项目采用模块化设计，各处理环节均可独立运行，便于研究者根据需求定制数据处理流程。

背景与挑战

背景概述

Surg-3M数据集由Chengan Che、Chao Wang等研究人员于2025年提出，旨在解决计算机辅助手术系统中视觉数据解析的瓶颈问题。传统手术数据集规模有限，通常仅包含不足100个视频和10万张图像，难以支撑复杂模型的训练需求。该数据集由VisURG研究团队构建，收录了来自35种不同手术类型的4K高清视频，共计300万帧图像，每帧均标注了手术类型及机器人/非机器人操作分类标签。作为当前规模最大的开放手术视觉数据集，Surg-3M为开发自主手术机器人系统提供了关键数据支撑，其配套的基础模型SurgFM在手术阶段识别、动作识别等下游任务中实现了3.1%-8.9%的性能提升。

当前挑战

在领域问题层面，手术场景感知面临三大核心挑战：手术器械与组织的动态交互导致视觉特征复杂多变；不同手术类型间存在显著领域差异；实时操作要求模型具备毫秒级响应能力。数据集构建过程中，研究团队需攻克视频源质量参差不齐的筛选难题，开发了基于ConvNeXt和DINO的增强蒸馏方法进行帧级标注。针对隐私合规要求，采用非手术对象检测模型对患者敏感信息进行像素级掩膜处理。此外，数据标注需要医学专家参与，而跨机构协作带来的标注标准统一化问题，以及海量视频数据（总时长超过800小时）的存储与处理效率优化，均为项目实施过程中的关键技术壁垒。

常用场景

经典使用场景

在计算机辅助手术领域，Surg-3M数据集凭借其大规模、高质量的手术视频资源，成为训练和验证手术视觉感知模型的黄金标准。该数据集特别适用于多标签分类任务，能够精确识别视频中实施的手术类型，并区分机器人辅助与非机器人辅助手术场景。研究人员通过采样率为1fps的帧序列，可获得超过300万张标注图像，为深度学习模型提供丰富的训练素材。

解决学术问题

Surg-3M有效解决了手术视觉分析中数据稀缺的核心难题。传统开放数据集通常仅包含不足100段视频，而该数据集提供的4K高分辨率视频覆盖35种手术类型，显著提升了模型泛化能力。其衍生的Surg-FM基础模型在手术阶段识别、动作分类和器械检测等下游任务中表现卓越，在AutoLaparo等基准测试中相较现有技术提升达8.9个百分点，为手术自主化研究树立了新的性能标杆。

实际应用

该数据集的实际价值在智能手术系统开发中体现得尤为突出。医疗科技企业可利用其训练手术导航算法，实现实时器械追踪和术野分析。教学医院则借助其多样化的手术案例构建虚拟培训系统，显著降低临床培训成本。特别值得注意的是，数据集包含的机器人手术视频为新一代手术机器人视觉系统的优化提供了关键数据支撑。

数据集最近研究